DiCoExpress – это инструмент на основе скриптов, реализованный в R для выполнения анализа RNA-Seq от контроля качества до совместной экспрессии. DiCoExpress обрабатывает полный и несбалансированный дизайн до 2 биологических факторов. Этот видеоурок проведет пользователя через различные функции DiCoExpress.
Правильное использование статистического моделирования в анализе данных NGS требует продвинутого уровня знаний. В последнее время растет консенсус в отношении использования обобщенных линейных моделей для дифференциального анализа данных RNA-Seq и преимущества смешанных моделей для выполнения анализа коэкспрессии. Чтобы предложить управляемую настройку для использования этих подходов к моделированию, мы разработали DiCoExpress, который предоставляет стандартизированный конвейер R для выполнения анализа RNA-Seq. Без каких-либо специальных знаний в области статистики или R-программирования новички могут выполнять полный анализ RNA-Seq от контроля качества до совместного выражения посредством дифференциального анализа на основе контрастов внутри обобщенной линейной модели. Предложен анализ обогащения как по спискам дифференциально экспрессированных генов, так и по коэкспрессированным кластерам генов. Этот видеоурок задуман как пошаговый протокол, чтобы помочь пользователям в полной мере воспользоваться преимуществами DiCoExpress и его потенциала в расширении возможностей биологической интерпретации эксперимента RNA-Seq.
Технология секвенирования РНК следующего поколения (RNA-Seq) в настоящее время является золотым стандартом анализа транскриптома1. С первых дней существования технологии совместные усилия биоинформатиков и биостатистиков привели к разработке многочисленных методов, охватывающих все основные этапы транскриптомного анализа, от картирования до количественной оценки транскриптов2. Большинство инструментов, доступных сегодня биологу, разработаны в программной среде R для статистических вычислений и графиков3, а многие пакеты для анализа биологических данных доступны в репозитории Bioconductor4. Эти пакеты предлагают полный контроль и настройку анализа, но они приходят за счет широкого использования интерфейса командной строки. Поскольку многие биологи более комфортно относятся к подходу «укажи ищелкни» 5, демократизация анализа РНК-Seq требует разработки более удобных интерфейсов или протоколов6. Например, можно создавать веб-интерфейсы пакетов R с помощью Shiny7, а анализ данных командной строки становится более интуитивно понятным с интерфейсом R-studio8 . Разработка специализированных, пошаговых учебников также может помочь новому пользователю. В частности, видеоурок дополняет классический текстовый, что приводит к более глубокому пониманию всех этапов процедуры.
Недавно мы разработали DiCoExpress9, инструмент для анализа многофакторных экспериментов RNA-Seq в R с использованием методов, которые считаются лучшими, основанными на нейтральных сравнительных исследованиях 10,11,12. Начиная с таблицы подсчета, DiCoExpress предлагает этап контроля качества данных, за которым следует дифференциальный анализ экспрессии генов (пакетedgeR 13) с использованием обобщенной линейной модели (GLM) и генерация кластеров коэкспрессии с использованием моделей смеси Гаусса (пакет coseq12). DiCoExpress обрабатывает полную и несбалансированную конструкцию до 2 биологических факторов (т.е. генотип и лечение) и одного технического фактора (т.е. репликация). Оригинальность DiCoExpress заключается в архитектуре каталогов, хранящей и организующей данные, скрипты и результаты, а также в автоматизации записи контрастов, позволяющей пользователю исследовать многочисленные вопросы в рамках одной статистической модели. Была также предпринята попытка представить графические результаты, иллюстрирующие статистические результаты.
Рабочая область DiCoExpress доступна по адресу https://forgemia.inra.fr/GNet/dicoexpress. Он содержит четыре каталога, два PDF и два текстовых файла. Каталог Data/ содержит входные наборы данных; для этого протокола мы будем использовать набор данных “tutorial”. Каталог Sources/ содержит семь функций R, необходимых для выполнения анализа, и не должен быть изменен пользователем. Анализ выполняется с использованием скриптов, хранящихся в каталоге Template_scripts/. Тот, который используется в этом протоколе, называется DiCoExpress_Tutorial_JoVE.R и может быть легко адаптирован к любому транскриптомному проекту. Все результаты записываются в каталог Results/ и хранятся в подкаталоге, названном в соответствии с проектом. Файл README.md содержит полезную информацию об установке, а любые конкретные сведения о методе и его использовании можно найти в файле DiCoExpress_Reference_Manual.pdf.
Этот видеоурок проводит пользователя через различные функции DiCoExpress с целью преодоления нежелания, испытываемого биологами с помощью инструментов на основе командной строки. Здесь мы представляем анализ искусственного набора данных RNA-Seq, описывающего экспрессию генов в трех биологических репликатах четырех генотипов, с лечением или без него. Теперь мы рассмотрим различные этапы рабочего процесса DiCoExpress, показанные на рисунке 1. Скрипт, описанный в разделе Протокол, и входные файлы доступны на сайте: https://forgemia.inra.fr/GNet/dicoexpress
Подготовка файлов данных
Четыре CSV-файла, хранящиеся в каталоге Data/, должны быть названы в соответствии с именем проекта. В нашем примере все имена, следовательно, начинаются с «Tutorial», и мы установим Project_Name = «Tutorial» на шаге 4 протокола. Разделитель, используемый в CSV-файлах, должен быть указан в переменной Sep на шаге 4. В нашем наборе данных “tutorial” разделителем является табуляция. Для опытных пользователей полный набор данных можно свести к подмножеству, предоставив список инструкций и новую Project_Name через переменную Filter. Этот параметр позволяет избежать избыточных копий входных файлов и проверяет принципы FAIR14.
Среди четырех CSV-файлов обязательными являются только файлы COUNTS и TARGET. Они содержат необработанные подсчеты для каждого гена (здесь Tutorial_COUNTS.csv) и описание экспериментального дизайна (здесь Tutorial_TARGET.csv). Файл TARGET.csv описывает каждый образец (один образец на строку) с модальностью для каждого биологического или технического фактора (в столбцах). Мы настоятельно рекомендуем, чтобы имена, выбранные для модальностей, начинались с буквы, а не с цифры. Имя последнего столбца (“Репликатировать”) изменить нельзя. Наконец, имена образцов (первый столбец) должны совпадать с именами в заголовках файла COUNTS.csv (Genotype1_control_rep1 в нашем примере). Файл Enrichment.csv, в котором каждая строка содержит один Gene_ID и один термин аннотации, требуется только в том случае, если пользователь планирует выполнить анализ обогащения. Если один ген имеет несколько аннотаций, их придется писать разными строками. Файл Annotation.csv является необязательным и используется для добавления краткого описания каждого гена в выходные файлы. Лучший способ получить файл аннотации – получить информацию из выделенных баз данных (например, Thalemine: https://bar.utoronto.ca/thalemine/begin.do для Arabidopsis).
Установка ДиКоЭкспресс
Для DiCoExpress требуются специальные пакеты R. Используйте источник командной строки(“.. /Sources/Install_Packages.R”) в консоли R для проверки состояния установки требуемого пакета. Для пользователей Linux другим решением является установка контейнера, предназначенного для DiCoExpress и доступного по адресу https://forgemia.inra.fr/GNet/dicoexpress/container_registry. По определению, этот контейнер содержит DiCoExpress со всеми необходимыми частями, такими как библиотеки и другие зависимости.
Поскольку RNA-Seq стал повсеместным методом в биологических исследованиях, существует постоянная необходимость в разработке универсальных и удобных для пользователя аналитических инструментов. Критическим шагом в большинстве аналитических рабочих процессов часто является достоверна…
The authors have nothing to disclose.
Эта работа была в основном поддержана ANR PSYCHE (ANR-16-CE20-0009). Авторы благодарят Ф. Депре за постройку контейнера DiCoExpress. Работа КБ поддерживается программой «Инвестиции в будущее» ANR-10-BTBR-01-01 Amaizing. Лаборатории GQE и IPS2 пользуются поддержкой Saclay Plant Sciences-SPS (ANR-17-EUR-0007).