Summary

Анализ многофакторных экспериментов с РНК-Seq с помощью DiCoExpress

Published: July 29, 2022
doi:

Summary

DiCoExpress – это инструмент на основе скриптов, реализованный в R для выполнения анализа RNA-Seq от контроля качества до совместной экспрессии. DiCoExpress обрабатывает полный и несбалансированный дизайн до 2 биологических факторов. Этот видеоурок проведет пользователя через различные функции DiCoExpress.

Abstract

Правильное использование статистического моделирования в анализе данных NGS требует продвинутого уровня знаний. В последнее время растет консенсус в отношении использования обобщенных линейных моделей для дифференциального анализа данных RNA-Seq и преимущества смешанных моделей для выполнения анализа коэкспрессии. Чтобы предложить управляемую настройку для использования этих подходов к моделированию, мы разработали DiCoExpress, который предоставляет стандартизированный конвейер R для выполнения анализа RNA-Seq. Без каких-либо специальных знаний в области статистики или R-программирования новички могут выполнять полный анализ RNA-Seq от контроля качества до совместного выражения посредством дифференциального анализа на основе контрастов внутри обобщенной линейной модели. Предложен анализ обогащения как по спискам дифференциально экспрессированных генов, так и по коэкспрессированным кластерам генов. Этот видеоурок задуман как пошаговый протокол, чтобы помочь пользователям в полной мере воспользоваться преимуществами DiCoExpress и его потенциала в расширении возможностей биологической интерпретации эксперимента RNA-Seq.

Introduction

Технология секвенирования РНК следующего поколения (RNA-Seq) в настоящее время является золотым стандартом анализа транскриптома1. С первых дней существования технологии совместные усилия биоинформатиков и биостатистиков привели к разработке многочисленных методов, охватывающих все основные этапы транскриптомного анализа, от картирования до количественной оценки транскриптов2. Большинство инструментов, доступных сегодня биологу, разработаны в программной среде R для статистических вычислений и графиков3, а многие пакеты для анализа биологических данных доступны в репозитории Bioconductor4. Эти пакеты предлагают полный контроль и настройку анализа, но они приходят за счет широкого использования интерфейса командной строки. Поскольку многие биологи более комфортно относятся к подходу «укажи ищелкни» 5, демократизация анализа РНК-Seq требует разработки более удобных интерфейсов или протоколов6. Например, можно создавать веб-интерфейсы пакетов R с помощью Shiny7, а анализ данных командной строки становится более интуитивно понятным с интерфейсом R-studio8 . Разработка специализированных, пошаговых учебников также может помочь новому пользователю. В частности, видеоурок дополняет классический текстовый, что приводит к более глубокому пониманию всех этапов процедуры.

Недавно мы разработали DiCoExpress9, инструмент для анализа многофакторных экспериментов RNA-Seq в R с использованием методов, которые считаются лучшими, основанными на нейтральных сравнительных исследованиях 10,11,12. Начиная с таблицы подсчета, DiCoExpress предлагает этап контроля качества данных, за которым следует дифференциальный анализ экспрессии генов (пакетedgeR 13) с использованием обобщенной линейной модели (GLM) и генерация кластеров коэкспрессии с использованием моделей смеси Гаусса (пакет coseq12). DiCoExpress обрабатывает полную и несбалансированную конструкцию до 2 биологических факторов (т.е. генотип и лечение) и одного технического фактора (т.е. репликация). Оригинальность DiCoExpress заключается в архитектуре каталогов, хранящей и организующей данные, скрипты и результаты, а также в автоматизации записи контрастов, позволяющей пользователю исследовать многочисленные вопросы в рамках одной статистической модели. Была также предпринята попытка представить графические результаты, иллюстрирующие статистические результаты.

Рабочая область DiCoExpress доступна по адресу https://forgemia.inra.fr/GNet/dicoexpress. Он содержит четыре каталога, два PDF и два текстовых файла. Каталог Data/ содержит входные наборы данных; для этого протокола мы будем использовать набор данных “tutorial”. Каталог Sources/ содержит семь функций R, необходимых для выполнения анализа, и не должен быть изменен пользователем. Анализ выполняется с использованием скриптов, хранящихся в каталоге Template_scripts/. Тот, который используется в этом протоколе, называется DiCoExpress_Tutorial_JoVE.R и может быть легко адаптирован к любому транскриптомному проекту. Все результаты записываются в каталог Results/ и хранятся в подкаталоге, названном в соответствии с проектом. Файл README.md содержит полезную информацию об установке, а любые конкретные сведения о методе и его использовании можно найти в файле DiCoExpress_Reference_Manual.pdf.

Этот видеоурок проводит пользователя через различные функции DiCoExpress с целью преодоления нежелания, испытываемого биологами с помощью инструментов на основе командной строки. Здесь мы представляем анализ искусственного набора данных RNA-Seq, описывающего экспрессию генов в трех биологических репликатах четырех генотипов, с лечением или без него. Теперь мы рассмотрим различные этапы рабочего процесса DiCoExpress, показанные на рисунке 1. Скрипт, описанный в разделе Протокол, и входные файлы доступны на сайте: https://forgemia.inra.fr/GNet/dicoexpress

Подготовка файлов данных
Четыре CSV-файла, хранящиеся в каталоге Data/, должны быть названы в соответствии с именем проекта. В нашем примере все имена, следовательно, начинаются с «Tutorial», и мы установим Project_Name = «Tutorial» на шаге 4 протокола. Разделитель, используемый в CSV-файлах, должен быть указан в переменной Sep на шаге 4. В нашем наборе данных “tutorial” разделителем является табуляция. Для опытных пользователей полный набор данных можно свести к подмножеству, предоставив список инструкций и новую Project_Name через переменную Filter. Этот параметр позволяет избежать избыточных копий входных файлов и проверяет принципы FAIR14.

Среди четырех CSV-файлов обязательными являются только файлы COUNTS и TARGET. Они содержат необработанные подсчеты для каждого гена (здесь Tutorial_COUNTS.csv) и описание экспериментального дизайна (здесь Tutorial_TARGET.csv). Файл TARGET.csv описывает каждый образец (один образец на строку) с модальностью для каждого биологического или технического фактора (в столбцах). Мы настоятельно рекомендуем, чтобы имена, выбранные для модальностей, начинались с буквы, а не с цифры. Имя последнего столбца (“Репликатировать”) изменить нельзя. Наконец, имена образцов (первый столбец) должны совпадать с именами в заголовках файла COUNTS.csv (Genotype1_control_rep1 в нашем примере). Файл Enrichment.csv, в котором каждая строка содержит один Gene_ID и один термин аннотации, требуется только в том случае, если пользователь планирует выполнить анализ обогащения. Если один ген имеет несколько аннотаций, их придется писать разными строками. Файл Annotation.csv является необязательным и используется для добавления краткого описания каждого гена в выходные файлы. Лучший способ получить файл аннотации – получить информацию из выделенных баз данных (например, Thalemine: https://bar.utoronto.ca/thalemine/begin.do для Arabidopsis).

Установка ДиКоЭкспресс
Для DiCoExpress требуются специальные пакеты R. Используйте источник командной строки(“.. /Sources/Install_Packages.R”) в консоли R для проверки состояния установки требуемого пакета. Для пользователей Linux другим решением является установка контейнера, предназначенного для DiCoExpress и доступного по адресу https://forgemia.inra.fr/GNet/dicoexpress/container_registry. По определению, этот контейнер содержит DiCoExpress со всеми необходимыми частями, такими как библиотеки и другие зависимости.

Protocol

1. ДиКоЭкспресс Откройте сеанс R studio и задайте для каталога значение Template_scripts. Откройте сценарий DiCoExpress_Tutorial.R в R studio. Загрузите функции DiCoExpress в сеансЕ R с помощью следующих команд:> источник(“.. /Источники/Load_Functions.R”)> Load_Functions()> Data_Directory = “.. /Данные”> Results_Directory = “.. /Резул?…

Representative Results

Все выходные данные DiCoExpress сохраняются в каталоге Tutorial/, который сам помещается в каталог Results/. Здесь мы приводим некоторые рекомендации по оценке общего качества анализа. Контроль качестваВыходные данные контроля качества, расположенные в каталоге Quality_Control/,…

Discussion

Поскольку RNA-Seq стал повсеместным методом в биологических исследованиях, существует постоянная необходимость в разработке универсальных и удобных для пользователя аналитических инструментов. Критическим шагом в большинстве аналитических рабочих процессов часто является достоверна…

Disclosures

The authors have nothing to disclose.

Acknowledgements

Эта работа была в основном поддержана ANR PSYCHE (ANR-16-CE20-0009). Авторы благодарят Ф. Депре за постройку контейнера DiCoExpress. Работа КБ поддерживается программой «Инвестиции в будущее» ANR-10-BTBR-01-01 Amaizing. Лаборатории GQE и IPS2 пользуются поддержкой Saclay Plant Sciences-SPS (ANR-17-EUR-0007).

References

  1. Wang, Z., Gerstein, M., Snyder, M. RNA-Seq: a revolutionary tool for transcriptomics. Nature reviews. Genetics. 10 (1), 57-63 (2009).
  2. Yang, I. S., Kim, S. Analysis of Whole Transcriptome Sequencing Data: Workflow and Software. Genomics & Informatics. 13 (4), 119-125 (2015).
  3. R Core Team. R: A language and environment for statistical computing. R Foundation for Statistical Computing. , (2020).
  4. Huber, W., et al. Orchestrating high-throughput genomic analysis with Bioconductor. Nature Methods. 12 (2), 115-121 (2015).
  5. Smith, D. R. The battle for user-friendly bioinformatics. Frontiers in Genetics. 4, 187 (2013).
  6. Pavelin, K., Cham, J. A., de Matos, P., Brooksbank, C., Cameron, G., Steinbeck, C. Bioinformatics Meets User-Centred Design: A Perspective. PLoS Computational Biology. 8 (7), 1002554 (2012).
  7. . Shiny: web application framework Available from: https://rdrr.io/cran/shiny/ (2021)
  8. Lambert, I., Roux, C. P. -. L., Colella, S., Martin-Magniette, M. -. L. DiCoExpress: a tool to process multifactorial RNAseq experiments from quality controls to co-expression analysis through differential analysis based on contrasts inside GLM models. Plant methods. 16 (1), 68 (2020).
  9. Dillies, M. -. A., et al. A comprehensive evaluation of normalization methods for Illumina high-throughput RNA sequencing data analysis. Briefings in bioinformatics. 14 (6), 671-683 (2012).
  10. Rigaill, G. Synthetic data sets for the identification of key ingredients for RNA-seq differential analysis. Briefings in Bioinformatics. 19 (1), (2016).
  11. Rau, A., Maugis-Rabusseau, C. Transformation and model choice for RNA-seq co-expression analysis. Briefings in Bioinformatics. 19 (3), (2017).
  12. Robinson, M. D., McCarthy, D. J., Smyth, G. K. edgeR: a Bioconductor package for differential expression analysis of digital gene expression data. Bioinformatics. 26 (1), 139-140 (2009).
  13. Wilkinson, M. D., et al. The FAIR Guiding Principles for scientific data management and stewardship. Scientific Data. 3 (1), 160018 (2016).
  14. Stark, R., Grzelak, M., Hadfield, J. RNA sequencing: the teenage years. Nature Reviews Genetics. 20 (11), 631-656 (2019).

Play Video

Cite This Article
Baudry, K., Paysant-Le Roux, C., Colella, S., Castandet, B., Martin, M. Analyzing Multifactorial RNA-Seq Experiments with DiCoExpress. J. Vis. Exp. (185), e62566, doi:10.3791/62566 (2022).

View Video