Summary

Транскриптомный Анализ<em> C</em>.<em> Элеганс</em> РНК Секвенирование данных через Tuxedo люкс по проекту Galaxy

Published: April 08, 2017
doi:

Summary

Galaxy и DAVID появились в качестве популярных инструментов, которые позволяют следователям без подготовки биоинформатики для анализа и интерпретации РНК-Seq данных. Мы опишем протокол для C. Элеганс исследователей проводить РНК-Seq экспериментов, доступ и обрабатывать набор данных с помощью Galaxy и получить значимую биологическую информацию из списков генов с использованием DAVID.

Abstract

Следующее поколение секвенирования (NGS) технологии революционизировали природу биологических исследований. Из них РНК Секвенирование (Секвенирование РНК) возникла как мощный инструмент для анализа экспрессии генов и картирования транскриптом. Однако, обработка РНК-Seq наборов данных требует сложной вычислительной опыт и создает присущие проблемы для биологии исследователей. Это узкое место было смягчено Galaxy проекта открытого доступа, что позволяет пользователям без навыков биоинформатики для анализа РНК-Seq данных, а также базы данных для аннотации, визуализации и Integrated Discovery (DAVID), ген Онтология (ГО) термин свита анализ, который помогает получить биологическое значение из больших массивов данных. Тем не менее, для начинающих пользователей и любителей биоинформатики, самообучения и ознакомлении с этими платформами может быть отнимающим много времени и сложной. Опишем простой рабочий процесс , который поможет C. Элеганс исследователи изолировать червь РНК, проводят РНК-Seq эксперименти анализировать данные с помощью Galaxy и DAVID платформ. Этот протокол обеспечивает пошаговые инструкции по использованию различных Galaxy модулей для доступа необработанных данных NGS, проверки контроля качества, выравнивание и анализ экспрессии дифференциального гена, направляя пользователя с параметрами на каждом этапе, чтобы создать список генов, которые могут быть подвергнуты скринингу для обогащения классы генов или биологические процессы с использованием Давида. В целом, мы ожидаем , что эта статья будет предоставлять информацию C. Элеганс исследователей , проводящим РНК-Seq экспериментов впервые, а также частых пользователей , работающих с небольшим количеством образцов.

Introduction

Первое секвенирование генома человека, осуществляется с использованием методы дидеоксинуклеотидного-секвенирование Фреда Сэнгера, потребовалось 10 лет, а стоимость , по оценкам US $ 3 млрд 1, 2. Однако, в чуть более десяти лет с момента своего создания следующего поколения секвенирования технологии (NGS) позволило секвенировать весь геном человека в течение двух недель и за $ 1000 долларов США. Новые инструменты NGS, которые позволяют постоянно увеличивающиеся скорости сбора данных секвенирования-с невероятной эффективностью, наряду с резким сокращением стоимости, реконструируют современную биологию в немыслимых способах, как секвенирование генома проекты быстро становятся обычными явлением. Кроме того, эти события оцинкованных прогресса во многих других областях, таких как анализ экспрессии генов с помощью РНК-секвенировании (РНК-Seq), изучения генома эпигенетических модификаций, ДНК-белковых взаимодействий, и скрининг на микробное разнообразие в человеческих хостах. НГС на основе РНК-Seд, в частности, позволило выявить и карты Транскриптом Комплексным точности и чувствительности, а также заменила технологию микрочипов в качестве метода выбора для выражения профилирования. Хотя технология микрочипов широко используется, она ограничена его опорой на уже существующих массивов с известной геномной информации, а также другие недостатки, такие как кросс-гибридизации и ограниченного диапазона изменений экспрессии, которые могут быть надежно измерить. РНК-сло, с другой стороны, может быть использованы для обнаружения известных и неизвестных транскриптов при производстве низкого фонового шума из-за его однозначное отображение ДНК природы. РНК-Seq, вместе с многочисленными генетическими инструментами, предлагаемые модельными организмами, такие как дрожжи, мухами, черви, рыбы и мышей, послужили основу для многих важных недавних биомедицинских открытий. Тем не менее, остаются значительные проблемы, которые делают NGS недоступными для широкого научного сообщества, в том числе ограничения, хранения, обработки, и больше всего, м eaningful анализ биоинформатики больших объемов данных секвенирования.

Быстрое развитие технологий секвенирования и накопления экспоненциальной данных создали большую потребность в вычислительных платформах, что позволит исследователям получить доступ, анализировать и понимать эту информацию. Ранние системы были в значительной степени зависят от компьютерного программирования знаний, в то время как геномные браузеры, такие как NCBI, что позволило не программистам доступ и визуализировать данные не позволяют сложные анализы. Платформа веб-, открытого доступа, Galaxy ( https://galaxyproject.org/ ), заполнил эту пустоту и доказали свою ценность трубопровода , что позволяет исследователям для обработки данных NGS и выполнять целый спектр простых в комплексе биоинформатики анализ. Галактика была первоначально создана и поддерживается, лабораториями Антона Некрутенко (Penn State University) и Джеймс Тейлор (Университет Джона Хопкинса)е "> 3. Галактика предлагает широкий спектр вычислительных задач , что делает его„одной остановки магазин“для бесчисленных нужд биоинформатики, включая все этапы , участвующих в исследовании РНК-Seq. Itallows пользователям выполнять обработку данных либо на своих серверах или локально на своих машинах. Данные и рабочие процессы могут быть воспроизведены и совместно. Интерактивные руководства, раздел справки, и вики-страницы ( https://wiki.galaxyproject.org/Support ) , посвященный проекту Galaxy обеспечивают постоянную поддержку. Тем не менее, для начинающих пользователей, особенно тех, без обучения биоинформатики, трубопровод может оказаться сложными и процесс самообучения и ознакомлению может занять много времени. Кроме того, биологическая система изучена, и особенность эксперимента и используемые методов, влияние аналитические решения на несколько шагов, и они могут быть трудно ориентироваться без инструкции.

Общий Р.Н. А-Seq Галактики Рабочий процесс состоит из загрузки данных и проверки качества с последующим анализом с помощью Tuxedo Suite 4, 5, 6, 7, 8, 9, которая является коллективным различных инструментов , необходимых для различных этапов анализа данных 10 РНК-Seq, 11, 12, 13, 14. Типичная Секвенирование РНК эксперимент состоит из экспериментальной части (подготовки образца, изоляции мРНК и кДНК библиотеки препарата), то НГС и анализ биоинформатики данных. Обзор этих секций, а также шаги , участвующих в трубопроводе Galaxy, показаны на рисунке 1.

3fig1.jpg»/>
Рисунок 1: Обзор РНК-Seq рабочий процесс. Иллюстрация экспериментальных и вычислительных стадий, участвующих в РНК-Seq эксперимент, чтобы сравнить ген-профили экспрессии двух червячных штаммов (А и В, оранжевый и зеленый линиями и стрелками, соответственно). Различные модули используются Галактики показаны в коробках с соответствующим шагом в нашем протоколе, указанном в красном цвете. Выходы различных операций записываются в сером цвете с форматами файлов, показанных синим цветом. Пожалуйста , нажмите здесь , чтобы посмотреть увеличенную версию этой фигуры.

Первый инструмент в смокинге Suite , это программа выравнивания называется "Tophat. Он расщепляет входной NGS читает на более мелкие фрагменты, а затем отображает их на референсный геном. Этот двухэтапный процесс обеспечивает то, что читает охватывающих интронных регионов, выравнивание может быть иначе диsrupted или пропущенный учитываются и отображаются. Это увеличивает охват и облегчает идентификацию нового сплайсинга. Tophat выход сообщаются в виде двух файлов, кровать файлы (с информацией о сплайсинге , которые включают в себя геномное местоположение) и БАМ файл (с подробной информацией отображения каждого чтения). Затем файл BAM выровнен относительно эталонного генома оценить обилие индивидуальных транскриптов в пределах каждого образца с помощью последующего инструмента в смокинге люкс под названием «Запонки». Запонки функции путем сканирования выравнивания , чтобы сообщить полнометражных фрагменты транскриптов или «transfrags» , которые охватывают все возможные варианты сплайсинга во входных данных для каждого гена. Исходя из этого, он генерирует «» транскрипта (сборку всех транскриптов, полученные на ген для каждого гена) для каждого образца быть секвенированы. Эти Запонки сборки затем разрушилась или объединены вместе вместе с реFerence геном для создания одного файла аннотаций для нисходящего дифференциального анализа с использованием следующего инструмента, «Cuffmerge». Наконец, экспрессия гена инструмент измеряет дифференциальное в «» Cuffdiff между образцами путем сравнения Tophat выходов каждого из образцов до конечного выходного файла Cuffmerge (рисунок 1). Запонки используют FPKM / RPKM (Фрагменты / Считывает За килобазу транскрипта на миллион отображенных прочтений) значения , чтобы сообщить транскрипты содержаний. Эти значения отражают нормализацию необработанных данных NGS для глубины (среднего числа считывает из образца, который выравнивать к опорному геном) и длина гена (гены имеют разную длину, так что отсчеты должны быть нормализованы по длине гена, чтобы сравнить уровни между генами). FPKM и RPKM, по существу, то же самое с RPKM используется для одностороннего РНК-Seq, где каждый чтения соответствует одному фрагменту, в то время, FPKM используется дляпарноконцевое РНК-Seq, как это объясняет тот факт, что два читает могут соответствовать одному и тому же фрагменту. В конечном счете, результаты этих анализов приведен список генов, выраженных дифференциально между условиями и / или штаммами.

После успешного запуска Galaxy завершен и «список генов» генерируется, следующий логический шаг требует больше биоинформатики анализа выводить значимые знания из массивов данных. Многие программные пакеты появились , чтобы удовлетворить эту потребность, в том числе публично доступные веб-вычислительные пакетов , такие как DAVID (базы данных для аннотаций, визуализации и интегрированного открытия) 15. DAVID облегчает назначение биологического смысла для больших списков генов из исследований с высокими пропускной способностью, сравнивая закачанный список генов в его комплексных биологических базе знаний и выявлении биологических аннотаций, связанные со списком генов. После этого следует обогатительному анализ, то есть тесты на язьntify, если любой биологический процесс или ген класс перепредставлен в списке гена (ов) в статистически значимом образе. Он стал популярным выбором из – за сочетанием широкого, комплексной базы знаний и мощных аналитических алгоритмы , которые позволяют исследователям обнаружить биологические темы , обогащенные в геномика производных «списки генов» 10, 16. Дополнительные преимущества включают его способность обрабатывать списки генов, созданные на любой платформе секвенирования и очень удобный интерфейс.

Нематоды Caenorhabditis Элеганс является генетическая модель системы, хорошо известна своими многочисленными преимуществами , такими , как малый размер, прозрачный корпус, простой план тела, легкость культуры и большой аменабельностью генетической и молекулярной диссекции. Черви имеют небольшой, простой и хорошо аннотированный геном , который включает до 40% консервативных генов с известными человеческими гомологами 17. Действительно, C. Элегансбыл первым метазоа чей геном был полностью секвенирован 18, и один из первых видов , где Секвенирование РНК была использованы для отображения транскрипта организма 19, 20. В начале червячные исследованиях участвовали экспериментирование с различными методами с высокой пропускной способностью захвата РНК, подготовка библиотеки и последовательности, а также биоинформатики трубопроводов , которые внесли свой вклад в развитие технологии 21, 22. В последние годы, РНК-Seq на основе экспериментирования у червей стало обычным явлением. Но для традиционных червячных биологов проблема, связанная с компьютерным анализом РНК-Seq данных остается основным препятствием для более широкого и эффективного использования техники.

В этой статье мы опишем протокол для использования платформы Galaxy для анализа данных РНК-Seq высокой пропускной способности, полученные от С. Элеганс. Для многих, впервые и малого АССпользователи ле, наиболее экономически эффективным и простым способом провести РНК-Seq эксперимент является выделение РНК в лаборатории и использовать коммерческую (или в доме) NGS средство для получения кДНК библиотек секвенирования и самой NGS. Таким образом, мы первым подробно шаги , вовлеченные в изоляции, количественное и качественное оценка C. Элеганс образцов РНК для РНК-Seq. Далее, мы обеспечиваем шаг за шагом инструкции по использованию интерфейса Galaxy для анализа данных NGS, начиная с тестами для проверки контроля качества после секвенирования с последующим выравниванием, сборкой и дифференциальной количественной оценкой экспрессии гена. Кроме того, мы включили направления внимательно изучить списки генов, полученные из Галактики для изучения биологического обогащения с использованием DAVID. В качестве последнего шага в рабочем процессе, мы предоставляем инструкции для загрузки РНК-Seq данных на публичных серверах , таких как последовательность чтения архива (SRA) на NCBI ( HTTP: // шww.ncbi.nlm.nih.gov/sra) , чтобы сделать его свободно доступным для научного сообщества. В целом, мы ожидаем, что эта статья будет оказывать всестороннюю и достаточную информацию для червячных биологов, осуществляющих РНК-Seq экспериментов впервые, а также частых пользователей, работающих с небольшим количеством образцов.

Protocol

Выделение 1. РНК Меры предосторожности Вытирают все рабочую поверхность, инструменты и пипетку с использованием коммерчески доступными РНКазами спрей для устранения любых РНКазов присутствуют. Надевайте перчатки во все времена, регулярно меняя их свежими в т…

Representative Results

В С. Элеганс, устранение зародышевых стволовых клеток (GSCs) продлевает жизнь, повышает устойчивость стресс и поднимает жир тела 24, 28. Потеря GSCs, либо вызванные лазерной абляции или путем мутаций , таких как GLP-1, вызывает увеличени?…

Discussion

Значение Галактики секвенирования платформы в современной биологии

Проект Galaxy стал важную роль в содействии биологов без обучения биоинформатики для обработки и анализа данных секвенирования с высокой пропускной способностью быстро и эффективно. После того, как счита?…

Disclosures

The authors have nothing to disclose.

Acknowledgements

Авторы хотели бы выразить свою благодарность лаборатории, групп и отдельных лиц, которые разработали Galaxy и DAVID, и, таким образом, сделали NGS широко доступной для научного сообщества. Помощь и рекомендации, представленные коллегами из Университета Питтсбурга во время нашего обучения биоинформатики признается. Эта работа была поддержана Эллисон Medical Foundation Нью Scholar в Старении награды (AG-NS-0879-12) и грант от Национального института здоровья (R01AG051659) на AG.

Materials

RNase spray  Fisher Scientific 21-402-178
Trizol  Ambion 15596026
Sonicator Sonics Vibra Cell  VCX130
Centrifuge  Eppendorf 5415C
chloroform  Sigma Aldrich 288306
2-propanol  Fisher Scientific A416P-4
Ethanol Decon Labs 2705HC
RNase-free water  Fisher Scientific BP561-1
Bioanalyzer  Agilent G2940CA
Mac/PC

References

  1. Venter, J. C., et al. The sequence of the human genome. Science. 291 (5507), 1304-1351 (2001).
  2. Lander, E. S., et al. Initial sequencing and analysis of the human genome. Nature. 409 (6822), 860-921 (2001).
  3. Afgan, E., et al. The Galaxy platform for accessible, reproducible and collaborative biomedical analyses: 2016 update. Nucleic Acids Res. 44 (W1), W3-W10 (2016).
  4. Trapnell, C., Pachter, L., Salzberg, S. L. TopHat: discovering splice junctions with RNA-Seq. Bioinformatics. 25 (9), 1105-1111 (2009).
  5. Trapnell, C., et al. Transcript assembly and quantification by RNA-Seq reveals unannotated transcripts and isoform switching during cell differentiation. Nat Biotechnol. 28 (5), 511-515 (2010).
  6. Roberts, A., Trapnell, C., Donaghey, J., Rinn, J. L., Pachter, L. Improving RNA-Seq expression estimates by correcting for fragment bias. Genome Biol. 12 (3), R22 (2011).
  7. Roberts, A., Pimentel, H., Trapnell, C., Pachter, L. Identification of novel transcripts in annotated genomes using RNA-Seq. Bioinformatics. 27 (17), 2325-2329 (2011).
  8. Trapnell, C., et al. Differential gene and transcript expression analysis of RNA-seq experiments with TopHat and Cufflinks. Nat Protoc. 7 (3), 562-578 (2012).
  9. Trapnell, C., et al. Differential analysis of gene regulation at transcript resolution with RNA-seq. Nat Biotechnol. 31 (1), 46-53 (2013).
  10. Huang da, W., Sherman, B. T., Lempicki, R. A. Systematic and integrative analysis of large gene lists using DAVID bioinformatics resources. Nat Protoc. 4 (1), 44-57 (2009).
  11. Giardine, B., et al. Galaxy: a platform for interactive large-scale genome analysis. Genome Res. 15 (10), 1451-1455 (2005).
  12. Han, Y., Gao, S., Muegge, K., Zhang, W., Zhou, B. Advanced Applications of RNA Sequencing and Challenges. Bioinform Biol Insights. 9 (1), 29-46 (2015).
  13. Mardis, E. R. Next-generation sequencing platforms. Annu Rev Anal Chem (Palo Alto Calif). 6, 287-303 (2013).
  14. Yang, I. S., Kim, S. Analysis of Whole Transcriptome Sequencing Data: Workflow and Software. Genomics Inform. 13 (4), 119-125 (2015).
  15. Khatri, P., Draghici, S. Ontological analysis of gene expression data: current tools, limitations, and open problems. Bioinformatics. 21 (18), 3587-3595 (2005).
  16. Huang da, W., Sherman, B. T., Lempicki, R. A. Bioinformatics enrichment tools: paths toward the comprehensive functional analysis of large gene lists. Nucleic Acids Res. 37 (1), 1-13 (2009).
  17. Shaye, D. D., Greenwald, I. OrthoList: a compendium of C. elegans genes with human orthologs. PLoS One. 6 (5), e20085 (2011).
  18. Consortium, C. e. S. Genome sequence of the nematode C. elegans: a platform for investigating biology. Science. 282 (5396), 2012-2018 (1998).
  19. Agarwal, A., et al. Comparison and calibration of transcriptome data from RNA-Seq and tiling arrays. BMC Genomics. 11, 383 (2010).
  20. Mortazavi, A., et al. Scaffolding a Caenorhabditis nematode genome with RNA-seq. Genome Res. 20 (12), 1740-1747 (2010).
  21. Bohnert, R., Ratsch, G. rQuant.web: a tool for RNA-Seq-based transcript quantitation. Nucleic Acids Res. 38, W348-W351 (2010).
  22. Lamm, A. T., Stadler, M. R., Zhang, H., Gent, J. I., Fire, A. Z. Multimodal RNA-seq using single-strand, double-strand, and CircLigase-based capture yields a refined and extended description of the C. elegans transcriptome. Genome Res. 21 (2), 265-275 (2011).
  23. Amrit, F. R., Ratnappan, R., Keith, S. A., Ghazi, A. The C. elegans lifespan assay toolkit. Methods. 68 (3), 465-475 (2014).
  24. Hsin, H., Kenyon, C. Signals from the reproductive system regulate the lifespan of C. elegans. Nature. 399 (6734), 362-366 (1999).
  25. Alper, S., et al. The Caenorhabditis elegans germ line regulates distinct signaling pathways to control lifespan and innate immunity. J Biol Chem. 285 (3), 1822-1828 (2010).
  26. Steinbaugh, M. J., et al. Lipid-mediated regulation of SKN-1/Nrf in response to germ cell absence. Elife. 4, (2015).
  27. Lapierre, L. R., Gelino, S., Melendez, A., Hansen, M. Autophagy and lipid metabolism coordinately modulate life span in germline-less. C. elegans. Curr Biol. 21 (18), 1507-1514 (2011).
  28. Rourke, E. J., Soukas, A. A., Carr, C. E., Ruvkun, G. C. elegans major fats are stored in vesicles distinct from lysosome-related organelles. Cell Metab. 10 (5), 430-435 (2009).
  29. Ghazi, A. Transcriptional networks that mediate signals from reproductive tissues to influence lifespan. Genesis. 51 (1), 1-15 (2013).
  30. Ghazi, A., Henis-Korenblit, S., Kenyon, C. A transcription elongation factor that links signals from the reproductive system to lifespan extension in Caenorhabditis elegans. PLoS Genet. 5 (9), e1000639 (2009).
  31. Amrit, F. R., et al. DAF-16 and TCER-1 Facilitate Adaptation to Germline Loss by Restoring Lipid Homeostasis and Repressing Reproductive Physiology in C. elegans. PLoS Genet. 12 (2), e1005788 (2016).
  32. Wang, M. C., O’Rourke, E. J., Ruvkun, G. Fat metabolism links germline stem cells and longevity in C. elegans. Science. 322 (5903), 957-960 (2008).
  33. McCormick, M., Chen, K., Ramaswamy, P., Kenyon, C. New genes that extend Caenorhabditis elegans’ lifespan in response to reproductive signals. Aging Cell. 11 (2), 192-202 (2012).
  34. Kartashov, A. V., Barski, A. BioWardrobe: an integrated platform for analysis of epigenomics and transcriptomics data. Genome Biol. 16, 158 (2015).
  35. Goncalves, A., Tikhonov, A., Brazma, A., Kapushesky, M. A pipeline for RNA-seq data processing and quality assessment. Bioinformatics. 27 (6), 867-869 (2011).

Play Video

Cite This Article
Amrit, F. R. G., Ghazi, A. Transcriptomic Analysis of C. elegans RNA Sequencing Data Through the Tuxedo Suite on the Galaxy Project. J. Vis. Exp. (122), e55473, doi:10.3791/55473 (2017).

View Video