This protocol outlines a comparative de novo transcriptome assembly and annotation workflow for novice bioinformaticians. The workflow is available for free entirely through CyVerse and connected by the Data Store. Command line and graphical user interfaces are used, but all code needed is available to copy and paste.
Этот рабочий процесс позволяет начинающим исследователям использовать передовые вычислительные ресурсы, такие как облачные вычисления, для проведения парной сравнительной транскриптомии. Он также служит руководством для биологов в разработке вычислительных навыков ученого, например , при выполнении команд bash, визуализации и управлении большими наборами данных. Все коды командной строки и дополнительные пояснения к каждой команде или шагу можно найти на wiki ( https://wiki.cyverse.org/wiki/x/dgGtAQ ). Платформы Discovery Environment и Atmosphere связаны между собой через хранилище данных CyVerse. Таким образом, после того как начальные исходные данные последовательности были загружены, больше нет необходимости передавать большие файлы данных через интернет-соединение, сводя к минимуму время, необходимое для проведения анализов. Этот протокол предназначен для анализа только двух экспериментальных обработок или условий. Анализ экспрессии дифференциального гена проводитсяПо сравнению с попарными сравнениями, и не будет пригодным для тестирования нескольких факторов. Этот рабочий процесс также предназначен для ручного, а не автоматизированного использования. Каждый шаг должен быть выполнен и исследован пользователем, давая лучшее понимание данных и аналитических результатов, а значит, и лучших результатов для пользователя. После того, как этот протокол будет завершен, этот протокол позволит получить собранные de novo транскриптом (ы) для недостаточно обслуживаемых (немодельных) организмов без необходимости сопоставления с ранее собранными эталонными геномами (которые обычно недоступны в недостаточно обслуживаемом организме). Эти de novo транскриптомы далее используются в парном дифференциальном анализе экспрессии генов для исследования генов, отличающихся между двумя экспериментальными условиями. Дифференциально экспрессируемые гены затем функционально аннотируются, чтобы понять, что генетические реакции организмов имеют экспериментальные условия. В целом, данные, полученные из этого протокола, используются для проверки гипотез о биологических ответах недостаточно обслуживаемых организмов.
Homo sapiens и несколько ключевых модельных видов животных, таких как Drosophila melanogaster , Mus musculus и Danio rerio, представляют собой большую часть текущей и прошлой функциональной работы по геномике. Однако стремительно снижающаяся стоимость технологии высокопроизводительной последовательности обеспечивает возможности для функциональной геномики в немодельных ( так называемых, «забытых» или «недостаточно обслуживаемых») видах животных1. Это важный переход в геномике, поскольку немодельные организмы часто представляют экономически значимые виды ( например, устрицы, креветки, крабы) и дают возможность исследовать новые фенотипы и биологические системы, выходящие за рамки тех, что найдены в модельных видах.
Хотя недостаточно обслуживаемые организмы представляют собой привлекательную возможность для исследования уникальных биологических систем, перед исследователями, особенно во время биоинформационного анализа, стоит ряд проблем. Некоторые изПроблемы связаны с обработкой больших массивов данных, в то время как другие связаны с отсутствием генетических ресурсов, доступных для исследователей, работающих в таких недостаточно обслуживаемых организмах, как эталонный геном, онтологию, специфичную для организма и т . Д. Проблемы изоляции и секвенирования нуклеиновых кислот часто являются рутинными в Сравнение с анализом данных, и как таковой биоинформационный анализ, как правило, оказывается наиболее недооцененной стоимостью проектов по определению последовательности. 2 . Например, базовый биоинформационный анализ последующего поколения может состоять из следующих этапов: фильтрация качества и обрезка необработанных последовательностей считывания, сборка коротких чтений в более крупные непрерывные фрагменты и аннотация и / или сравнение с другими системами для получения биологического понимания. Несмотря на кажущуюся простоту, этот примерный рабочий процесс требует специальных знаний и вычислительных ресурсов, выходящих за рамки лабораторного стенда, что делает его недоступным для многих ученых,Модельных организмов.
Врожденные проблемы могут быть основаны на инфраструктуре или знаниях. Классической задачей инфраструктуры является доступ к соответствующим вычислительным ресурсам. Например, сборка и аннотирование основаны на вычислительно-интенсивных алгоритмах, требующих мощных компьютеров или кластеров компьютеров, имеющих большой объем оперативной памяти (256 ГБ-1 ТБ) и несколько процессоров / ядер. К сожалению, многие исследователи либо не имеют доступа к таким вычислительным ресурсам, либо не обладают знаниями, необходимыми для взаимодействия с этими системами. Другие исследователи могут иметь доступ к высокопроизводительным вычислительным кластерам через свои университеты или учреждения, но доступ к этим ресурсам может быть ограниченным и иногда приводит к расходам за час вычислений, то есть количество процессоров процессора, умноженное на количество «часов реального времени» Часов ", что эти процессоры работают. Использование системы киберинфраструктуры, финансируемой Национальным научным фондом СШАНапример, CyVerse 3, которая обеспечивает свободный доступ к вычислительным ресурсам для исследователей в Соединенных Штатах и во всем мире, может помочь решить проблемы инфраструктуры, как будет показано ниже.
Примером типичной задачи, основанной на знаниях, является понимание программного обеспечения, необходимого для полного анализа. Чтобы эффективно проводить проект на основе последовательности, исследователи должны быть знакомы с несметным числом программных средств, разработанных для биоинформационного анализа. Изучение каждого пакета затруднено само по себе, но усугубляется тем фактом, что пакеты постоянно обновляются, повторно запускаются, объединяются в новые рабочие процессы и иногда становятся ограниченными для использования под новыми лицензиями. Кроме того, связывание входов и выходов этих инструментов иногда требует преобразования типов данных, чтобы сделать их совместимыми, добавив еще один инструмент в рабочий процесс. Наконец, также сложно узнать, какой программный пакет является «th»E best 'для анализа, и часто определение лучшего программного обеспечения для конкретных экспериментальных условий – это вопрос тонких различий. В некоторых случаях доступны полезные обзоры программного обеспечения, но из-за продолжающегося выпуска новых обновлений и опций программного обеспечения они быстро устаревают.
Для исследователей, изучающих недостаточно обслуживаемые организмы, эти врожденные проблемы вызывают помимо проблем, связанных с анализом данных в новом организме. Эти недостающие специфические для организма проблемы лучше всего иллюстрируются в аннотации гена. Например, у недостаточно обслуживаемых организмов часто нет близкородственного модельного организма, который можно разумно использовать для идентификации ортологии гена и функции ( например, морских беспозвоночных и дрозофилы ). Многие биоинформационные инструменты также требуют «обучения» для определения структурных мотивов, которые могут быть использованы для идентификации функции гена. Однако учебные данные обычно доступны только для модаЭль-организмов и обучение скрытых марковских моделей (ГММ) не входит в компетенцию биологов и даже многих биоинформатиков. Наконец, даже если аннотации могут быть выполнены с использованием данных модельных организмов, некоторые онтологии генов, связанные с модельными организмами, не имеют смысла, когда рассматривается биология и естественная история недостаточно обслуживаемого организма ( например , передача информации от дрозофилы креветкам ).
В свете этих проблем, биоинформационные ресурсы должны быть разработаны с исследователями, проводящими de novo анализы на недостаточно обслуживаемых организмах, конкретно в виду. Следующие несколько лет проектов по упорядочению функциональной геномики помогут сократить разрыв между модельными и недостаточно обслуживаемыми организмами ( https://genome10k.soe.ucsc.edu/ ), но есть много инструментов, которые необходимо будет разработать для решения проблем Рассмотренных выше. CyVerse посвящена созданию экосистемы iСвязывая существующую киберинфраструктуру и сторонние приложения для предоставления управления данными, инструментами биоинформационного анализа и визуализации данных для ученых-медиков. Интероперабельность помогает сгладить переходы между биоинформационными приложениями и платформами, предоставляя масштабируемые вычислительные ресурсы и ограничивая преобразование формата файлов и объем данных, передаваемых между платформами. CyVerse предлагает несколько платформ, в том числе среду Discovery (DE 4 , Atmosphere 5 и Data Store 3. DE имеет веб-интерфейс и имеет много общих аналитических инструментов для биоинформатики, преобразованных в удобные для пользователя форматы «наведите и нажмите» («apps» »), И является графическим пользовательским интерфейсом (GUI) для хранилища данных, где хранятся и управляются большие массивы данных ( например, чтение первичных последовательностей, собранные геномы). Atmosphere – это сервис облачных вычислений, который предлагает исследователям повышенную гибкость дляИспользуя вычислительные ресурсы виртуальной машины, которые имеют широкий набор инструментов биоинформатики, предварительно установленных. Обе эти платформы связаны с хранилищем данных и могут использоваться вместе для создания рабочих процессов, таких как описанные здесь. В этом отчете основное внимание уделено процессам анализа декомплексов de novo и дифференциального анализа экспрессии генов, а также рассматриваются некоторые лучшие практики, связанные с разработкой и проведением биоинформационных анализов. Объяснение более широкой миссии CyVerse ( http://www.cyverse.org/about ) и подробных описаний платформ ( http://www.cyverse.org/learning-center ) являются общедоступными. Все описанные здесь анализы используют среду обнаружения 4 (DE) и атмосферу 5 и представлены таким образом, чтобы сделать их доступными для исследователей всех вычислительных уровней. Рабочие процессы DE и AtmosphНа изображения можно ссылаться напрямую, используя URL-адреса, чтобы обеспечить долгосрочное прохождение, повторное использование и воспроизводимость.
В протоколе предусмотрено пять критических шагов, каждый из которых создаст свою собственную отдельную папку внутри основной папки проекта ( рис. 1 и 2 ). Все первичные необработанные данные секвенирования являются неприкосновенными: их следует загружать и хранить в первой папке, помеченной как «1_Raw_Sequence», и никоим образом не изменяются. Данные могут быть загружены одним из трех способов. Интерфейс DE можно использовать для непосредственной загрузки файлов. Это самый простой способ загрузки данных, но также потребуется самый длинный для передачи. Cyberduck имеет графический интерфейс и позволяет пользователям перетаскивать файлы для переноса в DE. ICommands – это инструмент командной строки, который можно использовать для переноса данных в хранилище данных и из него, создания каталогов и управления наборами данных и, вероятно, самого быстрого способа передачи файлов данных. Все данные в хранилище данных могут совместно использоваться другими пользователями CyVerse (https://wiki.cyverse.org/wiki/display/DEmanual/Sharing+Data+Files+and+Folders+Via+the+DiscoveRy + Environment), опубликованные через сгенерированный URL (https://wiki.cyverse.org/wiki/display/DEmanual/Sharing+Data+Files+Via+Public+Links) или могут размещаться как публично, так и анонимно ( Не требуется имя пользователя) доступные данные сообщества (http://data.iplantcollaborative.org; http://mirrors.cyverse.org). Внутри этой папки считывание необработанных последовательностей анализируется с помощью FastQC (http://www.bioinformatics.bbsrc.ac.uk/projects/fastqc/), чтобы оценить, как обрезать и фильтровать чтения, чтобы генерировать высококачественные чтения. После обрезки и качественной фильтрации полезно сравнить выходы FastQC, чтобы определить, изменилось ли качество чтения, чтобы определить, что оно стало лучше без потери информации ( рисунок 3 ). Обратите внимание, что ось X FastQC не является линейной, а скорее связана с множеством выходных графиков, что может привести к неправильной интерпретации результатов. Обрезанные и отфильтрованные считывания затем используются для сборки de novo транскриптомов с использованием экземпляра вычислительного облака Атмосфера. ЭтаОблачный компьютер использует экран локального компьютера, клавиатуру и мышь, но имеет собственное программное обеспечение (Trinity and Trinotate) и аппаратное обеспечение. Запуск программ на экземпляре облачного компьютера никак не повлияет на локальный компьютер. Сборка De novo и аннотация по течению, скорее всего, будут двумя наиболее продолжительными этапами в этом рабочем процессе. Поэтому они выполняются в среде Atmosphere, чтобы избежать общих проблем, связанных с компьютером, которые могут прерывать анализ, например, отключения питания, перезапуска после автоматических обновлений поздно ночью или сбоев других пользователей. Аннотации тринотатов используют BLAST + 8 , HMMER 9 , tmHMM 10 и PFAM 11 . Конечным результатом аннотации является база данных SQLite и файл .xls. Выходы могут использоваться вне CyVerse в платформах анализа нижнего потока, таких как KEGG 12 , 13 .
Этот рабочий процессГотов к использованию в DE и Atmosphere. Это устраняет необходимость тратить время на установку, настройку и устранение неполадок каждого пакета анализа и всех зависимостей, требуемых для каждого инструмента. Это упрощает анализ исследователей, сводит к минимуму затраченные усилия и снижает барьер входа для многих ученых. Этот рабочий процесс специально собирает одно- или двухсторонние считывания с платформы секвенирования Illumina, но в DE и Atmosphere существует множество инструментов для обработки других технологий секвенирования. Инструменты в этом рабочем процессе могут быть легко заменены соответствующим альтернативным инструментом для обработки любого типа входящей технологии секвенирования. Это относится также к новым версиям инструментов анализа или совершенно новым инструментам.
Этот рабочий процесс специально разработан, чтобы собирать, сравнивать и комментировать только несколько транскриптомов за раз. Поэтому пользователям может потребоваться много времени, чтобы собрать несколько транскриптомов для сравнительной популяционной генетики. АнализТрубопроводы будут доступны пользователям генетики популяции в ближайшем будущем, а ссылку на конвейер можно найти на странице wiki (https://wiki.cyverse.org/wiki/x/dgGtAQ). Этап анализа дифференциального гена может обрабатывать репликации, но он является парным сравнением и не будет точно оценивать множественные факторы ( например , условия, которые изменяются во времени, более двух обработок). Автоматизированные рабочие процессы существуют для организмов с эталонными геномами ( например , TRAPLINE 14 ). Хотя автоматизированные рабочие процессы проще всего использовать для новичков, сборки de novo требуют оценки и рассмотрения для каждого из описанных здесь шагов. Кроме того, пользователи должны использовать автоматизированные конвейеры по мере их создания и, следовательно, по своей природе не гибкие для удовлетворения меняющихся требований пользователей.
Поскольку большая часть этого протокола выполняется через Интернет, пользователи могут испытывать проблемы с настройками своего браузера. В первую очередь,Блокировщики всплывающих окон могут вообще не открывать окна или не открывать окна до тех пор, пока CyVerse не получит разрешение в браузере. Atmosphere использует VNC для доступа к удаленным рабочим столам, но может использоваться другое программное обеспечение. Весь этот протокол был проведен в Firefox версии 45.0.2 и должен работать со всеми популярными интернет-браузерами, но могут возникнуть некоторые несоответствия. Рабочий процесс будет обновляться по мере появления новых версий Trinity (https://github.com/trinityrnaseq/trinityrnaseq/wiki). Последние версии и актуальную информацию о рабочем процессе можно найти на странице учебника вики ( Таблица 1 , https://wiki.cyverse.org/wiki/x/dgGtAQ). Пользователи могут напрямую обращаться в службу поддержки или задавать вопросы в Ask CyVerse (ask.cyverse.org/) для устранения любых проблем с рабочим процессом.
В DE имеется несколько приложений для выполнения каждого шага этого протокола. Например, пользователи могут захотеть запустить Scythe (https://github.com/najoshi/sickle) вместо Trimmomatic15 для обрезки чтения или выполнения EdgeR 16 вместо DESeq 17 , 18 . Хотя вне рамок этой рукописи, приложения DE могут быть скопированы, отредактированы и выпущены пользователями (https://wiki.cyverse.org/wiki/display/DEmanual/Creating,+Copying,+and+Editing+DE+ Приложения) или новые приложения могут быть добавлены пользователями (https://wiki.cyverse.org/wiki/display/DEmanual/Dockerizing+Your+Tools+for+the+CyVerse+Discovery+Environment). Изображения Atmosphere также могут быть изменены и переделаны для создания новых или модифицированных рабочих процессов, которые более точно соответствуют потребностям пользователей (https://wiki.cyverse.org/wiki/x/TwHX). Эта работа служит введением в использование командной строки для перемещения данных и выполнения анализов. Пользователи могут рассмотреть возможность использования более продвинутых ресурсов командной строки, таких как интерфейсы прикладного программирования CyVerse (API) (http://www.cyverse.org/science-apis), или разработку собственных приложений DE, для которых требуются знанияО том, как инструмент анализа запускается в командной строке (https://wiki.cyverse.org/wiki/display/DEmanual/Creating+a+New+App+Interface).
The authors have nothing to disclose.
The authors would like to acknowledge funding from USDA-NIFA grant 2013-00984, NSF grant IOS – 1339156, IOS – 1444490, and CyVerse (NSF: DBI – 1265383).
Trimmomatic v0.33 | USADELLAB.org | https://github.com/timflutre/trimmomatic | https://de.iplantcollaborative.org/de/?type=apps&app-id=9c2a30dc-028d-11e6-a915-ab4311791e69 |
Sickle | Joshi and Fass | https://github.com/najoshi/sickle | https://de.iplantcollaborative.org/de/?type=apps&app-id=68b278f8-d4d6-414d-9a64-b685a7714f7c |
Trinity | Broad Institute and Hebrew University of Jersalem | https://github.com/trinityrnaseq/trinityrnaseq/wiki | https://atmo.iplantcollaborative.org/application/images/1261 |
rnaQUAST v1.2.0 | Algorithmic Biology Lab, St. Petersburg Academic University of the Russian Academy of Sciences | http://spades.bioinf.spbau.ru/rnaquast/release1.2.0/manual.html | https://de.iplantcollaborative.org /de/?type=apps&app- id=980dd11a-1666-11e6-9122- 930ba8f23352 |
Transdecoder | Broad Institute and Commonwealth Scientific and Industrial Research Organisation | https://transdecoder.github.io | https://de.iplantcollaborative.org/de/?type=apps&app-id=5a0ba87e-b0fa-4994-92a2-0d48ee881179 |
EdgeR | Robinson et al. 2010. | https://bioconductor.org/packages/release/bioc/vignettes/edgeR/inst/doc/edgeR.pdf | https://de.iplantcollaborative.org/de/?type=apps&app-id=5aa9e294-6f95-42f9-98e9-c9c96b44f499 |
Trinotate | Broad Institute and Hebrew University of Jersalem | https://trinotate.github.io/ | https://atmo.iplantcollaborative.org/application/images/1261 |