Summary

Использование ресурсов CyVerse для<em> De Novo</em> Сравнительная транскриптомика незанятых (немодельных) организмов

Published: May 09, 2017
doi:

Summary

This protocol outlines a comparative de novo transcriptome assembly and annotation workflow for novice bioinformaticians. The workflow is available for free entirely through CyVerse and connected by the Data Store. Command line and graphical user interfaces are used, but all code needed is available to copy and paste.

Abstract

Этот рабочий процесс позволяет начинающим исследователям использовать передовые вычислительные ресурсы, такие как облачные вычисления, для проведения парной сравнительной транскриптомии. Он также служит руководством для биологов в разработке вычислительных навыков ученого, например , при выполнении команд bash, визуализации и управлении большими наборами данных. Все коды командной строки и дополнительные пояснения к каждой команде или шагу можно найти на wiki ( https://wiki.cyverse.org/wiki/x/dgGtAQ ). Платформы Discovery Environment и Atmosphere связаны между собой через хранилище данных CyVerse. Таким образом, после того как начальные исходные данные последовательности были загружены, больше нет необходимости передавать большие файлы данных через интернет-соединение, сводя к минимуму время, необходимое для проведения анализов. Этот протокол предназначен для анализа только двух экспериментальных обработок или условий. Анализ экспрессии дифференциального гена проводитсяПо сравнению с попарными сравнениями, и не будет пригодным для тестирования нескольких факторов. Этот рабочий процесс также предназначен для ручного, а не автоматизированного использования. Каждый шаг должен быть выполнен и исследован пользователем, давая лучшее понимание данных и аналитических результатов, а значит, и лучших результатов для пользователя. После того, как этот протокол будет завершен, этот протокол позволит получить собранные de novo транскриптом (ы) для недостаточно обслуживаемых (немодельных) организмов без необходимости сопоставления с ранее собранными эталонными геномами (которые обычно недоступны в недостаточно обслуживаемом организме). Эти de novo транскриптомы далее используются в парном дифференциальном анализе экспрессии генов для исследования генов, отличающихся между двумя экспериментальными условиями. Дифференциально экспрессируемые гены затем функционально аннотируются, чтобы понять, что генетические реакции организмов имеют экспериментальные условия. В целом, данные, полученные из этого протокола, используются для проверки гипотез о биологических ответах недостаточно обслуживаемых организмов.

Introduction

Homo sapiens и несколько ключевых модельных видов животных, таких как Drosophila melanogaster , Mus musculus и Danio rerio, представляют собой большую часть текущей и прошлой функциональной работы по геномике. Однако стремительно снижающаяся стоимость технологии высокопроизводительной последовательности обеспечивает возможности для функциональной геномики в немодельных ( так называемых, «забытых» или «недостаточно обслуживаемых») видах животных1. Это важный переход в геномике, поскольку немодельные организмы часто представляют экономически значимые виды ( например, устрицы, креветки, крабы) и дают возможность исследовать новые фенотипы и биологические системы, выходящие за рамки тех, что найдены в модельных видах.

Хотя недостаточно обслуживаемые организмы представляют собой привлекательную возможность для исследования уникальных биологических систем, перед исследователями, особенно во время биоинформационного анализа, стоит ряд проблем. Некоторые изПроблемы связаны с обработкой больших массивов данных, в то время как другие связаны с отсутствием генетических ресурсов, доступных для исследователей, работающих в таких недостаточно обслуживаемых организмах, как эталонный геном, онтологию, специфичную для организма и т . Д. Проблемы изоляции и секвенирования нуклеиновых кислот часто являются рутинными в Сравнение с анализом данных, и как таковой биоинформационный анализ, как правило, оказывается наиболее недооцененной стоимостью проектов по определению последовательности. 2 . Например, базовый биоинформационный анализ последующего поколения может состоять из следующих этапов: фильтрация качества и обрезка необработанных последовательностей считывания, сборка коротких чтений в более крупные непрерывные фрагменты и аннотация и / или сравнение с другими системами для получения биологического понимания. Несмотря на кажущуюся простоту, этот примерный рабочий процесс требует специальных знаний и вычислительных ресурсов, выходящих за рамки лабораторного стенда, что делает его недоступным для многих ученых,Модельных организмов.

Врожденные проблемы могут быть основаны на инфраструктуре или знаниях. Классической задачей инфраструктуры является доступ к соответствующим вычислительным ресурсам. Например, сборка и аннотирование основаны на вычислительно-интенсивных алгоритмах, требующих мощных компьютеров или кластеров компьютеров, имеющих большой объем оперативной памяти (256 ГБ-1 ТБ) и несколько процессоров / ядер. К сожалению, многие исследователи либо не имеют доступа к таким вычислительным ресурсам, либо не обладают знаниями, необходимыми для взаимодействия с этими системами. Другие исследователи могут иметь доступ к высокопроизводительным вычислительным кластерам через свои университеты или учреждения, но доступ к этим ресурсам может быть ограниченным и иногда приводит к расходам за час вычислений, то есть количество процессоров процессора, умноженное на количество «часов реального времени» Часов ", что эти процессоры работают. Использование системы киберинфраструктуры, финансируемой Национальным научным фондом СШАНапример, CyVerse 3, которая обеспечивает свободный доступ к вычислительным ресурсам для исследователей в Соединенных Штатах и ​​во всем мире, может помочь решить проблемы инфраструктуры, как будет показано ниже.

Примером типичной задачи, основанной на знаниях, является понимание программного обеспечения, необходимого для полного анализа. Чтобы эффективно проводить проект на основе последовательности, исследователи должны быть знакомы с несметным числом программных средств, разработанных для биоинформационного анализа. Изучение каждого пакета затруднено само по себе, но усугубляется тем фактом, что пакеты постоянно обновляются, повторно запускаются, объединяются в новые рабочие процессы и иногда становятся ограниченными для использования под новыми лицензиями. Кроме того, связывание входов и выходов этих инструментов иногда требует преобразования типов данных, чтобы сделать их совместимыми, добавив еще один инструмент в рабочий процесс. Наконец, также сложно узнать, какой программный пакет является «th»E best 'для анализа, и часто определение лучшего программного обеспечения для конкретных экспериментальных условий – это вопрос тонких различий. В некоторых случаях доступны полезные обзоры программного обеспечения, но из-за продолжающегося выпуска новых обновлений и опций программного обеспечения они быстро устаревают.

Для исследователей, изучающих недостаточно обслуживаемые организмы, эти врожденные проблемы вызывают помимо проблем, связанных с анализом данных в новом организме. Эти недостающие специфические для организма проблемы лучше всего иллюстрируются в аннотации гена. Например, у недостаточно обслуживаемых организмов часто нет близкородственного модельного организма, который можно разумно использовать для идентификации ортологии гена и функции ( например, морских беспозвоночных и дрозофилы ). Многие биоинформационные инструменты также требуют «обучения» для определения структурных мотивов, которые могут быть использованы для идентификации функции гена. Однако учебные данные обычно доступны только для модаЭль-организмов и обучение скрытых марковских моделей (ГММ) не входит в компетенцию биологов и даже многих биоинформатиков. Наконец, даже если аннотации могут быть выполнены с использованием данных модельных организмов, некоторые онтологии генов, связанные с модельными организмами, не имеют смысла, когда рассматривается биология и естественная история недостаточно обслуживаемого организма ( например , передача информации от дрозофилы креветкам ).

В свете этих проблем, биоинформационные ресурсы должны быть разработаны с исследователями, проводящими de novo анализы на недостаточно обслуживаемых организмах, конкретно в виду. Следующие несколько лет проектов по упорядочению функциональной геномики помогут сократить разрыв между модельными и недостаточно обслуживаемыми организмами ( https://genome10k.soe.ucsc.edu/ ), но есть много инструментов, которые необходимо будет разработать для решения проблем Рассмотренных выше. CyVerse посвящена созданию экосистемы iСвязывая существующую киберинфраструктуру и сторонние приложения для предоставления управления данными, инструментами биоинформационного анализа и визуализации данных для ученых-медиков. Интероперабельность помогает сгладить переходы между биоинформационными приложениями и платформами, предоставляя масштабируемые вычислительные ресурсы и ограничивая преобразование формата файлов и объем данных, передаваемых между платформами. CyVerse предлагает несколько платформ, в том числе среду Discovery (DE 4 , Atmosphere 5 и Data Store 3. DE имеет веб-интерфейс и имеет много общих аналитических инструментов для биоинформатики, преобразованных в удобные для пользователя форматы «наведите и нажмите» («apps» »), И является графическим пользовательским интерфейсом (GUI) для хранилища данных, где хранятся и управляются большие массивы данных ( например, чтение первичных последовательностей, собранные геномы). Atmosphere – это сервис облачных вычислений, который предлагает исследователям повышенную гибкость дляИспользуя вычислительные ресурсы виртуальной машины, которые имеют широкий набор инструментов биоинформатики, предварительно установленных. Обе эти платформы связаны с хранилищем данных и могут использоваться вместе для создания рабочих процессов, таких как описанные здесь. В этом отчете основное внимание уделено процессам анализа декомплексов de novo и дифференциального анализа экспрессии генов, а также рассматриваются некоторые лучшие практики, связанные с разработкой и проведением биоинформационных анализов. Объяснение более широкой миссии CyVerse ( http://www.cyverse.org/about ) и подробных описаний платформ ( http://www.cyverse.org/learning-center ) являются общедоступными. Все описанные здесь анализы используют среду обнаружения 4 (DE) и атмосферу 5 и представлены таким образом, чтобы сделать их доступными для исследователей всех вычислительных уровней. Рабочие процессы DE и AtmosphНа изображения можно ссылаться напрямую, используя URL-адреса, чтобы обеспечить долгосрочное прохождение, повторное использование и воспроизводимость.

Protocol

ПРИМЕЧАНИЕ. Общий протокол был пронумерован в соответствии с папками, которые будут созданы и названы в шаге 1.2 ( рис. 1 и 2 ). Этот протокол представляет собой стандартный сравнительный анализ транскриптомов de novo , и каждый шаг, описанный здесь, может быть не нужен всем исследователям. Этот документооборот подробно описан в сопутствующей учебной вики, в которой также содержатся все дополнительные файлы и ссылки на интересующие документы сторонние разработчики для каждого пакета анализа ( таблица 1 ). Ссылки на этот материал будут включены в этот протокол для облегчения доступа к этой информации. Наилучшая практика – это заметки, предоставляемые пользователям в качестве предложений по наилучшему способу выполнения задач или для рассмотрения пользователями, и будут передаваться через примечания в протоколе. Папка с примерным вводом данных и аналитическим выходом является общедоступной для пользователей и организована так, как это предлагается в протоколе ( de novo </Em> сбор и анализ транскриптомов. 1. Настройте проект, загрузите считывание Raw Sequencing и оцените чтение с помощью FastQC Получите доступ к Атмосфере и Окружающей среде Открытия. Запросите бесплатную учетную запись CyVerse, перейдя на страницу регистрации ( например, person@institution.edu). Заполните требуемую информацию и отправьте ее. Перейдите на главную страницу (http://www.cyverse.org/) и выберите «Войти» на верхней панели инструментов. Выберите «Обратный вход» и выполните вход, используя учетные данные CyVerse. Перейдите на вкладку «Службы и службы» и запросите доступ к Atmosphere. Доступ к среде обнаружения автоматически предоставляется. Настройте проект и переместите данные в хранилище данных. Войдите в среду обнаружения (https://de.iplantcollaborative.org/de). Выберите вкладку «Данные», чтобы открыть меню, содержащее все папки в хранилище данных. </li> Создайте папку основного проекта, в которой будут размещены все данные, связанные с проектом. Найдите панель инструментов в верхней части окна данных и выберите File | Новая папка. Не используйте пробелы или специальные символы в именах папок или именах файлов ввода / вывода, например «! @ # () [] {}:; $% ^ & *." Вместо этого используйте подчеркивания или тире, например, «_» или «-». Создайте пять папок в основной папке проекта, чтобы организовать анализ ( рисунок 1 ) Назовите папки, как указано ниже, без запятых или кавычек: «1_Raw_Sequence», «2_High_Quality_Sequence», «3_Assembly», «4_Differential_Expression», «5_Annotated_Assembly». Подпапки будут помещены в каждую из этих основных папок проекта ( рис. 2 ). фигура1: Общий обзор организации папки проекта и рабочий процесс сбора и анализа транскриптомов De Novo . Пользователи будут загружать сырые чтения последовательности в главную папку проекта в хранилище данных, а затем помещать результаты с каждого шага в отдельные папки. Нажмите здесь, чтобы просмотреть увеличенную версию этого рисунка. Рисунок 2: Подробный обзор сборки и обработки транзактов De Novo Transcriptome, который возникает в CyberInfrastructure компании CyVerse. Весь рабочий процесс сборки и анализа будет выполнен в пять шагов, каждый из которых получит свою собственную папку (полужирные, пронумерованные значки папок). Каждая из пяти пронумерованных папок шага рабочего процесса имеет подпапки, содержащие выходные данные из биоинформационных анализов (папкаиконки). Входы для анализа поступают из одной подпапки, а затем перемещаются в другую папку через вывод программы анализа (прямоугольные прямоугольники). Окончательные данные с первых трех шагов сравниваются и готовятся к публикации. В конечном счете, эта схема дает основную папку проекта, которая имеет ступенчатый анализ для соавторов и / или рецензентов рукописи, может быстро понять рабочий процесс и повторить его, используя каждый файл, если это необходимо. Нажмите здесь, чтобы просмотреть увеличенную версию этого рисунка. Загрузите исходные файлы последовательности FASTQ в папку «1_Raw_Sequence» в подпапку «A_Raw_Reads» с использованием одного из следующих трех методов. Используйте функцию простой загрузки Data Store для перехода к панели инструментов окна данных, нажав кнопку данных на основном рабочем столе DE и выберите Upload | Простая загрузка с рабочего стола. Выберите кнопку «Обзор»Для перехода к исходным файлам последовательности FASTQ на локальном компьютере. Этот метод подходит только для файлов размером менее 2 ГБ. Нажмите кнопку «Загрузить» в нижней части экрана, чтобы отправить добавление. Уведомление будет зарегистрировано в правом верхнем углу DE на значке звонка, который был отправлен. После того, как загрузка будет завершена, будет зарегистрировано другое уведомление. Кроме того, используйте Cyberduck для передачи больших файлов (https://wiki.cyverse.org/wiki/x/pYcVAQ). Установите Cyberduck, а затем запустите программу на рабочем столе локального компьютера. Наконец, скачайте iCommands и установите его на локальный компьютер в соответствии с инструкциями (https://wiki.cyverse.org/wiki/display/DS/Using+iCommands). Оцените загруженное, сырое упорядочение, используя приложение FastQC в DE. Нажмите кнопку «Приложения» на основном рабочем столе DE, чтобы открыть окно, содержащее все приложения для анализа, доступные в DE. Найдите и откройте выигрышДля инструмента FastQC на панели инструментов поиска в верхней части окна. Откройте многофайловую версию, если имеется более одного файла FASTQ. Выберите Файл | Новая папка для создания папки с именем «B_FastQC_Raw_Reads» и выберите эту папку в качестве выходной папки. Загрузите файлы FASTQ-чтения в окно инструмента «Выбор входных данных» и выберите «Запустить анализ». Откройте файл .html или .pdf, чтобы просмотреть результаты после завершения анализа. FastQC запускает несколько анализов, которые проверяют различные аспекты чтения файлов ( рисунок 3 ). 2. Обрезка и качество фильтра Raw считывает, чтобы получить последовательность высокого качества Примечание. Используйте приложение Trimmomatic или приложение Sickle. Найдите программируемое приложение Trimmomatic в DE и откройте его, как прежде. Загрузите папку с исходными файлами чтения FASTQ в раздел «Настройки». Выберите,Файлы quencing являются одно- или парными. Используйте стандартный управляющий файл, предоставляемый посредством выбора кнопки «Обзор» и вставки / iplant / home / shared / Trinity_transdecoder_trinotate_databases в поле «Просмотр». Выберите файл с именем Trimmomaticv0.33_control_file и запустите анализ. Файл можно загрузить, отредактировать параметры, а затем загрузить во вторую папку проекта, чтобы создать собственный сценарий обрезки. Необязательно: если анализ FastQC определил последовательности адаптеров, используйте настройку ILLUMINACLIP, чтобы обрезать адаптеры Illumina. Выберите соответствующий файл адаптера в папке / iplant / home / shared / Trinity_transdecoder_trinotate_databases, как указано выше. Последовательность кадрирования качества читается с использованием Sickle. Найдите и откройте приложение Sickle в DE. Выберите обрезанный FASTQ, читаемый как входные чтения, и переименуйте выходные файлы. Включите параметры качества в параметры. Типичные настройки: Формат качества: illumina, sanger, solexa; Качество tПорог: 20; Минимальная длина: 50. Переместите весь вывод в обрезанную и отфильтрованную папку (2_High_Quality_Sequence). Оцените финальные чтения с использованием FastQC и сравните с предыдущими отчетами FastQC. Выберите файл .html, чтобы открыть веб-страницу со всеми результатами. Выберите папку файлов изображений (.png), которые предоставляются на выходе, если это невозможно просмотреть. 3. Сборка транскриптомы De Novo с использованием Trinity в атмосфере Откройте самую последнюю версию экземпляра Atmosphere, перейдя на страницу wiki (https://wiki.cyverse.org/wiki/x/dgGtAQ). Выберите ссылку для последней версии изображения Trinity и Trinity. В качестве альтернативы, найдите «Trinotate» в инструменте поиска изображений атмосферы (https://atmo.iplantcollaborative.org/application/images), чтобы отобразить все версии изображений Trinity и Trinotate. Нажмите кнопку «Вход в систему для запуска», а затем имя Atmosphere instance. Выберите размер экземпляра «medium3» (CPU: 4, Mem: 32GB) или «large3» (CPU: 8, Mem: 64 ГБ). Запустите экземпляр и дождитесь его создания. В некоторых редких случаях CyVerse подвергается техническому обслуживанию для обновления платформ. Существующие экземпляры доступны во время этих обновлений, но создание новых экземпляров может оказаться невозможным. Посетите страницу статуса CyVerse, чтобы узнать текущее состояние любой платформы (http://status.cyverse.org/). Откройте экземпляр, когда он будет готов, щелкнув по имени, а затем выбрав «Удаленный рабочий стол» в нижней части меню справа. Разрешите Java и VNC Viewer, если их попросят. Нажмите кнопку «Подключить» в окне VNC Viewer и выберите «Продолжить». Войдите в систему, чтобы открыть отдельное окно, которое будет новым экземпляром облачных вычислений. Переместите очищенные и / или отфильтрованные файлы FASTQ-чтения в экземпляр, используя один из трех методов, описанных в шагах 1.3.1 – 1.3.4. НасВ интернет-браузере для доступа к DE и загрузки файлов, как и раньше, на локальный компьютер. Или используйте iCommands, установленный на этих изображениях, для быстрой передачи больших наборов данных. Запуск Trinity для сборки высококачественных чтений. Настройте папку анализа в экземпляре Atmosphere. Используйте скрипт, доступный в DE (/ iplant / home / shared / Trinity_transdecoder_trinotate_databases) или скопируйте и вставьте команды с вики-страницы (https://wiki.cyverse.org/wiki/x/dgGtAQ). Объяснение всех команд можно найти на странице wiki. После того, как папка анализа и базы данных Trinotate установлены, запустите ассемблер Trinity с помощью команд, приведенных выше. Существует несколько выходных файлов, но наиболее важным является конечный файл сборки под названием «Trinity.fasta». Переименуйте этот файл FASTA, чтобы он был уникальным для организма и обработки собранных чтений, прежде чем переносить его в хранилище данных (папка 3_Assembly), чтобы свести к минимуму возможную путаницу. ПРИМЕЧАНИЕ. Выходные данные подсчитывают таблицы для анализа экспрессии дифференциального гена в папку (4_Differential_Expression). Оцените сборку с помощью rnaQUAST ( рисунок 4 ). Переместите выходные файлы Trinity в папку «3_Assembly» в DE и пометьте папку «A_Trinity_de_novo_assembly». Дайте каждой транскриптоме, которая была собрана подпапка внутри папки «A_Trinity_de_novo_assembly» с уникальными именами, включая научное название организмов и обработок, связанных с каждым транскриптом. Создайте еще одну подпапку под названием «B_rnaQUAST_Output» в папке «3_Assembly». Откройте приложение под названием «rnaQUAST 1.2.0 (на основе деново)» и назовите анализ и выберите «B_rnaQUAST_Output» в качестве папки вывода. Добавьте файл (ы) FASTA сборки de novo в раздел «Ввод данных». В разделе «Вывод данных» введите уникальное имя для de novo </eM> assembly. Это создаст папку с выходными файлами rnaQUAST внутри папки «B_rnaQUAST_Output». Выберите дополнительные параметры в разделах «GenemarkS-T Gene Prediction», «BUSCO» и «Parameters». Выберите прокариоте в разделе «GenemarkS-Gene Genesis Prediction», если организм не эукариот. Запустите BUSCO, чтобы выбрать кнопку обзора, и скопируйте путь iplant / home / shared / iplantcollaborative / example_data / BUSCO.sample.data в поле «Просмотр:» и нажмите клавишу ввода. Выберите наиболее конкретную папку BUSCO, доступную для организма. ПРИМЕЧАНИЕ: BUSCO будет оценивать сборку для специфичных для линии генов ядра и выводит, какой процент генов ядра найден. Существуют общие папки, например эукариот, и более специфические линии, например членистоногие. Найдите «Расшифровку транскрипта» и запустите Transdecoder на новеO Тринити-сборка выводит файл FASTA в среде обнаружения. Переместите выходной файл .pep в папку de novo assembly (3_Assembly) для использования в аннотации к пункту 5. 4. Парное дифференциальное выражение с использованием DESeq2 в DE Откройте приложение DESeq2 в DE, как описано выше. Назовите анализ и выберите выходную папку как 4_Differential_Expression. В разделе «Входы» выберите файл таблицы подсчетов из сеанса сборки Trinity и столбец, в котором можно найти имена контигий в этой таблице подсчета. Введите заголовки столбцов из файла таблицы данных подсчета, чтобы определить, какие столбцы сравниваются. Включайте запятые между каждым из условий. Не включайте заголовок первого столбца, который содержит имена контигий. Для повторов повторяйте одно и то же имя ( например , «Лечение 1», «Лечение1», «Лечение1», «Обращение», «Лечение», «Лечение», «Лечение» 1). ВВторая строка, введите названия двух условий для сравнения ( например , Лечение1, Лечение2). Сопоставьте имена заголовков столбцов, представленные в первой строке. ПРИМЕЧАНИЕ. Эти заголовки столбцов должны быть буквенно-цифровыми и не должны содержать специальных символов. 5. Аннотирование с использованием тринотата Запускайте каждую часть Trinotate в экземпляре вычислительного облака для атмосферы. Примечание. Команды Bash предоставляются в текстовом файле, который нужно скопировать, вставить, а затем изменить до запуска в DE (/ iplant / home / shared / Trinity_transdecoder_trinotate_databases) или на странице wiki (https://wiki.cyverse.org/ вики / х / dgGtAQ). Если аннотируется несколько сборок, пометьте каждую сборку по одному, а затем перенесите завершенные файлы аннотаций обратно в папку «5_Аннотация», каждая с уникальной папкой, соответствующей имени сборки. Запустите команду bash для поиска транскриптов Trinity. Измените количество потоков, чтобы они соответствовали количеству процессоров.На экземпляре, то есть среда имеет 4 процессора, а большая – 8 процессоров. Подробнее см. Шаг 3.1.2. Измените команду Trinity.fasta в соответствии с именем файла сборки FASTA. ПРИМЕЧАНИЕ. Для поиска BLAST + потребуется наибольшее время. Это может быть за несколько дней до его завершения. Активность «облачного» компьютера можно проверить в Atmosphere, не вызывая VNC Viewer. Запустите команду bash для поиска белков, предсказанных Transdecoder. Как и прежде, измените номер потока и имя файла в соответствии с условиями в 5.2.1. Запустите команду bash для HMMER и измените количество потоков, как указано выше. Запустите команду bash для signalP и tmHMM, если это необходимо. SignalP предсказывает сигнальные пептиды, а tmHMM предсказывает трансмембранные белковые мотивы. Загрузка результатов в базу данных SQLite После завершения всех вышеуказанных анализов запустите команду bash, чтобы загружать выходные файлы в окончательную базу данных аннотаций SQLite. Удалить все командыДля анализов, которые не были запущены. Экспортируйте базу данных SQLite в файл .xls для просмотра в популярных программах просмотра таблиц.

Representative Results

После создания файлов организации проекта ( рис. 1 и 2 ) первой задачей в этом рабочем процессе является оценка необработанных файлов последовательности, а затем их очистка путем обрезки и фильтрации качества. FastQC будет генерировать удобочитаемую для пользователя сводную статистику о показателях качества и длине последовательностей из формата файла FASTQ. Затем цифры FastQC сравниваются до и после обрезки, чтобы оценить, являются ли окончательные показания высокого качества и, следовательно, подходят для сборки. «Качество последовательности базы» показывает среднее качество чтения по каждой базовой паре секвенирования. Лучше иметь показатель качества фред выше 20-28, указанный цветами на фигурах FastQC. «По показателю качества последовательности» определяет, может ли быть необходима фильтрация качества чтения. Если слишком много считываний имеют средний балл ниже 20-25, тогда может потребоваться отфильтровать на основе среднего качества чтения, «Содержание последовательности по основанию» должно демонстрировать равномерное распределение по всем четырем нуклеотидным основаниям. Если имеется смещение в содержимом нуклеотидов, то могут потребоваться концы обрезки. «На базовом GC-контенте должно быть равномерное по всем позициям.Если есть колебание, чтение может потребоваться обрезать, как в 1.4.4.3.« Для GC-содержимого последовательности »должно быть нормальное распределение. Адаптер или полимеразная цепная реакция (PCR ) Продукты могут загрязняться в библиотеке секвенирования и искажать нормальное распределение.В этом случае может понадобиться обрезка адаптера. «Распределение длины последовательности» дает среднюю длину всех чтений. Чтение менее 35-45 пар оснований обычно отфильтровывается. «Уровни дублирования последовательностей» показывают, сколько раз последовательность просматриваемых данных просматривается в библиотеке. В разделе «Сверхпредставленные последовательности» высококопированная последовательность чтения и подсчет приведены в разделе «Преобладающие последовательности». FastQC также пытается определить, будут ли дублированные чтенияЯвляются адаптивной последовательностью или другими известными последовательностями, связанными с платформами секвенирования. Метка «Без попадания» означает, что последовательность должна быть исследована далее с помощью NCBI BLAST 6, чтобы определить, является ли она биологически релевантной последовательностью или ее следует удалить. DE также имеет несколько версий BLAST. Приложение DE BLASTn доступно по адресу: https://de.iplantcollaborative.org/de/?type=apps&amp;app-id=6f94cc92-6d28-45c6-aef1-036be697671d . После того, как сырая последовательность была экранирована для получения высококачественных чтений, считывания должны быть собраны для создания смежных последовательностей (контигий). Вкратце, сборки создаются путем выравнивания всех коротких последовательностей, чтобы найти подобные последовательности. Области с аналогичной последовательностью, большей определенной длины, считаютсяПотому что вероятность случайной аналогичной последовательности определенной длины почти равна нулю. Trinity будет выводить файлы журналов, fasta-файлы для каждого шага в процессе сборки. Однако наиболее важным результатом является файл окончательной сборки, содержащий контиги, который помечен как «Trinity.fasta» и находится в основной папке. Этот файл содержит все собранные контиги и сам по себе не является практически «удобочитаемым». Поэтому инструмент rnaQUAST можно использовать для более глубокого понимания сборки. Инструмент rnaQUAST выводит данные, которые позволят пользователям сравнивать сборки, чтобы определить, какие из них наиболее полные ( рисунок 4 ). Дополнительная информация о каждом рисунке от rnaQUAST может быть найдена на wiki ( https://wiki.cyverse.org/wiki/x/fwuEAQ ). Если BUSCO 7 был запущен, то особый интерес представляет файл specificity.txt, который показывает количество полных и pИскусственные гены BUSCO и число предсказаний гена GeneMarkS-T в сборке. Гены BUSCO представляют собой кураторские наборы генов, общие для группы организмов. Их можно использовать для оценки того, насколько хорошо сборка собирает наборы генов, которые, как ожидается, будут присутствовать в любом типе организма, который основан на филогенетических кладах. Автономное приложение BUSCO также доступно в DE ( https://de.iplantcollaborative.org/de/?type=apps&amp;app-id=112b8a52-efd8-11e5-a15c-277125fcb1b1 ). Анализ экспрессии дифференциального гена идентифицирует транскрипты, которые имеют разные модели выражения во всех обработках, от простых подсчетов в собранных таблицах транскриптов. DESeq2 использует обобщенную линейную модель (GLM) для определения отклонения от нормализованного среднего. Эксперименты с повторами предпочтительны, так что техническая вариация frПоследовательность om может быть нормализована алгоритмом DESeq2. Анализ DESEq2 DEG дает данные и файл отчета .html, который содержит все выходные данные и описание. Альтернативно, вместо DESeq2 можно использовать EdgeR, и вместо него будет создан тот же .html-отчет с визуализацией EdgeR. Исследователи, возможно, захотят запустить и DESeq2, и EdgeR, чтобы найти дифференциально экспрессированные гены, идентифицированные с помощью обоих алгоритмов для любого данного эксперимента. Trinotate создаст выходной файл .xls, который можно открыть в любой программе для работы с электронными таблицами. Файлы DEG .txt и файл .xls аннотации могут быть проанализированы и визуализированы в многочисленных последующих приложениях, которые существуют вне платформы CyVerse. Рисунок 3: Отчеты FastQC о считываниях Raw Sequencing, обрезанных чтениях и финальном откорректированном и отфильтрованном чтении. Систематическое сравнение последовательности считыванияС после каждого этапа предварительной обработки. Для сбора de novo транскриптомов необходимы высококачественные считывания. FastQC может помочь исследователям понять исходное качество данных секвенирования и отслеживать, насколько эффективно чтение было предварительно обработано. Результаты FastQC будут зависеть от последовательности микроорганизмов и образцов, но однородность по всем выборкам, которые будут сравниваться по потоку, является первичной целью предпроцессорных чтений. Учебное видео и документация доступны у авторов и разработчиков FastQC. Нажмите здесь, чтобы просмотреть увеличенную версию этого рисунка. Рисунок 4: Отчеты rnaQUAST трех отдельных сборок. RnaQUAST можно использовать для сравнения нескольких прочитанных сборок с использованием одного и того же ассемблера или нескольких a Ssemblers, используя те же начальные чтения. RnaQUAST использует BUSCO для создания сводной статистики о сборках на основе известных генов ядра, присутствующих в таксономических кладах. Количество несоответствий на каждый транскрипт и количество транскриптов соответствуют каноническим генам, сопоставляемой дробной части, обеспечивают понимание точности ассемблеров. Последние четыре подпрограммы, представленные здесь, предоставляют сводную статистику длины контигий и изоформы и охвата ожидаемых изоформ. NAx представляет собой процент (x) контуров, длина которого больше длины (bp) на оси y. Собранная фракция представляет собой самый длинный единый транскрипт, деленный на его длину. Покрытая фракция представляет собой процентное содержание полных собранных транскриптов / изоформ, как ожидалось от основных прокариотических или эукариотических генов BUSCO. Доступно описание всех графиков, созданных rnaQUAST ( https://wiki.cyverse.org/wiki/x/fwuEAQ ).09 / 55009fig4large.jpg "target =" _ blank "> Нажмите здесь, чтобы просмотреть увеличенную версию этого рисунка. Имя приложения Платформа CyVerse Сторонняя документация Документация по CyVerse Расчетная продолжительность выполнения для набора данных выборки Ссылка на приложение FastQC Делавэр Http: //www.bioinformatics. Babraham.ac.uk/projects/fastqc/ https://www.youtube.com/watch?v=bz93ReOv87Y https://wiki.cyverse.org/wiki/pages/viewpage.action?pageId=9316768 15 мин https: //de.iplantcollaborative. орг / де /? = тип приложения и приложение-ID = 112b9aa8-c4a7-11e5-8209- 5f3310948295 Trimmomatic v0.33 Делавэр https://github.com/timflutre/trimmomatic https://wiki.cyverse.org/wiki/display/DEapps/Trimmomatic-programmable-0,33 30 минут https: //de.iplantcollaborative. орг / де /? = тип приложения и приложение-ID = 9c2a30dc-028d- 11e6-a915-ab4311791e69 серп Делавэр https://github.com/najoshi/sickle https://wiki.cyverse.org/wiki/display/DEapps/Sickle-quality-based-trimming 30 минут https: //de.iplantcollaborative. орг / де /? = типа приложение и приложение-ID = 68b278f8-d4d6-414d-9a64-b685a7714f7c Троица атмосфера https://github.com/trinityrnaseq/trinityrnaseq/wiki https: //pods.iplantcollaborative. орг / вики / дисплей / atmman / Trinity + – + Trinotate + Атмосфера + Изображение 1 неделя https: //atmo.iplantcollaborative. орг / приложение / изображения / 1261 Делавэр https://wiki.cyverse.org/wiki/display/DEapps/Trinity-64GB-2.1.1 2-5 дней https: // Wiki.cyverse.org/wiki/display/DEapps/Trinity-64GB-2.1.1 RnaQUAST v1.2.0 DE, атмосфера http://spades.bioinf.spbau.ru/rnaquast/release1.2.0/manual.html https: //pods.iplantcollaborative. орг / вики / дисплей / ТТУ / rnaQUAST + 1.2.0 +% 28denovo + 29% на основе + + с использованием DE 30 минут https: //de.iplantcollaborative. орг / де /? = тип приложения и приложение-ID = 980dd11a-1666- 11e6-9122-930 ba8f23352 Transdecoder Делавэр https://transdecoder.github.io https://wiki.cyverse.org/wiki/display/DEapps/Transcript+decoder+2.0 2-3 часа https: //de.iplantcollaborative. орг / де /? = тип приложения и приложение-ID = 5a0ba87e-b0fa-4994-92a2- 0d48ee881179 DESeq2 Делавэр https://bioconductor.org/packages/release/bioc/html/DESeq2.html https: //pods.iplantcollaborative. орг / вики / страницы /viewpage.action? PageId = 28115142 2-3 часа https: //de.iplantcollaborative. орг / де /? = тип приложения и приложение-ID = 9574e87c-4f90- 11e6-a594-008 cfa5ae621 кромкострогательный станок Делавэр https://bioconductor.org/packages/release/bioc/vignettes/edgeR/inst/doc/edgeR.pdf https://wiki.cyverse.org/wiki/pages/viewpage.action?pageId=28115144 2-3 часа https: //de.iplantcollaborative. орг / де /? = тип приложения и приложение-ID = 4a08ceda-54fe- 11e6-862f-008 cfa5ae621 Trinotate атмосфера https://trinotate.github.io/ https: //pods.iplantcollaborative. орг / вики / дисплей / atmman / Trinity + – + Trinotate + Атмосфера + Изображение 1 неделя https: //atmo.iplantcollaborative. орг / приложение / изображения / 1261 Таблица 1. Аналитические программы, платформы, на которых они доступны, aNd Дополнительные ресурсы, доступные для рабочих процессов в порядке по первому виду. Все версии пакетов действуют по состоянию на апрель 2016 года.

Discussion

В протоколе предусмотрено пять критических шагов, каждый из которых создаст свою собственную отдельную папку внутри основной папки проекта ( рис. 1 и 2 ). Все первичные необработанные данные секвенирования являются неприкосновенными: их следует загружать и хранить в первой папке, помеченной как «1_Raw_Sequence», и никоим образом не изменяются. Данные могут быть загружены одним из трех способов. Интерфейс DE можно использовать для непосредственной загрузки файлов. Это самый простой способ загрузки данных, но также потребуется самый длинный для передачи. Cyberduck имеет графический интерфейс и позволяет пользователям перетаскивать файлы для переноса в DE. ICommands – это инструмент командной строки, который можно использовать для переноса данных в хранилище данных и из него, создания каталогов и управления наборами данных и, вероятно, самого быстрого способа передачи файлов данных. Все данные в хранилище данных могут совместно использоваться другими пользователями CyVerse (https://wiki.cyverse.org/wiki/display/DEmanual/Sharing+Data+Files+and+Folders+Via+the+DiscoveRy + Environment), опубликованные через сгенерированный URL (https://wiki.cyverse.org/wiki/display/DEmanual/Sharing+Data+Files+Via+Public+Links) или могут размещаться как публично, так и анонимно ( Не требуется имя пользователя) доступные данные сообщества (http://data.iplantcollaborative.org; http://mirrors.cyverse.org). Внутри этой папки считывание необработанных последовательностей анализируется с помощью FastQC (http://www.bioinformatics.bbsrc.ac.uk/projects/fastqc/), чтобы оценить, как обрезать и фильтровать чтения, чтобы генерировать высококачественные чтения. После обрезки и качественной фильтрации полезно сравнить выходы FastQC, чтобы определить, изменилось ли качество чтения, чтобы определить, что оно стало лучше без потери информации ( рисунок 3 ). Обратите внимание, что ось X FastQC не является линейной, а скорее связана с множеством выходных графиков, что может привести к неправильной интерпретации результатов. Обрезанные и отфильтрованные считывания затем используются для сборки de novo транскриптомов с использованием экземпляра вычислительного облака Атмосфера. ЭтаОблачный компьютер использует экран локального компьютера, клавиатуру и мышь, но имеет собственное программное обеспечение (Trinity and Trinotate) и аппаратное обеспечение. Запуск программ на экземпляре облачного компьютера никак не повлияет на локальный компьютер. Сборка De novo и аннотация по течению, скорее всего, будут двумя наиболее продолжительными этапами в этом рабочем процессе. Поэтому они выполняются в среде Atmosphere, чтобы избежать общих проблем, связанных с компьютером, которые могут прерывать анализ, например, отключения питания, перезапуска после автоматических обновлений поздно ночью или сбоев других пользователей. Аннотации тринотатов используют BLAST + 8 , HMMER 9 , tmHMM 10 и PFAM 11 . Конечным результатом аннотации является база данных SQLite и файл .xls. Выходы могут использоваться вне CyVerse в платформах анализа нижнего потока, таких как KEGG 12 , 13 .

Этот рабочий процессГотов к использованию в DE и Atmosphere. Это устраняет необходимость тратить время на установку, настройку и устранение неполадок каждого пакета анализа и всех зависимостей, требуемых для каждого инструмента. Это упрощает анализ исследователей, сводит к минимуму затраченные усилия и снижает барьер входа для многих ученых. Этот рабочий процесс специально собирает одно- или двухсторонние считывания с платформы секвенирования Illumina, но в DE и Atmosphere существует множество инструментов для обработки других технологий секвенирования. Инструменты в этом рабочем процессе могут быть легко заменены соответствующим альтернативным инструментом для обработки любого типа входящей технологии секвенирования. Это относится также к новым версиям инструментов анализа или совершенно новым инструментам.

Этот рабочий процесс специально разработан, чтобы собирать, сравнивать и комментировать только несколько транскриптомов за раз. Поэтому пользователям может потребоваться много времени, чтобы собрать несколько транскриптомов для сравнительной популяционной генетики. АнализТрубопроводы будут доступны пользователям генетики популяции в ближайшем будущем, а ссылку на конвейер можно найти на странице wiki (https://wiki.cyverse.org/wiki/x/dgGtAQ). Этап анализа дифференциального гена может обрабатывать репликации, но он является парным сравнением и не будет точно оценивать множественные факторы ( например , условия, которые изменяются во времени, более двух обработок). Автоматизированные рабочие процессы существуют для организмов с эталонными геномами ( например , TRAPLINE 14 ). Хотя автоматизированные рабочие процессы проще всего использовать для новичков, сборки de novo требуют оценки и рассмотрения для каждого из описанных здесь шагов. Кроме того, пользователи должны использовать автоматизированные конвейеры по мере их создания и, следовательно, по своей природе не гибкие для удовлетворения меняющихся требований пользователей.

Поскольку большая часть этого протокола выполняется через Интернет, пользователи могут испытывать проблемы с настройками своего браузера. В первую очередь,Блокировщики всплывающих окон могут вообще не открывать окна или не открывать окна до тех пор, пока CyVerse не получит разрешение в браузере. Atmosphere использует VNC для доступа к удаленным рабочим столам, но может использоваться другое программное обеспечение. Весь этот протокол был проведен в Firefox версии 45.0.2 и должен работать со всеми популярными интернет-браузерами, но могут возникнуть некоторые несоответствия. Рабочий процесс будет обновляться по мере появления новых версий Trinity (https://github.com/trinityrnaseq/trinityrnaseq/wiki). Последние версии и актуальную информацию о рабочем процессе можно найти на странице учебника вики ( Таблица 1 , https://wiki.cyverse.org/wiki/x/dgGtAQ). Пользователи могут напрямую обращаться в службу поддержки или задавать вопросы в Ask CyVerse (ask.cyverse.org/) для устранения любых проблем с рабочим процессом.

В DE имеется несколько приложений для выполнения каждого шага этого протокола. Например, пользователи могут захотеть запустить Scythe (https://github.com/najoshi/sickle) вместо Trimmomatic15 для обрезки чтения или выполнения EdgeR 16 вместо DESeq 17 , 18 . Хотя вне рамок этой рукописи, приложения DE могут быть скопированы, отредактированы и выпущены пользователями (https://wiki.cyverse.org/wiki/display/DEmanual/Creating,+Copying,+and+Editing+DE+ Приложения) или новые приложения могут быть добавлены пользователями (https://wiki.cyverse.org/wiki/display/DEmanual/Dockerizing+Your+Tools+for+the+CyVerse+Discovery+Environment). Изображения Atmosphere также могут быть изменены и переделаны для создания новых или модифицированных рабочих процессов, которые более точно соответствуют потребностям пользователей (https://wiki.cyverse.org/wiki/x/TwHX). Эта работа служит введением в использование командной строки для перемещения данных и выполнения анализов. Пользователи могут рассмотреть возможность использования более продвинутых ресурсов командной строки, таких как интерфейсы прикладного программирования CyVerse (API) (http://www.cyverse.org/science-apis), или разработку собственных приложений DE, для которых требуются знанияО том, как инструмент анализа запускается в командной строке (https://wiki.cyverse.org/wiki/display/DEmanual/Creating+a+New+App+Interface).

Disclosures

The authors have nothing to disclose.

Acknowledgements

The authors would like to acknowledge funding from USDA-NIFA grant 2013-00984, NSF grant IOS – 1339156, IOS – 1444490, and CyVerse (NSF: DBI – 1265383).

Materials

Trimmomatic v0.33 USADELLAB.org https://github.com/timflutre/trimmomatic https://de.iplantcollaborative.org/de/?type=apps&app-id=9c2a30dc-028d-11e6-a915-ab4311791e69
Sickle Joshi and Fass https://github.com/najoshi/sickle https://de.iplantcollaborative.org/de/?type=apps&app-id=68b278f8-d4d6-414d-9a64-b685a7714f7c
Trinity Broad Institute and Hebrew University of Jersalem https://github.com/trinityrnaseq/trinityrnaseq/wiki https://atmo.iplantcollaborative.org/application/images/1261
rnaQUAST v1.2.0 Algorithmic Biology Lab, St. Petersburg Academic University of the Russian Academy of Sciences http://spades.bioinf.spbau.ru/rnaquast/release1.2.0/manual.html https://de.iplantcollaborative.org
/de/?type=apps&app-
id=980dd11a-1666-11e6-9122-
930ba8f23352
Transdecoder Broad Institute and Commonwealth Scientific and Industrial Research Organisation https://transdecoder.github.io https://de.iplantcollaborative.org/de/?type=apps&app-id=5a0ba87e-b0fa-4994-92a2-0d48ee881179
EdgeR Robinson et al. 2010. https://bioconductor.org/packages/release/bioc/vignettes/edgeR/inst/doc/edgeR.pdf https://de.iplantcollaborative.org/de/?type=apps&app-id=5aa9e294-6f95-42f9-98e9-c9c96b44f499
Trinotate Broad Institute and Hebrew University of Jersalem https://trinotate.github.io/ https://atmo.iplantcollaborative.org/application/images/1261

References

  1. Hasselmann, M., Ferretti, L., Zayed, A. Beyond fruit-flies: population genomic advances in non-Drosophila arthropods. Brief. Funct. Genomics. 14 (6), 424-431 (2015).
  2. Scholz, M. B., Lo, C. -. C., Chain, P. S. Next generation sequencing and bioinformatic bottlenecks: the current state of metagenomic data analysis. Anal. Biotech. 23 (1), 9-15 (2012).
  3. Merchant, N., et al. The iPlant Collaborative: Cyberinfrastructure for Enabling Data to Discovery for the Life Sciences. PLoS Biol. 14 (1), e1002342 (2016).
  4. Oliver, S. L., Lenards, A. J., Barthelson, R. A., Merchant, N., McKay, S. J. Using the iPlant collaborative discovery environment. Cur. Protoc. Bioinformatics. , 1-22 (2013).
  5. Skidmore, E., Kim, S., Kuchimanchi, S., Singaram, S., Merchant, N., Stanzione, D. iPlant atmosphere: a gateway to cloud infrastructure for the plant sciences. Proc. 2011 ACM. , 59-64 (2011).
  6. Altschul, S. F., Gish, W., Miller, W., Myers, E. W., Lipman, D. J. Basic local alignment search tool. J. Mol. Bio. 215 (3), 403-410 (1990).
  7. Simão, F. A., Waterhouse, R. M., Ioannidis, P., Kriventseva, E. V., Zdobnov, E. M. BUSCO: assessing genome assembly and annotation completeness with single-copy orthologs. Bioinformatics. , (2015).
  8. Camacho, C., et al. BLAST+: architecture and applications. BMC Bioinformatics. 10, 421 (2009).
  9. Eddy, S. R. Profile hidden Markov models. Bioinformatics. 14 (9), 755-763 (1998).
  10. Krogh, A., Larsson, B., von Heijne, G., Sonnhammer, E. L. Predicting transmembrane protein topology with a hidden markov model: application to complete genomes. J. Mol. Biol. 305 (3), 567-580 (2001).
  11. Finn, R. D., Coggill, P., et al. The Pfam protein families database: towards a more sustainable future. Nucleic Acids Res. 44 (D1), D279-D285 (2016).
  12. Kanehisa, M., Sato, Y., Kawashima, M., Furumichi, M., Tanabe, M. KEGG as a reference resource for gene and protein annotation. Nucleic Acids Res. 44 (D1), D457-D462 (2016).
  13. Kanehisa, M., Goto, S. KEGG: Kyoto Encyclopedia of Genes and Genomes. Nucleic Acids Res. 28 (1), 27-30 (2000).
  14. Wolfien, M., et al. TRAPLINE: a standardized and automated pipeline for RNA sequencing data analysis, evaluation and annotation. BMC Bioinformatics. 17, 21 (2016).
  15. Bolger, A. M., Lohse, M., Usadel, B. Trimmomatic: a flexible trimmer for Illumina sequence data. Bioinformatics. 30 (15), 2114-2120 (2014).
  16. Robinson, M. D., McCarthy, D. J., Smyth, G. K. edgeR: a Bioconductor package for differential expression analysis of digital gene expression data. Bioinformatics. 26 (1), 139-140 (2010).
  17. Anders, S. Analysing RNA-Seq data with the DESeq package. Mol. Biol. 43 (4), 1-17 (2010).
  18. Love, M. I., Huber, W., Anders, S. Moderated estimation of fold change and dispersion for RNA-seq data with DESeq2. Genome Bio. 15 (12), 1-21 (2014).

Play Video

Cite This Article
Joyce, B. L., Haug-Baltzell, A. K., Hulvey, J. P., McCarthy, F., Devisetty, U. K., Lyons, E. Leveraging CyVerse Resources for De Novo Comparative Transcriptomics of Underserved (Non-model) Organisms. J. Vis. Exp. (123), e55009, doi:10.3791/55009 (2017).

View Video