Целью настоящего Протокола является использование комбинации вычислительной и коллегия исследовательской найти Роман последовательностей, которые нельзя легко отделяться от совместно очищения последовательность, которая может быть лишь частично известна.
Субтрактивный геномики может использоваться в любых исследований, где цель заключается в том, чтобы определить последовательность генов, белка, или общего региона, который встроен в более широком контексте геномной. Субтрактивный геномики позволяет исследователю изолировать последовательности целевых объектов, представляющих интерес (T), всеобъемлющей последовательности и вычитая из известных генетических элементов (ссылка, R). Этот метод может использоваться для выявления роман последовательности, например митохондрий, хлоропласты, вирусы, или микрофлорой ограничено хромосом и особенно полезен, когда T не может быть легко изолированы от р., начиная с всеобъемлющей геномных данных (R + T), метод использует основной инструмент поиска местных выравнивание (взрыв) против ссылка последовательности или последовательности, чтобы удалить сопоставления известных последовательностей (R), оставив позади цели (T). Для вычитания работать лучше R должно быть относительно полный проект, который отсутствует т. Начиная с последовательностями, оставшиеся после вычитания проверяются через количественные полимеразной цепной реакции (ПЦР) R не нужно быть полным для работы метода. Здесь мы связываем вычислительных шагов с экспериментальной шаги в цикл, который может быть итерация по мере необходимости, последовательно удаление нескольких ссылка последовательности и уточнения поиска для T. Преимуществом субтрактивный геномики является, что полностью Роман последовательности могут быть определены даже в тех случаях, в которых физической очистки является трудным, невозможно или дорого. Недостатком метода найти подходящую ссылку для вычитания и получение T-положительные и отрицательные образцов для испытаний ПЦР. Мы описываем нашу реализацию метода в определении первый ген от ограничено микрофлорой хромосома зебры Финч. В этом случае вычислительная фильтрации участвуют три ссылки (R), последовательно удалены более трех циклов: неполная геномной Ассамблеи, сырые геномных данных и транскриптомики данных.
Этот метод предназначен для выявления роман целевой (T) геномной последовательности, ДНК или РНК, от геномной контекста, или ссылку (R) (рис. 1). Этот метод наиболее полезен, если цель не может быть разделены физически, или это будет дорого делать это. Только в нескольких организмов прекрасно закончили геномов для вычитания, поэтому ключевых инноваций нашего метода является сочетание вычислительных и методы скамейке в цикл позволяет исследователям изолировать последовательности, когда ссылка является несовершенным, или проект геном-модель организма. В конце цикла ПЦР тестирование используется для определения того, требуются ли дополнительные вычитание. Проверенных кандидатов T последовательности покажет статистически более обнаружения в известных T-позитивных образцов, ПЦР.
Воплощений метода были реализованы в открытие новых целей бактериального препарата, которые не имеют хост гомолог1,2,3,4 и идентификации новых вирусов из зараженных узлов 5,6. Помимо идентификации T метод может улучшить R: мы недавно использовали метод для идентификации 936 отсутствует генов генома ссылка зебры Финч и новый ген хромосомы (T) микрофлорой только7. Субтрактивный геномики особенно ценно, когда T-видимому, очень отличается от известных последовательностей, или когда личность T не определен широко, как зебры Финч ограничено микрофлорой хромосома7.
Не требуя позитивное определение T заранее, основным преимуществом субтрактивный геномики, что это беспристрастной. В недавнем исследовании Readhead et al. рассмотрел взаимосвязь между вирусной изобилия в четырех регионах мозга и болезни Альцгеймера. Для вирусный идентификации Readhead et al. создал базу данных 515 вирусов8, серьезно ограничивая вирусных агентов, которые могут определить их исследование. Субтрактивный геномики можно было используется для сравнения здоровых и Альцгеймера геномов для того, чтобы изолировать возможные Роман вирусы, связанные с болезнью, независимо от их сходство с известных инфекционных агентов. Хотя есть 263 известных вирусов, ориентация человека, было подсчитано, что примерно 1,67 млн неоткрытых вирусный видов существуют, с 631,000-827,000 из них имеют потенциал, чтобы заразить людей9.
Изоляция Роман вирусы — это область, в которой субтрактивный геномики является особенно эффективным, но некоторые исследования может не такой строгий метод. Например исследования, выявления роман вирусы использовали беспристрастной высок объём последовательности следуют обратной транскрипции и BLASTx для вирусных последовательности5 или обогащения вирусных нуклеиновых кислот для извлечения и обратить вспять транскрибировать вирусный последовательности 6. Хотя эти исследования использовали секвенирование de novo и Ассамблеи, вычитания не использовалось, потому что последовательности были идентифицированы путем взрыва. Если вирусы были полностью Роман и не связанные с (или отдаленно связанные) для других вирусов, субтрактивный геномики была бы полезной техникой. Преимуществом субтрактивный геномики является, что последовательности, которые являются совершенно новыми могут быть получены. Если известен геном организма, он может быть вычтен из оставить любой вирусный последовательности. Например в нашем опубликованном исследовании мы изолированы Роман вирусный последовательность от зебры Финч посредством субтрактивного геномики, хотя он был не наш оригинальный намерения7.
Субтрактивный геномики также оказался полезным в определении целей бактериальные вакцины, мотивированные резкий рост антибиотикорезистентности1,2,3,4. Чтобы свести к минимуму риск аутоиммунные реакции, исследователи сузили потенциальных целей вакцины, вычитая любые белки, которые имеют гомолог в человека-хозяина. Одно исследование, глядя на Corynebacterium pseudotuberculosis, выполняется вычитание позвоночных хост геномов из нескольких бактериальных геномов обеспечить, что возможно наркотиков цели не будет затрагивать белков в узлы, ведущие к побочные эффекты 1. основной рабочий поток этих исследований является скачать бактериальных протеом, определить жизненно важных белков, удаления избыточных белков, использовать BLASTp для изоляции эфироносных протеинов и BLASTp против принимающей протеома удалить любые белки с принимающей гомолог 1 , 2 , 3 , 4. В этом случае субтрактивный геномики убедиться, что вакцин разработал не будет иметь каких-либо эффектов пробить в узел1,2,3,4.
Мы использовали субтрактивный геномика для идентификации первого белка кодирование гена ограничено микрофлорой хромосоме (GRC) (в данном случае, T), который находится в germlines, но не соматических ткани обоих полов10. До этого исследования только геномной информации, что было известно о GRC был повторяющихся региона11. De novo Ассамблея была исполнена на РНК последовательности из яичника и Тэст тканей (R + T) от взрослых Зебра зябликов. Вычислительных ликвидации последовательностей была выполнена с использованием опубликованных соматические (мышцы) геном последовательности (Р1)12, ее сырье (Сэнгер) чтения данных (R2) и соматические (мозга) транскриптом (R3)13. Последовательное использование трех ссылок был обусловлен ПЦР, тестирование на шаге 5 каждого цикла (рисA), показаны, что требуется дополнительная фильтрация. Обнаружили ген α-SNAP было подтверждено путем ПЦР ДНК и РНК и клонирование и секвенирование. Мы покажем в нашем примере, что этот метод является гибким: это не зависит от соответствия нуклеиновых кислот (ДНК и РНК), и что вычитание могут быть выполнены с ссылками (R), которые состоят из сборки или сырые читает.
Хотя субтрактивный геномики является мощным, это не печенье резец подход, требующий настройки на нескольких ключевых шагов и тщательный отбор ссылка последовательности и испытательных образцов. Если запрос Ассамблея имеет низкое качество, фильтрация шаги только изолировать Ассамбле…
The authors have nothing to disclose.
Авторы признают Мишель Бидерман, Alyssa Педерсен и Колин J. Saldanha, за их помощь в проекте геномики зебры Финч на различных этапах. Мы также признаем Евгений Bisk для вычисления Системное администрирование кластера и низ Грант 1K22CA184297 (для J.R.B.) и низ NS 042767 (для C.J.S).
Accustart II Taq DNA Polymerase | Quanta Bio | 95141 | |
Blasic Local Alignment Search Tool (BLAST) | https://github.com/trinityrnaseq/trinityrnaseq/wiki/Transcriptome-Assembly-Quality-Assessment | ||
Bowtie 2 | https://www.python.org/download/releases/2.7/ | ||
BWA-MEM v. 0.7.12 | https://github.com/BenLangmead/bowtie2 | ||
Geneious | https://blast.ncbi.nlm.nih.gov/Blast.cgi | ||
PEAR v. 0.9.6 | http://www.mybiosoftware.com/reptile-1-1-short-read-error-correction.html | ||
Personal Computer | Biomatters | http://www.geneious.com/ | |
PowerSYBR qPCR mix | ThermoFisher | 4367659 | |
Python v. 2.7 | https://sco.h-its.org/exelixis/web/software/pear/ | ||
Reptile v.1.1 | https://alurulab.cc.gatech.edu/reptile | ||
Stratagene Mx3005P | Agilent Technologies | 401456 | |
TransDecoder v. 3.0.1 | https://sourceforge.net/projects/bio-bwa/files/ | ||
Trinity v. 2.4.0 | https://github.com/TransDecoder/TransDecoder/wiki |