Summary

Роман последовательности открытия субтрактивный геномика

Published: January 25, 2019
doi:

Summary

Целью настоящего Протокола является использование комбинации вычислительной и коллегия исследовательской найти Роман последовательностей, которые нельзя легко отделяться от совместно очищения последовательность, которая может быть лишь частично известна.

Abstract

Субтрактивный геномики может использоваться в любых исследований, где цель заключается в том, чтобы определить последовательность генов, белка, или общего региона, который встроен в более широком контексте геномной. Субтрактивный геномики позволяет исследователю изолировать последовательности целевых объектов, представляющих интерес (T), всеобъемлющей последовательности и вычитая из известных генетических элементов (ссылка, R). Этот метод может использоваться для выявления роман последовательности, например митохондрий, хлоропласты, вирусы, или микрофлорой ограничено хромосом и особенно полезен, когда T не может быть легко изолированы от р., начиная с всеобъемлющей геномных данных (R + T), метод использует основной инструмент поиска местных выравнивание (взрыв) против ссылка последовательности или последовательности, чтобы удалить сопоставления известных последовательностей (R), оставив позади цели (T). Для вычитания работать лучше R должно быть относительно полный проект, который отсутствует т. Начиная с последовательностями, оставшиеся после вычитания проверяются через количественные полимеразной цепной реакции (ПЦР) R не нужно быть полным для работы метода. Здесь мы связываем вычислительных шагов с экспериментальной шаги в цикл, который может быть итерация по мере необходимости, последовательно удаление нескольких ссылка последовательности и уточнения поиска для T. Преимуществом субтрактивный геномики является, что полностью Роман последовательности могут быть определены даже в тех случаях, в которых физической очистки является трудным, невозможно или дорого. Недостатком метода найти подходящую ссылку для вычитания и получение T-положительные и отрицательные образцов для испытаний ПЦР. Мы описываем нашу реализацию метода в определении первый ген от ограничено микрофлорой хромосома зебры Финч. В этом случае вычислительная фильтрации участвуют три ссылки (R), последовательно удалены более трех циклов: неполная геномной Ассамблеи, сырые геномных данных и транскриптомики данных.

Introduction

Этот метод предназначен для выявления роман целевой (T) геномной последовательности, ДНК или РНК, от геномной контекста, или ссылку (R) (рис. 1). Этот метод наиболее полезен, если цель не может быть разделены физически, или это будет дорого делать это. Только в нескольких организмов прекрасно закончили геномов для вычитания, поэтому ключевых инноваций нашего метода является сочетание вычислительных и методы скамейке в цикл позволяет исследователям изолировать последовательности, когда ссылка является несовершенным, или проект геном-модель организма. В конце цикла ПЦР тестирование используется для определения того, требуются ли дополнительные вычитание. Проверенных кандидатов T последовательности покажет статистически более обнаружения в известных T-позитивных образцов, ПЦР.

Воплощений метода были реализованы в открытие новых целей бактериального препарата, которые не имеют хост гомолог1,2,3,4 и идентификации новых вирусов из зараженных узлов 5,6. Помимо идентификации T метод может улучшить R: мы недавно использовали метод для идентификации 936 отсутствует генов генома ссылка зебры Финч и новый ген хромосомы (T) микрофлорой только7. Субтрактивный геномики особенно ценно, когда T-видимому, очень отличается от известных последовательностей, или когда личность T не определен широко, как зебры Финч ограничено микрофлорой хромосома7.

Не требуя позитивное определение T заранее, основным преимуществом субтрактивный геномики, что это беспристрастной. В недавнем исследовании Readhead et al. рассмотрел взаимосвязь между вирусной изобилия в четырех регионах мозга и болезни Альцгеймера. Для вирусный идентификации Readhead et al. создал базу данных 515 вирусов8, серьезно ограничивая вирусных агентов, которые могут определить их исследование. Субтрактивный геномики можно было используется для сравнения здоровых и Альцгеймера геномов для того, чтобы изолировать возможные Роман вирусы, связанные с болезнью, независимо от их сходство с известных инфекционных агентов. Хотя есть 263 известных вирусов, ориентация человека, было подсчитано, что примерно 1,67 млн неоткрытых вирусный видов существуют, с 631,000-827,000 из них имеют потенциал, чтобы заразить людей9.

Изоляция Роман вирусы — это область, в которой субтрактивный геномики является особенно эффективным, но некоторые исследования может не такой строгий метод. Например исследования, выявления роман вирусы использовали беспристрастной высок объём последовательности следуют обратной транскрипции и BLASTx для вирусных последовательности5 или обогащения вирусных нуклеиновых кислот для извлечения и обратить вспять транскрибировать вирусный последовательности 6. Хотя эти исследования использовали секвенирование de novo и Ассамблеи, вычитания не использовалось, потому что последовательности были идентифицированы путем взрыва. Если вирусы были полностью Роман и не связанные с (или отдаленно связанные) для других вирусов, субтрактивный геномики была бы полезной техникой. Преимуществом субтрактивный геномики является, что последовательности, которые являются совершенно новыми могут быть получены. Если известен геном организма, он может быть вычтен из оставить любой вирусный последовательности. Например в нашем опубликованном исследовании мы изолированы Роман вирусный последовательность от зебры Финч посредством субтрактивного геномики, хотя он был не наш оригинальный намерения7.

Субтрактивный геномики также оказался полезным в определении целей бактериальные вакцины, мотивированные резкий рост антибиотикорезистентности1,2,3,4. Чтобы свести к минимуму риск аутоиммунные реакции, исследователи сузили потенциальных целей вакцины, вычитая любые белки, которые имеют гомолог в человека-хозяина. Одно исследование, глядя на Corynebacterium pseudotuberculosis, выполняется вычитание позвоночных хост геномов из нескольких бактериальных геномов обеспечить, что возможно наркотиков цели не будет затрагивать белков в узлы, ведущие к побочные эффекты 1. основной рабочий поток этих исследований является скачать бактериальных протеом, определить жизненно важных белков, удаления избыточных белков, использовать BLASTp для изоляции эфироносных протеинов и BLASTp против принимающей протеома удалить любые белки с принимающей гомолог 1 , 2 , 3 , 4. В этом случае субтрактивный геномики убедиться, что вакцин разработал не будет иметь каких-либо эффектов пробить в узел1,2,3,4.

Мы использовали субтрактивный геномика для идентификации первого белка кодирование гена ограничено микрофлорой хромосоме (GRC) (в данном случае, T), который находится в germlines, но не соматических ткани обоих полов10. До этого исследования только геномной информации, что было известно о GRC был повторяющихся региона11. De novo Ассамблея была исполнена на РНК последовательности из яичника и Тэст тканей (R + T) от взрослых Зебра зябликов. Вычислительных ликвидации последовательностей была выполнена с использованием опубликованных соматические (мышцы) геном последовательности (Р1)12, ее сырье (Сэнгер) чтения данных (R2) и соматические (мозга) транскриптом (R3)13. Последовательное использование трех ссылок был обусловлен ПЦР, тестирование на шаге 5 каждого цикла (рисA), показаны, что требуется дополнительная фильтрация. Обнаружили ген α-SNAP было подтверждено путем ПЦР ДНК и РНК и клонирование и секвенирование. Мы покажем в нашем примере, что этот метод является гибким: это не зависит от соответствия нуклеиновых кислот (ДНК и РНК), и что вычитание могут быть выполнены с ссылками (R), которые состоят из сборки или сырые читает.

Protocol

1. de novo собрать начиная последовательности Примечание: Любые данные следующего поколения последовательности (НГС) может использоваться, как сборки могут быть изготовлены из этих данных. Подходящие входные данные включают Illumina, PacBio, или Оксфорд Нанопор читает собранн?…

Representative Results

После запуска BLAST, выходной файл будет иметь список последовательностей из запроса, которые соответствуют базе данных. После вычитания Python количество несовпадающих последовательностей будет получен и проверены ПЦР. Результаты этого и последующие шаги, обсуждаются н?…

Discussion

Хотя субтрактивный геномики является мощным, это не печенье резец подход, требующий настройки на нескольких ключевых шагов и тщательный отбор ссылка последовательности и испытательных образцов. Если запрос Ассамблея имеет низкое качество, фильтрация шаги только изолировать Ассамбле…

Declarações

The authors have nothing to disclose.

Acknowledgements

Авторы признают Мишель Бидерман, Alyssa Педерсен и Колин J. Saldanha, за их помощь в проекте геномики зебры Финч на различных этапах. Мы также признаем Евгений Bisk для вычисления Системное администрирование кластера и низ Грант 1K22CA184297 (для J.R.B.) и низ NS 042767 (для C.J.S).

Materials

Accustart II Taq DNA Polymerase Quanta Bio 95141
Blasic Local Alignment Search Tool (BLAST) https://github.com/trinityrnaseq/trinityrnaseq/wiki/Transcriptome-Assembly-Quality-Assessment
Bowtie 2 https://www.python.org/download/releases/2.7/
BWA-MEM v. 0.7.12 https://github.com/BenLangmead/bowtie2
Geneious https://blast.ncbi.nlm.nih.gov/Blast.cgi
PEAR v. 0.9.6 http://www.mybiosoftware.com/reptile-1-1-short-read-error-correction.html
Personal Computer Biomatters http://www.geneious.com/
PowerSYBR qPCR mix ThermoFisher 4367659
Python v. 2.7 https://sco.h-its.org/exelixis/web/software/pear/
Reptile v.1.1 https://alurulab.cc.gatech.edu/reptile
Stratagene Mx3005P Agilent Technologies 401456
TransDecoder v. 3.0.1 https://sourceforge.net/projects/bio-bwa/files/
Trinity v. 2.4.0 https://github.com/TransDecoder/TransDecoder/wiki

Referências

  1. Barh, D., et al. A Novel Comparative Genomics Analysis for Common Drug and Vaccine Targets in Corynebacterium pseudotuberculosis and other CMN Group of Human Pathogens. Chemical Biology & Drug Design. 78 (1), 73-84 (2011).
  2. Sarangi, A. N., Aggarwal, R., Rahman, Q., Trivedi, N. Subtractive Genomics Approach for in Silico Identification and Characterization of Novel Drug Targets in Neisseria Meningitides Serogroup B. Journal of Computer Science & Systems Biology. 2 (5), (2009).
  3. Kaur, N., et al. Identification of Druggable Targets for Acinetobacter baumannii Via Subtractive Genomics and Plausible Inhibitors for MurA and MurB. Applied Biochemistry and Biotechnology. 171 (2), 417-436 (2013).
  4. Rathi, B., Sarangi, A. N., Trivedi, N. Genome subtraction for novel target definition in Salmonella typhi. Bioinformation. 4 (4), 143-150 (2009).
  5. Epstein, J. H., et al. Identification of GBV-D, a Novel GB-like Flavivirus from Old World Frugivorous Bats (Pteropus giganteus) in Bangladesh. PLoS Pathogens. 6 (7), (2010).
  6. Kapoor, A., et al. Identification of Rodent Homologs of Hepatitis C Virus and Pegiviruses. MBio. 4 (2), (2013).
  7. Biederman, M. K., et al. Discovery of the First Germline-Restricted Gene by Subtractive Transcriptomic Analysis in the Zebra Finch, Taeniopygia guttata. Current Biology. 28 (10), 1620-1627 (2018).
  8. Readhead, B., et al. Multiscale Analysis of Independent Alzheimer’s Cohorts Finds Disruption of Molecular, Genetic, and Clinical Networks by Human Herpesvirus. Neuron. 99, 1-19 (2018).
  9. Carroll, D., et al. The global virome project. Science. 359 (6378), 872-874 (2016).
  10. Pigozzi, M. I., Solari, A. J. Germ cell restriction and regular transmission of an accessory chromosome that mimics a sex body in the zebra finch. Taeniopygia guttata. Chromosome Research. 6, 105-113 (1998).
  11. Itoh, Y., Kampf, K., Pigozzi, M. I., Arnold, A. P. Molecular cloning and characterization of the germline-restricted chromosome sequence in the zebra finch. Chromosoma. 118, 527-536 (2009).
  12. Warren, W. C., et al. The genome of a songbird. Nature. 464, 757-762 (2010).
  13. Balakrishnan, C. N., Lin, Y. C., London, S. E., Clayton, D. F. RNAseq transcriptome analysis of male and female zebra finch cell lines. Genomics. 100, 363-369 (2012).
  14. Bolger, A. M., Lohse, M., Usadel, B. Trimmomatic: a flexible trimmer for Illumina sequence data. Bioinformatics. 30 (15), 2114-2120 (2014).
  15. Zhang, J., Kobert, K., Flouri, T., Stamatakis, A. PEAR: a fast and accurate Illumina Paired-End reAd mergeR. Bioinformatics. 30, 614-620 (2014).
  16. Yang, X., Dorman, K. S., Aluru, S. Reptile: representative tiling for short read error correction. Bioinformatics. 26, 2526-2533 (2010).
  17. MacManes, M. D., Eisen, M. B. Improving transcriptome assembly through error correction of high-throughput sequence reads. PeerJ. 1 (113), (2013).
  18. Grabherr, M. G., et al. Full-length transcriptome assembly from RNA-seq data without a reference genome. Nature Biotechnology. 29, 644-652 (2011).
  19. Li, H. Aligning sequence reads, clone sequences and assembly contigs with BWA-MEM. arXiv. , (2013).
  20. Langmead, B., Salzberg, S. Fast gapped-read alignment with Bowtie 2. Nature Methods. 9, 357-359 (2012).
  21. Kearse, M., et al. Geneious Basic: an integrated and extendable desktop software platform for the organization and analysis of sequence data. Bioinformatics. 28 (12), 1647-1649 (2012).
  22. Peirson, S. N., Butler, J. N. Quantitative polymerase chain reaction. Methods in Molecular Biology. 362, 349-362 (2007).
  23. Hunt, M., Kikuchi, T., Sanders, M., Newbold, C., Berriman, M., Otto, T. D. REAPR citation: REAPR: a universal tool for genome assembly evaluation. Genome Biology. 14 (5), (2013).
  24. Meyer, M., et al. A mitochondrial genome sequence of a hominin from Sima de los Huesos. Nature. 505 (7483), 403-406 (2013).
  25. Gunnarsdóttir, E. D., Li, M., Bauchet, M., Finstermeier, K., Stoneking, M. High-throughput sequencing of complete human mtDNA genomes from the Philippines. Genome Research. 21 (1), 1-11 (2010).
  26. King, J. L., et al. High-quality and high-throughput massively parallel sequencing of the human mitochondrial genome using the Illumina MiSeq. Forensic Science International: Genetics. 12, 128-135 (2014).
  27. Yao, X., et al. The First Complete Chloroplast Genome Sequences in Actinidiaceae: Genome Structure and Comparative Analysis. Plos One. 10 (6), (2015).
  28. Zhang, Y., et al. The Complete Chloroplast Genome Sequences of Five Epimedium Species: Lights into Phylogenetic and Taxonomic Analyses. Frontiers in Plant Science. 7, (2016).
  29. Swart, E. C., et al. The Oxytricha trifallax Mitochondrial Genome. Genome Biologyogy and Evolution. 4 (2), 136-154 (2011).
  30. Barth, D., Berendonk, T. U. The mitochondrial genome sequence of the ciliate Paramecium caudatum reveals a shift in nucleotide composition and codon usage within the genus Paramecium. BMC Genomics. 12 (1), (2011).
  31. Coombe, L., et al. Assembly of the Complete Sitka Spruce Chloroplast Genome Using 10X Genomics’ GemCode Sequencing Data. Plos One. 11 (9), (2016).
  32. Herschleb, J., Ananiev, G., Schwartz, D. C. Pulsed-field gel electrophoresis. Nature Protocols. 2 (3), 677-684 (2007).

Play Video

Citar este artigo
Asalone, K. C., Nelson, M. M., Bracht, J. R. Novel Sequence Discovery by Subtractive Genomics. J. Vis. Exp. (143), e58877, doi:10.3791/58877 (2019).

View Video