Summary

Nieuwe reeks ontdekking door subtractieve Genomics

Published: January 25, 2019
doi:

Summary

Het doel van dit protocol is met een combinatie van rekenkundige en onderzoek van de Bank te vinden van nieuwe sequenties die niet gemakkelijk kunnen worden gescheiden van een mede zuiverende sequentie, die slechts gedeeltelijk bekend kan zijn.

Abstract

Subtractieve genomics kan worden gebruikt in elk onderzoek waar het doel is om het identificeren van de sequentie van een gen, eiwit of algemene regio die is ingesloten in een bredere context van de genomic. Subtractieve genomics laat een onderzoeker een opeenvolging van de doelgroep van belang (T) isoleren door uitgebreide sequentie en af te trekken uit de bekende genetische elementen (referentie, R). De methode kan worden gebruikt voor het identificeren van nieuwe reeksen zoals mitochondriën, chloroplasten, virussen, of germline chromosomen beperkt, en is vooral handig als T niet kan worden eenvoudig geïsoleerd van R. beginnen met de uitgebreide genomic gegevens (R + T), de methode maakt gebruik van elementaire lokale Alignment Search Tool (BLAST) tegen een referentie-reeks, of sequenties, verwijderen van de overeenkomende bekende opeenvolgingen (R), weggaand achter het doel (T). Voor aftrekken te werken het beste, moet R een relatief volledige ontwerp dat T. ontbreekt Sinds sequenties overblijft nadat aftrekken worden getest door middel van kwantitatieve Polymerase Chain Reaction (qPCR), hoeft R niet te worden voltooid voor de methode om te werken. Hier koppelen we computationele stappen met experimentele stappen in een cyclus die herhaald kan worden, zo nodig, opeenvolgend verwijderen van meerdere referentie sequenties en verfijnen van het zoeken naar T. Het voordeel van subtractieve genomics is dat een volledig nieuwe target-reeks zelfs in gevallen waarin fysieke zuivering moeilijk, niet onmogelijk, of duur is kan worden geïdentificeerd. Een nadeel van de methode is het vinden van een geschikte referentiemiddelen voor aftrekken en het verkrijgen van T-positieve en negatieve monsters voor het testen van qPCR. Wij beschrijven onze implementatie van de methode in de identificatie van het eerste gen van het chromosoom germline-beperkte van Zebravink. In dat geval drie verwijzingen (R), opeenvolgend verwijderd gedurende drie cycli computationele filteren betrokken: een onvolledige genomic vergadering, ruwe genomische data en transcriptomic gegevens.

Introduction

Het doel van deze methode is om te identificeren een nieuwe doelstelling (T) genomic opeenvolging, hetzij DNA hetzij RNA, uit een genomic context of een verwijzing (R) (Figuur 1). De methode is vooral handig als het doel niet fysiek worden gescheiden, of het zou duur om dit te doen. Alleen een paar organismen hebben genomen voor aftrekken, perfect afgewerkt dus een belangrijke innovatie van onze methode is de combinatie van computationele en methoden van de Bank in een cyclus waardoor onderzoekers te isoleren doel sequenties wanneer de verwijzing onvolmaakt is, of een ontwerp genoom van een organisme niet-model. Aan het einde van een cyclus, wordt qPCR testen gebruikt om te bepalen of meer aftrekken nodig is. Een reeks gevalideerde kandidaat-T zal de bekende T-positieve monsters statistisch meer detectie vertonen door qPCR.

Incarnaties van de methode zijn doorgevoerd in de ontdekking van nieuwe bacteriële drug targets die geen host homologen1,2,3,4 en identificatie van nieuwe virussen geïnfecteerde hosts 5,6. Naast de identificatie van T, kan de methode verbeteren R: wij recent gebruikte de methode om 936 ontbrekende genen van het genoom van de verwijzing Zebravink en een nieuw gen van een alleen-germline chromosoom (T)7te identificeren. Subtractieve genomics is bijzonder waardevol wanneer T dreigt te worden zeer uiteenlopende vanaf de bekende opeenvolgingen of wanneer de identiteit van T is in grote lijnen gedefinieerd, zoals de Zebravink germline-beperkte chromosoom7.

Doordat er geen positieve identificatie van T vooraf, is een belangrijk voordeel van subtractieve genomics dat er onbevooroordeelde. In een recente studie onderzocht Readhead et al. de relatie tussen de ziekte van Alzheimer en virale overvloed in vier hersengebieden. Readhead et al. gemaakt voor virale identificatie, een database van 515 virussen8, ernstig beperken de virale agenten die hun studie kon identificeren. Subtractieve genomics kunnen zijn gebruikt om het gezond en Alzheimer genoom te vergelijken om te isoleren mogelijk roman virussen die zijn gekoppeld aan de ziekte, ongeacht hun gelijkenis met bekende infectieuze agentia. Hoewel er 263 bekende mens-targeting virussen, wordt er geschat dat ongeveer 1,67 miljoen onontdekte virale soorten bestaat, met 631,000-827,000 van hen hebben een potentieel te infecteren mensen9.

Isolatie van roman virussen is een terrein waarop subtractieve genomics is bijzonder effectief, maar sommige studies wellicht niet zo’n strenge methode. Bijvoorbeeld, transcriberen studies identificerende roman virussen hebt gebruikt onbevooroordeelde high-throughput sequencing gevolgd door omgekeerde transcriptie en BLASTx voor virale opeenvolgingen5 of verrijking van virale nucleïnezuren te halen en keren virale opeenvolgingen 6. Hoewel deze studies werkzaam DOVO Sequencen en vergadering, aftrekken werd niet gebruikt omdat de doelgroep sequenties werden positief geïdentificeerd door BLAST. Als de virussen zijn volledig nieuw en niet verwant (of zijdelings gerelateerde) aan andere virussen, subtractieve genomics zou zijn geweest een nuttige techniek. Het voordeel van subtractieve genomics is dat sequenties die volledig nieuw zijn kunnen worden verkregen. Als van het organisme genoom bekend is, kan het worden afgetrokken uit te verlaten een virale opeenvolgingen. Bijvoorbeeld, in onze gepubliceerde studie geïsoleerd we een nieuwe virale sequence Zebravink via subtractieve genomics, hoewel het was niet onze oorspronkelijke opzet7.

Subtractieve genomics is ook nuttig bij de identificatie van bacteriële vaccin doelen, ingegeven door de dramatische stijging van de antibiotica-resistentie1,,2,,3,4gebleken. Om het risico van auto-immune reactie, onderzoekers het doelwit van vaccin door af te trekken alle proteïnen die homologen in de menselijke gastheer hebben teruggebracht. Een bijzondere studie, Corynebacterium pseudotuberculosis, kijken uitgevoerd aftrekken van gewervelde gastheer genomen vanaf verschillende bacteriële genoom om ervoor te zorgen dat de mogelijke drug targets niet afbreuk zou doen aan eiwitten in de hosts die leiden tot bijwerkingen 1. de basishandelingen stroom van deze studies is het downloaden van de bacteriële Proteoom, bepalen van vitale eiwitten, verwijderen van redundante eiwitten, gebruik BLASTp om te isoleren de essentiële eiwitten en BLASTp tegen gastheer Proteoom te verwijderen van alle eiwitten met host homologen 1 , 2 , 3 , 4. In dit geval subtractieve genomics ervoor zorgen dat de vaccins ontwikkeld geen af-target effecten in de host1,2,3,4 hebben zal.

We gebruikten subtractieve genomica te identificeren van het eerste eiwit-codeert gen op een germline-beperkte chromosoom (GRC) (in dit geval, T), dat in germlines wordt gevonden maar niet somatische weefsel van beide vrouwen10. Voor deze studie was de alleen genomische informatie die was bekend over het GRC een repetitieve regio11. DOVO vergadering werd uitgevoerd op RNA sequenced van eierstok en teste weefsels (R + T) van volwassen zebra vinken. De computationele afschaffing van sequenties werd uitgevoerd met behulp van gepubliceerde somatische (spier) genoom reeks (R1)12, haar rauwe (Sanger) lezen gegevens (R2), en een somatische (hersenen) transcriptome (R3)13. De sequentiële gebruik van drie verwijzingen werd gedreven door de qPCR testen bij stap 5 van elke cyclus (Figuur 2A), waaruit blijkt dat aanvullende filteren vereist was. Het ontdekte α-SNAP-gen werd bevestigd door de qPCR van DNA en RNA, klonen en rangschikken. We laten zien in ons voorbeeld dat deze methode flexibel is: het is niet afhankelijk van de matching van nucleic zuren (DNA vs RNA) en dat aftrekken kan uitgevoerd worden met verwijzingen (R), die bestaan uit assemblages of ruwe leest.

Protocol

1. DOVO monteren beginnen volgorde Opmerking: Alle gegevens van Next-Generation reeks (NGS) kan worden gebruikt, zolang een vergadering kan worden geproduceerd uit die gegevens. Geschikte invoergegevens omvat Illumina, PacBio, of Oxford Nanopore geassembleerd in een fasta bestand leest. Voor concreet, hier beschreven een vergadering Illumina gebaseerde transcriptomic specifiek voor de Zebravink studie uitgevoerd we7; maar let erop dat de specifieke kenmerken per …

Representative Results

Na het uitvoeren van BLAST, zal de output bestand hebben een lijst van sequenties van de query die overeenkomen met de database. Na Python aftrekken, zal een aantal nonmatching sequenties worden verkregen en getest door qPCR. De resultaten van dit en de volgende stappen worden hieronder besproken. Negatieve resultaat. Er zijn twee mogelijke negatieve resultaten die kunnen worden gezien na de explosie in de reeks…

Discussion

Subtractieve genomics is krachtig, maar het is niet een cookie-cutter aanpak, waarbij aanpassingen op verschillende belangrijke stappen, en zorgvuldige selectie van referentie sequenties en proefmonsters. Als de query-vergadering van slechte kwaliteit is, misschien filteren stappen alleen isoleren vergadering artefacten. Daarom is het belangrijk om grondig valideren de DOVO vergadering met behulp van een geschikte validatie-protocol aan het specifieke project. Voor RNA-seq, worden richtsnoeren verstrekt op de we…

Disclosures

The authors have nothing to disclose.

Acknowledgements

De auteurs erkennen Michelle Biederman, Alyssa Pedersen en Colin J. Saldanha voor hun hulp bij de Zebravink genomics project in verschillende stadia. We erkennen ook Evgeny Bisk voor het berekenen van cluster Systeembeheer en NIH grant 1K22CA184297 (voor J.R.B.) en NIH NS 042767 (voor C.J.S).

Materials

Accustart II Taq DNA Polymerase Quanta Bio 95141
Blasic Local Alignment Search Tool (BLAST) https://github.com/trinityrnaseq/trinityrnaseq/wiki/Transcriptome-Assembly-Quality-Assessment
Bowtie 2 https://www.python.org/download/releases/2.7/
BWA-MEM v. 0.7.12 https://github.com/BenLangmead/bowtie2
Geneious https://blast.ncbi.nlm.nih.gov/Blast.cgi
PEAR v. 0.9.6 http://www.mybiosoftware.com/reptile-1-1-short-read-error-correction.html
Personal Computer Biomatters http://www.geneious.com/
PowerSYBR qPCR mix ThermoFisher 4367659
Python v. 2.7 https://sco.h-its.org/exelixis/web/software/pear/
Reptile v.1.1 https://alurulab.cc.gatech.edu/reptile
Stratagene Mx3005P Agilent Technologies 401456
TransDecoder v. 3.0.1 https://sourceforge.net/projects/bio-bwa/files/
Trinity v. 2.4.0 https://github.com/TransDecoder/TransDecoder/wiki

References

  1. Barh, D., et al. A Novel Comparative Genomics Analysis for Common Drug and Vaccine Targets in Corynebacterium pseudotuberculosis and other CMN Group of Human Pathogens. Chemical Biology & Drug Design. 78 (1), 73-84 (2011).
  2. Sarangi, A. N., Aggarwal, R., Rahman, Q., Trivedi, N. Subtractive Genomics Approach for in Silico Identification and Characterization of Novel Drug Targets in Neisseria Meningitides Serogroup B. Journal of Computer Science & Systems Biology. 2 (5), (2009).
  3. Kaur, N., et al. Identification of Druggable Targets for Acinetobacter baumannii Via Subtractive Genomics and Plausible Inhibitors for MurA and MurB. Applied Biochemistry and Biotechnology. 171 (2), 417-436 (2013).
  4. Rathi, B., Sarangi, A. N., Trivedi, N. Genome subtraction for novel target definition in Salmonella typhi. Bioinformation. 4 (4), 143-150 (2009).
  5. Epstein, J. H., et al. Identification of GBV-D, a Novel GB-like Flavivirus from Old World Frugivorous Bats (Pteropus giganteus) in Bangladesh. PLoS Pathogens. 6 (7), (2010).
  6. Kapoor, A., et al. Identification of Rodent Homologs of Hepatitis C Virus and Pegiviruses. MBio. 4 (2), (2013).
  7. Biederman, M. K., et al. Discovery of the First Germline-Restricted Gene by Subtractive Transcriptomic Analysis in the Zebra Finch, Taeniopygia guttata. Current Biology. 28 (10), 1620-1627 (2018).
  8. Readhead, B., et al. Multiscale Analysis of Independent Alzheimer’s Cohorts Finds Disruption of Molecular, Genetic, and Clinical Networks by Human Herpesvirus. Neuron. 99, 1-19 (2018).
  9. Carroll, D., et al. The global virome project. Science. 359 (6378), 872-874 (2016).
  10. Pigozzi, M. I., Solari, A. J. Germ cell restriction and regular transmission of an accessory chromosome that mimics a sex body in the zebra finch. Taeniopygia guttata. Chromosome Research. 6, 105-113 (1998).
  11. Itoh, Y., Kampf, K., Pigozzi, M. I., Arnold, A. P. Molecular cloning and characterization of the germline-restricted chromosome sequence in the zebra finch. Chromosoma. 118, 527-536 (2009).
  12. Warren, W. C., et al. The genome of a songbird. Nature. 464, 757-762 (2010).
  13. Balakrishnan, C. N., Lin, Y. C., London, S. E., Clayton, D. F. RNAseq transcriptome analysis of male and female zebra finch cell lines. Genomics. 100, 363-369 (2012).
  14. Bolger, A. M., Lohse, M., Usadel, B. Trimmomatic: a flexible trimmer for Illumina sequence data. Bioinformatics. 30 (15), 2114-2120 (2014).
  15. Zhang, J., Kobert, K., Flouri, T., Stamatakis, A. PEAR: a fast and accurate Illumina Paired-End reAd mergeR. Bioinformatics. 30, 614-620 (2014).
  16. Yang, X., Dorman, K. S., Aluru, S. Reptile: representative tiling for short read error correction. Bioinformatics. 26, 2526-2533 (2010).
  17. MacManes, M. D., Eisen, M. B. Improving transcriptome assembly through error correction of high-throughput sequence reads. PeerJ. 1 (113), (2013).
  18. Grabherr, M. G., et al. Full-length transcriptome assembly from RNA-seq data without a reference genome. Nature Biotechnology. 29, 644-652 (2011).
  19. Li, H. Aligning sequence reads, clone sequences and assembly contigs with BWA-MEM. arXiv. , (2013).
  20. Langmead, B., Salzberg, S. Fast gapped-read alignment with Bowtie 2. Nature Methods. 9, 357-359 (2012).
  21. Kearse, M., et al. Geneious Basic: an integrated and extendable desktop software platform for the organization and analysis of sequence data. Bioinformatics. 28 (12), 1647-1649 (2012).
  22. Peirson, S. N., Butler, J. N. Quantitative polymerase chain reaction. Methods in Molecular Biology. 362, 349-362 (2007).
  23. Hunt, M., Kikuchi, T., Sanders, M., Newbold, C., Berriman, M., Otto, T. D. REAPR citation: REAPR: a universal tool for genome assembly evaluation. Genome Biology. 14 (5), (2013).
  24. Meyer, M., et al. A mitochondrial genome sequence of a hominin from Sima de los Huesos. Nature. 505 (7483), 403-406 (2013).
  25. Gunnarsdóttir, E. D., Li, M., Bauchet, M., Finstermeier, K., Stoneking, M. High-throughput sequencing of complete human mtDNA genomes from the Philippines. Genome Research. 21 (1), 1-11 (2010).
  26. King, J. L., et al. High-quality and high-throughput massively parallel sequencing of the human mitochondrial genome using the Illumina MiSeq. Forensic Science International: Genetics. 12, 128-135 (2014).
  27. Yao, X., et al. The First Complete Chloroplast Genome Sequences in Actinidiaceae: Genome Structure and Comparative Analysis. Plos One. 10 (6), (2015).
  28. Zhang, Y., et al. The Complete Chloroplast Genome Sequences of Five Epimedium Species: Lights into Phylogenetic and Taxonomic Analyses. Frontiers in Plant Science. 7, (2016).
  29. Swart, E. C., et al. The Oxytricha trifallax Mitochondrial Genome. Genome Biologyogy and Evolution. 4 (2), 136-154 (2011).
  30. Barth, D., Berendonk, T. U. The mitochondrial genome sequence of the ciliate Paramecium caudatum reveals a shift in nucleotide composition and codon usage within the genus Paramecium. BMC Genomics. 12 (1), (2011).
  31. Coombe, L., et al. Assembly of the Complete Sitka Spruce Chloroplast Genome Using 10X Genomics’ GemCode Sequencing Data. Plos One. 11 (9), (2016).
  32. Herschleb, J., Ananiev, G., Schwartz, D. C. Pulsed-field gel electrophoresis. Nature Protocols. 2 (3), 677-684 (2007).

Play Video

Cite This Article
Asalone, K. C., Nelson, M. M., Bracht, J. R. Novel Sequence Discovery by Subtractive Genomics. J. Vis. Exp. (143), e58877, doi:10.3791/58877 (2019).

View Video