Summary

Neue Sequenz Entdeckung durch subtraktive Genomics

Published: January 25, 2019
doi:

Summary

Dieses Protokoll soll verwenden eine Kombination aus Rechenleistung und Bank-Forschung, um neue Sequenzen zu finden, die leicht von einer Co reinigende Sequenz, die nur teilweise bekannt sein kann nicht getrennt werden können.

Abstract

Subtraktive Genomics kann verwendet werden, in jede Forschung, wo das Ziel ist, identifizieren die Sequenz eines Gens, Protein oder allgemeine Region, die in einem größeren genomische Kontext eingebettet ist. Subtraktive Genomics ermöglicht ein Forscher, eine Ziel-Sequenz von Interesse (T) durch umfassende Sequenzierung und Subtraktion bekannte genetische Elemente (Referenz, R) zu isolieren. Die Methode kann verwendet werden, um neuartige Sequenzen wie Mitochondrien, Chloroplasten, Viren zu identifizieren, oder Keimbahn eingeschränkt Chromosomen, und ist besonders nützlich, wenn T von R. beginnend mit umfassenden genomischen Daten (R + T), die Methode leicht isoliert werden kann verwendet grundlegende lokale Alignment Search Tool (BLAST) gegen eine Referenzsequenz oder Sequenzen, um den passenden bekannten Reihenfolgen (R), hinterlässt das Ziel (T) zu entfernen. Für die Subtraktion funktioniert am besten soll R ein relativ vollständigen Entwurf, der T. fehlt Seit Sequenzen nach Subtraktion werden durch quantitative Polymerase Chain Reaction (qPCR) getestet muss R nicht vollständig für die Methode funktioniert. Hier verbinden wir rechnergestützte Schritte mit experimentellen Schritte in einem Zyklus, der iteriert werden kann, je nach Bedarf, nacheinander entfernen mehrere Referenz-Sequenzen und verfeinern die Suche nach T. Der Vorteil der subtraktiven Genomik ist eine völlig neuartiges Zielsequenz selbst in Fällen identifiziert werden kann, in denen körperliche Reinigung schwierig, teuer oder unmöglich ist. Ein Nachteil der Methode ist eine geeignete Referenz für die Subtraktion Suche und Erlangung eines T-Positive und negative Proben zu Testzwecken qPCR. Wir beschreiben unsere Implementierung der Methode zur Identifizierung des ersten Gens aus der Keimbahn eingeschränkt Chromosom von Zebrafinken. In diesem Fall drei Verweise (R), nacheinander entfernt über drei Zyklen beteiligt rechnerische Filterung: eine unvollständige genomische Montage, genomische Rohdaten und transkriptomischen Daten.

Introduction

Der Zweck dieser Methode ist, eine neuartige Ziel (T) genomischen Sequenz, entweder DNA oder RNA, aus einer genomischen Kontext oder Referenz (R) (Abbildung 1) zu identifizieren. Die Methode ist besonders hilfreich, wenn das Ziel nicht physisch getrennt werden, oder es teuer wäre, dies zu tun. Nur wenige Organismen haben Genome für die Subtraktion, perfekt beendet, so dass eine entscheidende Neuerung unserer Methode ist die Kombination aus Rechenleistung und Bank-Methoden in einem Zyklus Forscher um Zielsequenzen zu isolieren, wenn der Verweis nicht perfekt ist, oder ein Entwurf Genom von einem Modellorganismus. Am Ende eines Zyklus wird qPCR Tests verwendet, um festzustellen, ob weitere Subtraktion benötigt wird. Eine validierte Kandidat T-Sequenz zeigt statistisch höhere Erkennung in bekannten T-positiven Proben von qPCR.

Inkarnationen des Verfahrens wurden in Entdeckung neuer bakterielle Drug Targets, die keinen Host homologe1,2,3,4 und Identifikation von neuartigen Viren von infizierten Rechnern umgesetzt 5,6. Zusätzlich zur Identifikation von T kann die Methode verbessern R: wir vor kurzem die Methode verwendet, um 936 fehlenden Gene aus dem Zebrafinken Bezug Genom und aus eine Keimbahn-nur Chromosom (T)7ein neues Gen zu identifizieren. Subtraktive Genomics ist besonders wertvoll, wenn T extrem abweichend von bekannten Sequenzen sein dürfte, oder wenn die Identität des T ist im großen und ganzen nicht definiert, wie in der Zebrafinken Keimbahn eingeschränkt Chromosom7.

Durch die Forderung nicht positive Identifizierung T im Voraus, ist ein entscheidender Vorteil der subtraktiven Genomik, dass es Objektive. In einer aktuellen Studie untersuchten Readhead Et Al. die Beziehung zwischen Alzheimer und virale Fülle in vier Regionen des Gehirns. Für virale Identifizierung erstellt Readhead Et Al. eine Datenbank von 515 Viren8, stark einschränken die virale Agents, die ihre Studie identifizieren konnten. Subtraktive Genomics hätte genutzt werden können, die gesunden und Alzheimer Genome zu vergleichen um mögliche neuartige Viren, verbunden mit der Krankheit, unabhängig von ihrer Ähnlichkeit mit bekannten Infektionserreger zu isolieren. Zwar gibt es 263 Menschen gezielt Viren bekannte, wurde es geschätzt, dass etwa 1,67 Millionen unentdeckte viral Arten existieren, mit 631.000-827.000 von ihnen haben ein Potenzial, Menschen9zu infizieren.

Isolation von neuartigen Viren ist ein Bereich, in dem subtraktiven Genomics ist besonders effektiv, aber einige Studien können keine strenge Methode benötigen. Studien zur Identifizierung neuartige Viren unvoreingenommene Hochdurchsatz-Sequenzierung gefolgt von reverse Transkription und sequenziert für virale Sequenzen5 oder Anreicherung von viralen Nukleinsäuren verwendet haben, zu extrahieren und umkehren transkribieren beispielsweise virale Sequenzen 6. während dieser Studien de Novo Sequenzierung und Montage beschäftigt, Subtraktion wurde nicht verwendet, weil die Zielsequenzen Blast positiv identifiziert wurden. Wenn die Viren wurden völlig neuartige und nicht in Zusammenhang stehen (oder weitläufig verwandten) zu anderen Viren subtraktiven Genomics gewesen wäre eine nützliche Technik. Der Vorteil der subtraktiven Genomik ist Sequenzen, die völlig neu sind können gewonnen werden. Wenn der Organismus Genom bekannt ist, kann es keine viralen Sequenzen verlassen, abgezogen werden. Zum Beispiel in unseren veröffentlichten Studie isoliert wir eine neuartige virale Sequenz von Zebrafinken durch subtraktive Genomics, aber es nicht unsere ursprüngliche Absicht7 war.

Subtraktive Genomics hat auch bei der Identifizierung von bakterieller Impfstoff Ziele, motiviert durch den dramatischen Anstieg der Resistenz gegen Antibiotika1,2,3,4bewährt. Zur Minimierung des Risikos der Autoimmunreaktion eingegrenzt Forscher die potentiellen Impfstoff Ziele durch Subtraktion alle Proteine, die homologe im menschlichen Wirt haben. Eine besondere Untersuchung, Corynebacterium Pseudotuberculosis, betrachten durchgeführt Subtraktion von Wirbeltieren Host Genomen von mehreren bakteriellen Genome um sicherzustellen, dass mögliche Drogeziele Proteine in der Hosts führt zu Nebenwirkungen nicht beeinträchtigen würde 1. grundlegende Arbeitsabläufe dieser Studien ist zum download des bakterielle Proteoms, lebenswichtige Proteine bestimmen, redundante Proteine zu entfernen, verwenden BLASTp, die wesentlichen Proteine zu isolieren und BLASTp gegen Gastgeber Proteom, um Proteine mit Host homologe zu entfernen 1 , 2 , 3 , 4. In diesem Fall subtraktiven Genomics sicherzustellen, dass die Impfstoffe entwickelt keiner Ziel-Host1,2,3,4auswirken werden.

Wir subtraktiven Genomics, das erste Protein-kodierenden gen auf Chromosom Keimbahn eingeschränkt (GRC) (in diesem Fall, T), zu identifizieren, die in Germlines gefunden wird aber keine somatischen Gewebe beider Geschlechter10. Vor dieser Studie war die nur genomische Informationen, die über das DRK bekannt war eine sich wiederholende Region11. De Novo Assemblierung wurde RNA aus dem Eierstock und Teste Gewebe (R + T) von Erwachsenen Zebrafinken sequenziert aufgeführt. Die rechnerische Beseitigung von Sequenzen erfolgte mittels veröffentlichten somatische (Muskel) Genom-Sequenz (R1)12, seine rohe (Sanger) zu lesen, Daten (R2) und eine somatische (Gehirn) Transkriptom (R3)13. Die sequentielle Verwendung von drei Referenzen wurde durch die qPCR Tests bei Schritt 5 eines jeden Zyklus (Abb. 2A), zeigen, dass zusätzliche Filterung erforderlich war getrieben. Das entdeckte α-SNAP-gen wurde durch qPCR von DNA und RNA, und Klonierung und Sequenzierung bestätigt. Wir zeigen in unserem Beispiel, dass diese Methode flexibel ist: Es ist nicht abhängig von passenden Nukleinsäuren (DNA Vs RNA) und die Subtraktion mit Referenzen (R), die aus Baugruppen oder roh liest bestehen durchgeführt werden kann.

Protocol

1. de Novo montieren beginnend Sequenz Hinweis: Alle Next-Generation-Sequenz (NGS) Daten können verwendet werden, solange eine Baugruppe aus diesen Daten hergestellt werden kann. Geeignete Eingabedaten enthält Illumina, PacBio, oder Oxford Nanopore montierten in einer Fasta-Datei liest. Für Konkretheit, dieser Abschnitt beschreibt eine Illumina-basierte transkriptomischen-Assembly für die Zebrafinken-Studie führten wir7; Beachten Sie jedoch, dass die Besonde…

Representative Results

Nach dem Ausführen von BLAST, haben die Ausgabe-Datei eine Liste der Sequenzen aus der Abfrage, die der Datenbank entspricht. Nach Python Subtraktion wird eine Reihe von verglichen Sequenzen erhalten und von qPCR getestet. Die Ergebnisse dieser und nächsten Schritte werden nachfolgend erläutert. Negatives Ergebnis. Es gibt zwei mögliche negative Ergebnisse, die nach der Explosion, die Referenzsequenz gesehen…

Discussion

Während subtraktiven Genomics mächtig ist, ist es kein Cookie-Cutter-Ansatz, Anpassung an mehreren wichtigen Schritte und sorgfältige Auswahl von Referenz-Sequenzen und Proben. Wenn die Abfrageassembly von schlechter Qualität ist, könnte Filterung Schritte nur Montage Artefakte isolieren. Daher ist es wichtig, die de Novo Assemblierung über eine entsprechende Validierung-Protokoll für das jeweilige Projekt gründlich zu überprüfen. RNA-Seq sind Leitlinien vorgesehen auf der Trinity Website<sup class="xr…

Disclosures

The authors have nothing to disclose.

Acknowledgements

Die Autoren erkennen Michelle Biederman, Alyssa Pedersen und Colin J. Saldanha für ihre Hilfe mit dem Zebrafinken Genomics Projekt in verschiedenen Stadien. Wir anerkennen auch Evgeny Bisk für computing-Cluster-System-Administration und NIH Grant 1K22CA184297 (zu J.R.B.) und NIH-NS-042767 (zu C.J.S).

Materials

Accustart II Taq DNA Polymerase Quanta Bio 95141
Blasic Local Alignment Search Tool (BLAST) https://github.com/trinityrnaseq/trinityrnaseq/wiki/Transcriptome-Assembly-Quality-Assessment
Bowtie 2 https://www.python.org/download/releases/2.7/
BWA-MEM v. 0.7.12 https://github.com/BenLangmead/bowtie2
Geneious https://blast.ncbi.nlm.nih.gov/Blast.cgi
PEAR v. 0.9.6 http://www.mybiosoftware.com/reptile-1-1-short-read-error-correction.html
Personal Computer Biomatters http://www.geneious.com/
PowerSYBR qPCR mix ThermoFisher 4367659
Python v. 2.7 https://sco.h-its.org/exelixis/web/software/pear/
Reptile v.1.1 https://alurulab.cc.gatech.edu/reptile
Stratagene Mx3005P Agilent Technologies 401456
TransDecoder v. 3.0.1 https://sourceforge.net/projects/bio-bwa/files/
Trinity v. 2.4.0 https://github.com/TransDecoder/TransDecoder/wiki

References

  1. Barh, D., et al. A Novel Comparative Genomics Analysis for Common Drug and Vaccine Targets in Corynebacterium pseudotuberculosis and other CMN Group of Human Pathogens. Chemical Biology & Drug Design. 78 (1), 73-84 (2011).
  2. Sarangi, A. N., Aggarwal, R., Rahman, Q., Trivedi, N. Subtractive Genomics Approach for in Silico Identification and Characterization of Novel Drug Targets in Neisseria Meningitides Serogroup B. Journal of Computer Science & Systems Biology. 2 (5), (2009).
  3. Kaur, N., et al. Identification of Druggable Targets for Acinetobacter baumannii Via Subtractive Genomics and Plausible Inhibitors for MurA and MurB. Applied Biochemistry and Biotechnology. 171 (2), 417-436 (2013).
  4. Rathi, B., Sarangi, A. N., Trivedi, N. Genome subtraction for novel target definition in Salmonella typhi. Bioinformation. 4 (4), 143-150 (2009).
  5. Epstein, J. H., et al. Identification of GBV-D, a Novel GB-like Flavivirus from Old World Frugivorous Bats (Pteropus giganteus) in Bangladesh. PLoS Pathogens. 6 (7), (2010).
  6. Kapoor, A., et al. Identification of Rodent Homologs of Hepatitis C Virus and Pegiviruses. MBio. 4 (2), (2013).
  7. Biederman, M. K., et al. Discovery of the First Germline-Restricted Gene by Subtractive Transcriptomic Analysis in the Zebra Finch, Taeniopygia guttata. Current Biology. 28 (10), 1620-1627 (2018).
  8. Readhead, B., et al. Multiscale Analysis of Independent Alzheimer’s Cohorts Finds Disruption of Molecular, Genetic, and Clinical Networks by Human Herpesvirus. Neuron. 99, 1-19 (2018).
  9. Carroll, D., et al. The global virome project. Science. 359 (6378), 872-874 (2016).
  10. Pigozzi, M. I., Solari, A. J. Germ cell restriction and regular transmission of an accessory chromosome that mimics a sex body in the zebra finch. Taeniopygia guttata. Chromosome Research. 6, 105-113 (1998).
  11. Itoh, Y., Kampf, K., Pigozzi, M. I., Arnold, A. P. Molecular cloning and characterization of the germline-restricted chromosome sequence in the zebra finch. Chromosoma. 118, 527-536 (2009).
  12. Warren, W. C., et al. The genome of a songbird. Nature. 464, 757-762 (2010).
  13. Balakrishnan, C. N., Lin, Y. C., London, S. E., Clayton, D. F. RNAseq transcriptome analysis of male and female zebra finch cell lines. Genomics. 100, 363-369 (2012).
  14. Bolger, A. M., Lohse, M., Usadel, B. Trimmomatic: a flexible trimmer for Illumina sequence data. Bioinformatics. 30 (15), 2114-2120 (2014).
  15. Zhang, J., Kobert, K., Flouri, T., Stamatakis, A. PEAR: a fast and accurate Illumina Paired-End reAd mergeR. Bioinformatics. 30, 614-620 (2014).
  16. Yang, X., Dorman, K. S., Aluru, S. Reptile: representative tiling for short read error correction. Bioinformatics. 26, 2526-2533 (2010).
  17. MacManes, M. D., Eisen, M. B. Improving transcriptome assembly through error correction of high-throughput sequence reads. PeerJ. 1 (113), (2013).
  18. Grabherr, M. G., et al. Full-length transcriptome assembly from RNA-seq data without a reference genome. Nature Biotechnology. 29, 644-652 (2011).
  19. Li, H. Aligning sequence reads, clone sequences and assembly contigs with BWA-MEM. arXiv. , (2013).
  20. Langmead, B., Salzberg, S. Fast gapped-read alignment with Bowtie 2. Nature Methods. 9, 357-359 (2012).
  21. Kearse, M., et al. Geneious Basic: an integrated and extendable desktop software platform for the organization and analysis of sequence data. Bioinformatics. 28 (12), 1647-1649 (2012).
  22. Peirson, S. N., Butler, J. N. Quantitative polymerase chain reaction. Methods in Molecular Biology. 362, 349-362 (2007).
  23. Hunt, M., Kikuchi, T., Sanders, M., Newbold, C., Berriman, M., Otto, T. D. REAPR citation: REAPR: a universal tool for genome assembly evaluation. Genome Biology. 14 (5), (2013).
  24. Meyer, M., et al. A mitochondrial genome sequence of a hominin from Sima de los Huesos. Nature. 505 (7483), 403-406 (2013).
  25. Gunnarsdóttir, E. D., Li, M., Bauchet, M., Finstermeier, K., Stoneking, M. High-throughput sequencing of complete human mtDNA genomes from the Philippines. Genome Research. 21 (1), 1-11 (2010).
  26. King, J. L., et al. High-quality and high-throughput massively parallel sequencing of the human mitochondrial genome using the Illumina MiSeq. Forensic Science International: Genetics. 12, 128-135 (2014).
  27. Yao, X., et al. The First Complete Chloroplast Genome Sequences in Actinidiaceae: Genome Structure and Comparative Analysis. Plos One. 10 (6), (2015).
  28. Zhang, Y., et al. The Complete Chloroplast Genome Sequences of Five Epimedium Species: Lights into Phylogenetic and Taxonomic Analyses. Frontiers in Plant Science. 7, (2016).
  29. Swart, E. C., et al. The Oxytricha trifallax Mitochondrial Genome. Genome Biologyogy and Evolution. 4 (2), 136-154 (2011).
  30. Barth, D., Berendonk, T. U. The mitochondrial genome sequence of the ciliate Paramecium caudatum reveals a shift in nucleotide composition and codon usage within the genus Paramecium. BMC Genomics. 12 (1), (2011).
  31. Coombe, L., et al. Assembly of the Complete Sitka Spruce Chloroplast Genome Using 10X Genomics’ GemCode Sequencing Data. Plos One. 11 (9), (2016).
  32. Herschleb, J., Ananiev, G., Schwartz, D. C. Pulsed-field gel electrophoresis. Nature Protocols. 2 (3), 677-684 (2007).

Play Video

Cite This Article
Asalone, K. C., Nelson, M. M., Bracht, J. R. Novel Sequence Discovery by Subtractive Genomics. J. Vis. Exp. (143), e58877, doi:10.3791/58877 (2019).

View Video