Dieses Protokoll soll verwenden eine Kombination aus Rechenleistung und Bank-Forschung, um neue Sequenzen zu finden, die leicht von einer Co reinigende Sequenz, die nur teilweise bekannt sein kann nicht getrennt werden können.
Subtraktive Genomics kann verwendet werden, in jede Forschung, wo das Ziel ist, identifizieren die Sequenz eines Gens, Protein oder allgemeine Region, die in einem größeren genomische Kontext eingebettet ist. Subtraktive Genomics ermöglicht ein Forscher, eine Ziel-Sequenz von Interesse (T) durch umfassende Sequenzierung und Subtraktion bekannte genetische Elemente (Referenz, R) zu isolieren. Die Methode kann verwendet werden, um neuartige Sequenzen wie Mitochondrien, Chloroplasten, Viren zu identifizieren, oder Keimbahn eingeschränkt Chromosomen, und ist besonders nützlich, wenn T von R. beginnend mit umfassenden genomischen Daten (R + T), die Methode leicht isoliert werden kann verwendet grundlegende lokale Alignment Search Tool (BLAST) gegen eine Referenzsequenz oder Sequenzen, um den passenden bekannten Reihenfolgen (R), hinterlässt das Ziel (T) zu entfernen. Für die Subtraktion funktioniert am besten soll R ein relativ vollständigen Entwurf, der T. fehlt Seit Sequenzen nach Subtraktion werden durch quantitative Polymerase Chain Reaction (qPCR) getestet muss R nicht vollständig für die Methode funktioniert. Hier verbinden wir rechnergestützte Schritte mit experimentellen Schritte in einem Zyklus, der iteriert werden kann, je nach Bedarf, nacheinander entfernen mehrere Referenz-Sequenzen und verfeinern die Suche nach T. Der Vorteil der subtraktiven Genomik ist eine völlig neuartiges Zielsequenz selbst in Fällen identifiziert werden kann, in denen körperliche Reinigung schwierig, teuer oder unmöglich ist. Ein Nachteil der Methode ist eine geeignete Referenz für die Subtraktion Suche und Erlangung eines T-Positive und negative Proben zu Testzwecken qPCR. Wir beschreiben unsere Implementierung der Methode zur Identifizierung des ersten Gens aus der Keimbahn eingeschränkt Chromosom von Zebrafinken. In diesem Fall drei Verweise (R), nacheinander entfernt über drei Zyklen beteiligt rechnerische Filterung: eine unvollständige genomische Montage, genomische Rohdaten und transkriptomischen Daten.
Der Zweck dieser Methode ist, eine neuartige Ziel (T) genomischen Sequenz, entweder DNA oder RNA, aus einer genomischen Kontext oder Referenz (R) (Abbildung 1) zu identifizieren. Die Methode ist besonders hilfreich, wenn das Ziel nicht physisch getrennt werden, oder es teuer wäre, dies zu tun. Nur wenige Organismen haben Genome für die Subtraktion, perfekt beendet, so dass eine entscheidende Neuerung unserer Methode ist die Kombination aus Rechenleistung und Bank-Methoden in einem Zyklus Forscher um Zielsequenzen zu isolieren, wenn der Verweis nicht perfekt ist, oder ein Entwurf Genom von einem Modellorganismus. Am Ende eines Zyklus wird qPCR Tests verwendet, um festzustellen, ob weitere Subtraktion benötigt wird. Eine validierte Kandidat T-Sequenz zeigt statistisch höhere Erkennung in bekannten T-positiven Proben von qPCR.
Inkarnationen des Verfahrens wurden in Entdeckung neuer bakterielle Drug Targets, die keinen Host homologe1,2,3,4 und Identifikation von neuartigen Viren von infizierten Rechnern umgesetzt 5,6. Zusätzlich zur Identifikation von T kann die Methode verbessern R: wir vor kurzem die Methode verwendet, um 936 fehlenden Gene aus dem Zebrafinken Bezug Genom und aus eine Keimbahn-nur Chromosom (T)7ein neues Gen zu identifizieren. Subtraktive Genomics ist besonders wertvoll, wenn T extrem abweichend von bekannten Sequenzen sein dürfte, oder wenn die Identität des T ist im großen und ganzen nicht definiert, wie in der Zebrafinken Keimbahn eingeschränkt Chromosom7.
Durch die Forderung nicht positive Identifizierung T im Voraus, ist ein entscheidender Vorteil der subtraktiven Genomik, dass es Objektive. In einer aktuellen Studie untersuchten Readhead Et Al. die Beziehung zwischen Alzheimer und virale Fülle in vier Regionen des Gehirns. Für virale Identifizierung erstellt Readhead Et Al. eine Datenbank von 515 Viren8, stark einschränken die virale Agents, die ihre Studie identifizieren konnten. Subtraktive Genomics hätte genutzt werden können, die gesunden und Alzheimer Genome zu vergleichen um mögliche neuartige Viren, verbunden mit der Krankheit, unabhängig von ihrer Ähnlichkeit mit bekannten Infektionserreger zu isolieren. Zwar gibt es 263 Menschen gezielt Viren bekannte, wurde es geschätzt, dass etwa 1,67 Millionen unentdeckte viral Arten existieren, mit 631.000-827.000 von ihnen haben ein Potenzial, Menschen9zu infizieren.
Isolation von neuartigen Viren ist ein Bereich, in dem subtraktiven Genomics ist besonders effektiv, aber einige Studien können keine strenge Methode benötigen. Studien zur Identifizierung neuartige Viren unvoreingenommene Hochdurchsatz-Sequenzierung gefolgt von reverse Transkription und sequenziert für virale Sequenzen5 oder Anreicherung von viralen Nukleinsäuren verwendet haben, zu extrahieren und umkehren transkribieren beispielsweise virale Sequenzen 6. während dieser Studien de Novo Sequenzierung und Montage beschäftigt, Subtraktion wurde nicht verwendet, weil die Zielsequenzen Blast positiv identifiziert wurden. Wenn die Viren wurden völlig neuartige und nicht in Zusammenhang stehen (oder weitläufig verwandten) zu anderen Viren subtraktiven Genomics gewesen wäre eine nützliche Technik. Der Vorteil der subtraktiven Genomik ist Sequenzen, die völlig neu sind können gewonnen werden. Wenn der Organismus Genom bekannt ist, kann es keine viralen Sequenzen verlassen, abgezogen werden. Zum Beispiel in unseren veröffentlichten Studie isoliert wir eine neuartige virale Sequenz von Zebrafinken durch subtraktive Genomics, aber es nicht unsere ursprüngliche Absicht7 war.
Subtraktive Genomics hat auch bei der Identifizierung von bakterieller Impfstoff Ziele, motiviert durch den dramatischen Anstieg der Resistenz gegen Antibiotika1,2,3,4bewährt. Zur Minimierung des Risikos der Autoimmunreaktion eingegrenzt Forscher die potentiellen Impfstoff Ziele durch Subtraktion alle Proteine, die homologe im menschlichen Wirt haben. Eine besondere Untersuchung, Corynebacterium Pseudotuberculosis, betrachten durchgeführt Subtraktion von Wirbeltieren Host Genomen von mehreren bakteriellen Genome um sicherzustellen, dass mögliche Drogeziele Proteine in der Hosts führt zu Nebenwirkungen nicht beeinträchtigen würde 1. grundlegende Arbeitsabläufe dieser Studien ist zum download des bakterielle Proteoms, lebenswichtige Proteine bestimmen, redundante Proteine zu entfernen, verwenden BLASTp, die wesentlichen Proteine zu isolieren und BLASTp gegen Gastgeber Proteom, um Proteine mit Host homologe zu entfernen 1 , 2 , 3 , 4. In diesem Fall subtraktiven Genomics sicherzustellen, dass die Impfstoffe entwickelt keiner Ziel-Host1,2,3,4auswirken werden.
Wir subtraktiven Genomics, das erste Protein-kodierenden gen auf Chromosom Keimbahn eingeschränkt (GRC) (in diesem Fall, T), zu identifizieren, die in Germlines gefunden wird aber keine somatischen Gewebe beider Geschlechter10. Vor dieser Studie war die nur genomische Informationen, die über das DRK bekannt war eine sich wiederholende Region11. De Novo Assemblierung wurde RNA aus dem Eierstock und Teste Gewebe (R + T) von Erwachsenen Zebrafinken sequenziert aufgeführt. Die rechnerische Beseitigung von Sequenzen erfolgte mittels veröffentlichten somatische (Muskel) Genom-Sequenz (R1)12, seine rohe (Sanger) zu lesen, Daten (R2) und eine somatische (Gehirn) Transkriptom (R3)13. Die sequentielle Verwendung von drei Referenzen wurde durch die qPCR Tests bei Schritt 5 eines jeden Zyklus (Abb. 2A), zeigen, dass zusätzliche Filterung erforderlich war getrieben. Das entdeckte α-SNAP-gen wurde durch qPCR von DNA und RNA, und Klonierung und Sequenzierung bestätigt. Wir zeigen in unserem Beispiel, dass diese Methode flexibel ist: Es ist nicht abhängig von passenden Nukleinsäuren (DNA Vs RNA) und die Subtraktion mit Referenzen (R), die aus Baugruppen oder roh liest bestehen durchgeführt werden kann.
Während subtraktiven Genomics mächtig ist, ist es kein Cookie-Cutter-Ansatz, Anpassung an mehreren wichtigen Schritte und sorgfältige Auswahl von Referenz-Sequenzen und Proben. Wenn die Abfrageassembly von schlechter Qualität ist, könnte Filterung Schritte nur Montage Artefakte isolieren. Daher ist es wichtig, die de Novo Assemblierung über eine entsprechende Validierung-Protokoll für das jeweilige Projekt gründlich zu überprüfen. RNA-Seq sind Leitlinien vorgesehen auf der Trinity Website<sup class="xr…
The authors have nothing to disclose.
Die Autoren erkennen Michelle Biederman, Alyssa Pedersen und Colin J. Saldanha für ihre Hilfe mit dem Zebrafinken Genomics Projekt in verschiedenen Stadien. Wir anerkennen auch Evgeny Bisk für computing-Cluster-System-Administration und NIH Grant 1K22CA184297 (zu J.R.B.) und NIH-NS-042767 (zu C.J.S).
Accustart II Taq DNA Polymerase | Quanta Bio | 95141 | |
Blasic Local Alignment Search Tool (BLAST) | https://github.com/trinityrnaseq/trinityrnaseq/wiki/Transcriptome-Assembly-Quality-Assessment | ||
Bowtie 2 | https://www.python.org/download/releases/2.7/ | ||
BWA-MEM v. 0.7.12 | https://github.com/BenLangmead/bowtie2 | ||
Geneious | https://blast.ncbi.nlm.nih.gov/Blast.cgi | ||
PEAR v. 0.9.6 | http://www.mybiosoftware.com/reptile-1-1-short-read-error-correction.html | ||
Personal Computer | Biomatters | http://www.geneious.com/ | |
PowerSYBR qPCR mix | ThermoFisher | 4367659 | |
Python v. 2.7 | https://sco.h-its.org/exelixis/web/software/pear/ | ||
Reptile v.1.1 | https://alurulab.cc.gatech.edu/reptile | ||
Stratagene Mx3005P | Agilent Technologies | 401456 | |
TransDecoder v. 3.0.1 | https://sourceforge.net/projects/bio-bwa/files/ | ||
Trinity v. 2.4.0 | https://github.com/TransDecoder/TransDecoder/wiki |