Galaxy und DAVID haben als beliebte Werkzeuge entstanden, die Ermittler ohne Bioinformatik Ausbildung ermöglichen RNA-Seq Daten zu analysieren und zu interpretieren. Wir beschreiben ein Protokoll für C. elegans Forscher RNA-Seq Versuche, den Zugang und verarbeiten die Daten – Set mit Galaxy und erhalten aussagekräftige biologische Informationen aus den Gen – Listen mit DAVID auszuführen.
Next Generation Sequencing (NGS) Technologien haben die Art der biologischen Untersuchung revolutioniert. Von diesen hat RNA Sequencing (RNA-Seq) als ein leistungsfähiges Werkzeug für die Gen-Expressionsanalyse und Kartierung Transkriptom entstanden. Allerdings erfordert ausgefeilte Rechenkompetenz RNA-Seq Datensätze Handhabung und inhärente Herausforderungen für Biologie Forscher darstellt. Dieser Engpass wurde von dem Open-Access-Galaxy-Projekt gemildert, die RNA-Seq Daten zu analysieren, und die Datenbank für die Annotation, Visualisierung und integrierte Entdeckung (DAVID), ein Gen Ontology (GO) Zeitanalyse-Suite Benutzer ohne Bioinformatik Fähigkeiten ermöglicht, das hilft biologische Bedeutung von großen Datenmengen abzuleiten. Doch für Erstanwender und Bioinformatik Amateure, selbstlernend und Einarbeitung in diesen Plattformen können zeitaufwendig und entmutigend sein. Wir beschreiben einen einfachen Workflow, den C. elegans Forscher RNA zu isolieren Wurm helfen, führen ein RNA-Seq – Experimentund analysiert die Daten mit Galaxy und DAVID-Plattformen. Dieses Protokoll stellt schrittweise Anweisungen für die Verwendung der verschiedenen Galaxy Modulen für den Zugriff auf rohe NGS Daten, Qualitätskontrollen, Ausrichtung und Differentialgenexpressionsanalyse, Führen des Benutzers mit Parametern bei jedem Schritt ein Gen-Liste zu generieren, die für die Anreicherung gescreent werden können von Genklassen oder biologische Prozesse unter Verwendung von DAVID. Insgesamt erwarten wir , dass diese Artikel Informationen zur Verfügung stellen werden , um C. elegans Forscher RNA-Seq Experimente zum ersten Mal sowie häufige Benutzer eine kleine Anzahl von Proben Unternehmen ausgeführt wird .
Die erste Sequenzierung des menschlichen Genoms führte Fred Sanger-Didesoxynucleotid-Sequenzierungsverfahren verwendet wird , dauerte 10 Jahre und kostete schätzungsweise US $ 1 3000000000, 2. Doch in etwas mehr als ein Jahrzehnt seit seiner Gründung, Next-Generation Sequencing (NGS) Technologie hat es ermöglicht, das gesamte menschliche Genom innerhalb von zwei Wochen sequenzieren und für US $ 1.000. Neue NGS Instrumente, die ständig steigenden Geschwindigkeiten von Sequenzierungs-Datenerfassung mit unglaublicher Effizienz, zusammen mit starken Kostensenkungen ermöglichen, revolutionieren die moderne Biologie in unvorstellbarer Weise wie Genomsequenzierungsprojekte alltäglich schnell geworden sind. in vielen anderen Bereichen, wie zum Beispiel Gen-Expressionsanalyse durch RNA-Sequenzierung (RNA-Seq), Studium der genomweiten epigenetische Modifikationen, DNA-Protein-Wechselwirkungen, und Screening auf mikrobielle Diversität in menschlichen Wirten Zusätzlich haben diese Entwicklungen Fortschritt galvanisiert. NGS-basierte RNA-Sieq insbesondere hat es möglich gemacht zu identifizieren und Karte Transkriptomen umfassend mit Genauigkeit und Empfindlichkeit und hat Microarray-Technologie als Methode der Wahl für die Expressionsprofile ersetzt. Während der Microarray-Technologie extensiv verwendet wurde, wird es durch seine Abhängigkeit von vorbestehenden Arrays mit bekannten genomischen Informationen und anderen Nachteilen, wie eine Kreuzhybridisierung und eingeschränkten Bereich von Expressionsänderungen begrenzt, die zuverlässig gemessen werden können. RNA-Seq, auf der anderen Seite, kann sowohl bekannte als auch unbekannte Transkripte zu erfassen, verwendet werden, während niedriges Hintergrundrauschen zu seiner eindeutigen DNA-Mapping Natur aufgrund erzeugen. RNA-Seq, zusammen mit den zahlreichen genetischen Werkzeuge von Modellorganismen wie Hefe angeboten, Fliegen, Würmer, Fische und Mäuse, hat für viele wichtige neue biomedizinische Entdeckungen als Grundlage diente. Allerdings erhebliche Herausforderungen bleiben, die NGS unzugänglich für die breitere wissenschaftliche Gemeinschaft, einschließlich Beschränkungen der Speicherung, Verarbeitung und vor allem, m eaningful bioinformatische Analyse großer Mengen von Sequenzierungsdaten.
Die schnellen Fortschritte in der Sequenzierungstechnologien und exponentielle Datenakkumulation haben einen großen Bedarf an Rechenplattformen geschaffen, die Forscher ermöglicht den Zugriff auf, analysieren und diese Informationen zu verstehen. Frühe Systeme waren stark abhängig von Computer-Programmierkenntnisse, während Genom-Browser wie NCBI, die Nicht-Programmierer erlaubt den Zugriff und Visualisierung von Daten nicht anspruchsvolle Analysen ermöglichen. Die webbasierte Open-Access – Plattform, Galaxy ( https://galaxyproject.org/ ), hat diese Lücke gefüllt und sich als eine wertvolle Pipeline sein , die Forscher ermöglicht NGS – Daten zu verarbeiten und ein Spektrum von einfach zu komplex durchführen Bioinformatik analysiert. Galaxy wurde ursprünglich gegründet, und aufrecht erhalten wird, von den Labors von Anton Nekrutenko (Penn State University) und James Taylor (Johns Hopkins University)f "> 3. Das Galaxy bietet eine breite Palette von Rechenaufgaben es sich um eine‚one-stop – shop‘für unzählige Bioinformatik Bedürfnisse zu machen, einschließlich aller Schritte , die bei einer RNA-Seq – Studie. Itallows Benutzer Datenverarbeitung auszuführen entweder auf ihren Servern oder lokal auf ihre eigenen Maschinen. Daten und Workflows können wiedergegeben und gemeinsam genutzt werden. Online – Tutorials, Hilfebereich und eine Wiki-Seite ( https://wiki.galaxyproject.org/Support ) an das Galaxy – Projekt konsequent unterstützt gewidmet ist . Allerdings für Erstanwender, vor allem diejenigen, die keine Bioinformatik Ausbildung kann die Pipeline entmutigend erscheinen und der Prozess der Selbstlern und Einarbeitung kann Darüber hinaus untersucht das biologische System, und die Besonderheiten des Experiments und Methoden verwendet, Schlagzeitaufwendig. sein die analytischen Entscheidungen in mehreren Schritten, und diese können schwierig sein, ohne Anleitung zu navigieren.
Die Gesamt RN A-Seq Galaxy Arbeitsablauf besteht aus Daten – Upload und Qualitätskontrolle durch Analyse folgte die Tuxedo Suite 4, 5, 6, 7, 8, 9, mit dem ein Kollektiv von verschiedenen Werkzeugen für verschiedene Stufen von 10 RNA-Seq Datenanalyse erforderlich ist , 11, 12, 13, 14. Ein typisches RNA-Seq Experiment besteht aus dem experimentellen Teil (Probenvorbereitung, mRNA-Isolierung und cDNA-Bibliothek Vorbereitung), die NGS und die Bioinformatics Datenanalyse. Eine Übersicht über diese Abschnitte, und die in der Pipeline Galaxy beteiligten Schritte sind in Abbildung 1 dargestellt.
3fig1.jpg“/>
Abbildung 1: Übersicht über einen RNA-Seq – Workflow. Darstellung der Versuchs- und Berechnungsschritte in einem RNA-Seq Experiment involvierten die Gen-Expressionsprofile von zwei Schnecken Stämmen zu vergleichen (A und B, orange und grüne Linien und Pfeile bezeichnet). Die verschiedenen Module von Galaxy verwendet werden in Kisten mit dem entsprechenden Schritt in unserem Protokoll in rot angezeigt gezeigt. Die Ausgänge der verschiedenen Operationen sind in grau mit den Dateiformaten in blau angezeigt geschrieben. Bitte klicken Sie hier , um eine größere Version dieser Figur zu sehen.
Das erste Werkzeug in der Tuxedo – Suite ist ein Ausrichtungsprogramm ‚Tophat‘ genannt. Es bricht die NGS Eingabe liest in kleinere Fragmente nach unten und dann ordnet sie einen Referenzgenom. Dieses zweistufige Verfahren gewährleistet, dass liest intronischen Regionen überspannen, deren Ausrichtung kann anders sein, disrupted oder verpassten werden berücksichtigt und abgebildet. Dies erhöht die Reichweite und erleichtert die Identifizierung von neuen Spleißstellen. Tophat Ausgang als zwei Dateien, eine BETT – Datei (mit Informationen über Spleißstellen , die genomische Lage sind) berichtet und eine BAM – Datei (mit Mapping Details jeder lesen). Als nächstes wird die BAM – Datei gegen einen Referenzgenom ausgerichtet das nachfolgende Werkzeug in der Tuxedo – Suite die Fülle der einzelnen Transkripte innerhalb jeder Probe zu schätzen ‚Manschettenknöpfe‘ genannt werden. Manschettenknöpfe Funktionen durch die Ausrichtung Abtastung in voller Länge Transkript Fragmente oder ‚transfrags‘ zu berichten , die für jedes Gen , alle möglichen Spleißvarianten in den Eingangsdaten überspannt. Auf dieser Grundlage erzeugt er einen ‚Transkriptom‘ (Montag aller Transkripte erzeugen pro Gen für jedes Gen) für jede Probe sequenziert werden. Diese Manschettenknöpfe Anordnungen werden dann kollabiert oder zusammengeführt werden zusammen mit dem Wiederferenz Genom eine einzige Anmerkungsdatei für nachgeschaltete Differentialanalyse mit dem nächsten Werkzeug ‚Cuffmerge‘ zu erzeugen. Schließlich wird der Ausdruck ‚Cuffdiff‘ Werkzeug Maßnahmen Differential Gene zwischen den Proben durch die TopHat Ausgänge von jedem der Proben auf die endgültige Cuffmerge Ausgabedatei zu vergleichen (Abbildung 1). Manschettenknöpfe verwendet FPKM / RPKM (Fragmente / Reads pro Kilobasen von Transkript pro Million abgebildet liest) Werte Transkript Abundanzen zu melden. Diese Werte spiegeln die Normalisierung der Ausgangs NGS Daten für die Tiefe (durchschnittliche Anzahl der von einer Probe liest, die mit dem Bezugsgenom auszurichten) und Gen-Länge (Gene haben unterschiedliche Längen, so Zählungen haben für Länge eines Gens zu normalisierenden Ebenen zu vergleichen, zwischen Genen). FPKM RPKM und ist im Wesentlichen gleich mit RPKM für Single-End-RNA-Seq verwendet wird, wo jedes Lese zu einem einzelnen Fragmente entspricht, während, wird verwendet für FPKMPaired-End-RNA-Seq, da sie die Tatsache berücksichtigt, daß zwei Lesevorgänge auf das gleiche Fragment entsprechen kann. Letztlich ist das Ergebnis dieser Analyse eine Liste von Genen differentiell zwischen den Bedingungen exprimiert und / oder getesteten Stämme.
Sobald ein erfolgreicher Galaxy Lauf beendet ist und eine ‚Gen-Liste‘ erzeugt wird, erfordert der nächste logische Schritt mehr Bioinformatik analysiert aus den Datensatz sinnvoll Wissen abzuleiten. Viele Software – Pakete sind entstanden auf diesen Bedarf gerecht zu werden, einschließlich der öffentlich zugänglichen Web-basierten Rechenpakete wie DAVID (der Datenbank für Annotation, Visualisierung und integrierten Discovery) 15. DAVID erleichtert, indem die hochgeladen Genliste seiner integrierten biologischen Wissensdatenbank und enthüllt die biologischen Anmerkungen im Zusammenhang mit der Genliste biologische Bedeutung zu großen Genlisten von Hochdurchsatz-Studien zuweisen. Dies wird durch Anreicherung Analyse gefolgt, dh Tests identify wenn jedes biologische Prozess oder Gen-Klasse in der Gen-Liste (n) in einer statistisch signifikanten Weise überrepräsentiert ist. Es ist eine beliebte Wahl, weil aus einer Kombination aus einem breiten, integrierten Wissensbasis und leistungsstarke analytische Algorithmen , die den Forschern ermöglichen , biologische Themen innerhalb der Genomik-derived ‚Genlisten‘ 10, 16 angereichert zu erkennen. Weitere Vorteile sind seine Fähigkeit, Genlisten erstellt auf jeder Sequenzierungsplattform und eine sehr benutzerfreundlichen Oberfläche zu verarbeiten.
Der Nematode Caenorhabditis elegans ist ein genetisches Modellsystem, das für seine viele Vorteile, wie geringe Größe, transparente Körper, einfachen Körperplan, einfache Kultur und große amenability zu genetischer und molekularen Präparation bekannt. Würmer haben eine kleine, einfache und gut kommentierten Genom , die mit bekannten humanen Homologe 17 bis 40% konservierte Gene beinhaltet bis. Tatsächlich C. eleganswar das erste Metazoen , dessen Genom sequenziert wurde 18 vollständig, und einer von der ersten Spezies in dem RNA-Seq verwendet wurde , 20 eines Organismus Transkriptom 19, abzubilden. Frühe Wurm Studien Experimentieren mit verschiedenen Methoden für die Hochdurchsatz – RNA – Capture, Bibliothek Vorbereitung und Sequenzierung sowie Bioinformatik – Pipelines beteiligt, die zur Weiterentwicklung der Technologie 21, 22 beigetragen. In den letzten Jahren hat sich RNA-Seq-basierten Experimenten in Würmern alltäglich geworden. Aber für traditionelle Wurm Biologen die durch Computeranalyse von RNA-Seq Daten Herausforderungen wie vor ein großes Hindernis für eine größere und bessere Ausnutzung der Technik.
In diesem Artikel beschreiben wir ein Protokoll der Galaxy – Plattform für den Einsatz von Hochdurchsatz – RNA-Seq Daten von C. elegans erzeugt zu analysieren. Für viele erstmaligen und Klein scale-Nutzer, die kosteneffiziente und einfache Art und Weise einen RNA-Seq Versuch zu unternehmen ist RNA im Labor zu isolieren und eine kommerzielle (oder in-house) NGS-Anlage zur Herstellung von Sequenzierung von cDNA-Bibliotheken und dem NGS selbst zu nutzen. Daher haben wir zuerst die Schritte in Isolierung, Quantifizierung und Qualitätsbewertung von C. elegans – RNA – Proben für die RNA-Seq beteiligt detailliert beschrieben. Weiter stellen wir die Galaxy-Schnittstelle für Analysen der NGS Daten Schritt-für-Schritt-Anweisungen für die Verwendung mit Tests für die post-Sequenzierungsqualitätskontrollprüfungen gefolgt von Ausrichtung, Montage und differentiellen Quantifizierung der Genexpression beginnen. Darüber hinaus haben wir Richtungen enthalten die Genlisten aus Galaxy für die biologische Anreicherung Studien mit DAVID zu prüfen. Als letzter Schritt im Workflow bieten wir Anweisungen RNA-Seq Daten auf öffentlichen Servern wie die Sequenz Archiv lesen (SRA) auf NCBI für das Hochladen ( http: // www.ncbi.nlm.nih.gov/sra), um es an die wissenschaftliche Gemeinschaft frei zugänglich. Insgesamt erwarten wir, dass dieser Artikel umfassende und ausreichende Informationen, um Wurm Biologen liefern RNA-Seq Experimente zum ersten Mal sowie häufige Benutzer Unternehmen eine kleine Anzahl von Proben ausgeführt wird.
Bedeutung der Galaxy Sequencing-Plattform in der modernen Biologie
Die Galaxy-Projekt hat instrumental werden Biologen ohne Bioinformatik Ausbildung helfen Sequenzierungsdaten mit hohem Durchsatz auf eine schnelle und effiziente Art und Weise zu verarbeiten und zu analysieren. Sobald eine Herkules-Aufgabe betrachtet, diese öffentlich zugängliche Plattform komplexe Bioinformatik-Algorithmen gemacht lief NGS-Daten einen einfachen, zuverlässiger und einfacher Prozess zu analysieren. Neben einer…
The authors have nothing to disclose.
Die Autoren möchten ihren Dank an die Laboratorien, Gruppen und Einzelpersonen zum Ausdruck bringen, die Galaxy und DAVID entwickelt hat und damit gemacht NGS für die wissenschaftliche Gemeinschaft allgemein zugänglich. Die Hilfe und Rat von Kollegen an der University of Pittsburgh während unserer Bioinformatik Ausbildung zur Verfügung gestellt werden anerkannt. in Aging Award (AG-NS-0879-12) und einen Zuschuss von der National Institutes of Health (R01AG051659) zu AG Diese Arbeit wurde von einer Ellison Medical Foundation New Scholar unterstützt.
RNase spray | Fisher Scientific | 21-402-178 |
Trizol | Ambion | 15596026 |
Sonicator | Sonics Vibra Cell | VCX130 |
Centrifuge | Eppendorf | 5415C |
chloroform | Sigma Aldrich | 288306 |
2-propanol | Fisher Scientific | A416P-4 |
Ethanol | Decon Labs | 2705HC |
RNase-free water | Fisher Scientific | BP561-1 |
Bioanalyzer | Agilent | G2940CA |
Mac/PC |