Summary

Nutzung von CyVerse Resources für<em> De Novo</em> Vergleichende Transkriptomik von unversicherten (Nicht-Modell-) Organismen

Published: May 09, 2017
doi:

Summary

This protocol outlines a comparative de novo transcriptome assembly and annotation workflow for novice bioinformaticians. The workflow is available for free entirely through CyVerse and connected by the Data Store. Command line and graphical user interfaces are used, but all code needed is available to copy and paste.

Abstract

Dieser Workflow ermöglicht es Anfängern, fortschrittliche Berechnungsressourcen wie Cloud Computing zu nutzen, um paarweise vergleichende Transkriptomik durchzuführen. Es dient auch als Primer für Biologen, um Datenwissenschaftler Computational Fähigkeiten zu entwickeln, zB Ausführung von bash Befehlen, Visualisierung und Verwaltung von großen Datensätzen. Alle Kommandozeilen-Code und weitere Erklärungen zu jedem Befehl oder Schritt finden Sie im Wiki ( https://wiki.cyverse.org/wiki/x/dgGtAQ ). Die Plattform Discovery Environment und Atmosphere sind über den CyVerse Data Store miteinander verbunden. Als solches, sobald die anfänglichen Rohsequenzierungsdaten hochgeladen worden sind, gibt es keine Notwendigkeit mehr, große Datendateien über eine Internetverbindung zu übertragen, wodurch der Zeitaufwand für die Durchführung von Analysen minimiert wird. Dieses Protokoll soll nur zwei experimentelle Behandlungen oder Bedingungen analysieren. Die differentielle Genexpressionsanalyse wird durchgeführtOugh paarweise Vergleiche, und wird nicht geeignet sein, um mehrere Faktoren zu testen. Dieser Workflow ist auch manuell und nicht automatisiert. Jeder Schritt muss vom Benutzer ausgeführt und untersucht werden, was ein besseres Verständnis von Daten und analytischen Ergebnissen und damit bessere Ergebnisse für den Benutzer ergibt. Sobald es fertig ist, liefert dieses Protokoll de novo zusammengesetzte Transkriptome (s) für unterversorgte (Nicht-Modell-) Organismen, ohne dass es notwendig ist, zuvor zusammengesetzte Referenzgenome (die normalerweise nicht im unterversorgten Organismus verfügbar sind) zuzuordnen. Diese de novo- Transkriptome werden ferner in der paarweise differentiellen Genexpressionsanalyse verwendet, um Gene zu untersuchen, die sich zwischen zwei experimentellen Bedingungen unterscheiden. Differentiell exprimierte Gene werden dann funktionell kommentiert, um zu verstehen, dass die genetischen Response-Organismen experimentelle Bedingungen haben. Insgesamt werden die aus diesem Protokoll abgeleiteten Daten verwendet, um Hypothesen über biologische Reaktionen von unterversorgten Organismen zu testen.

Introduction

Homo sapiens und einige Schlüsselmodell Tierarten wie Drosophila melanogaster , Mus musculus und Danio rerio repräsentieren die Mehrheit der aktuellen und vergangenen funktionellen Genomik Arbeit. Allerdings bieten die schnell abnehmenden Kosten der Hochdurchsatz-Sequenzierungstechnologie Chancen für funktionelle Genomik in Nicht-Modell- ( aka "vernachlässigten" oder "unterversorgten") Tierarten 1 . Dies ist ein wichtiger Übergang in der Genomik als Nicht-Modell-Organismen häufig ökonomisch relevante Arten ( zB Austern, Garnelen, Krabben) und bieten Möglichkeiten, neue Phänotypen und biologische Systeme außerhalb des Rahmens der in Modellarten gefunden zu untersuchen.

Obwohl unterversorgte Organismen eine attraktive Gelegenheit darstellen, einzigartige biologische Systeme zu untersuchen, stehen vor zahlreichen Herausforderungen vor allem bei der bioinformatischen Analyse mehrere Herausforderungen. Einige derDie Herausforderungen sind angeboren, um große Datensätze zu verarbeiten, während andere aus dem Mangel an genetischen Ressourcen resultieren, die Forschern in unterversorgten Organismen wie einem Referenzgenom, organisationsspezifischen Ontologien usw. zur Verfügung stehen . Die Herausforderungen der Nukleinsäureisolation und Sequenzierung sind oft routinemäßig Vergleich mit denen der Datenanalyse, und als solche bioinformatische Analysen erweisen sich im Allgemeinen als die am meisten unterschätzten Kosten der Sequenzprojekte 2 . Beispielsweise könnte eine grundlegende Sequenzierung der bioinformatischen Analyse der nächsten Generation aus den folgenden Schritten bestehen: Qualitätsfilterung und Trimmen von Rohsequenzierungslesungen, Zusammenstellung von kurzen Lesevorgängen in größere zusammenhängende Stücke und Annotation und / oder Vergleiche mit anderen Systemen, um biologisches Verständnis zu gewinnen. Während es scheinbar einfach ist, erfordert dieses Beispiel-Workflow Spezialwissen und rechnerische Ressourcen, die über den Rahmen eines Labor-Bank-Computers hinausgehen und es außerhalb der Reichweite vieler Wissenschaftler, die nicht-Modellorganismen.

Angemessene Herausforderungen können infrastruktur- oder wissensbasiert sein. Eine klassische Infrastruktur-Herausforderung ist der Zugang zu geeigneten Rechenressourcen. Beispielsweise beruht die Montage und Annotation auf rechenintensiven Algorithmen, die leistungsstarke Computer oder Computercluster benötigen, mit einer großen Menge an RAM (256 GB-1 TB) und mehreren Prozessoren / Kerne zum Ausführen. Leider haben viele Forscher keinen Zugang zu solchen Rechenressourcen oder haben nicht das nötige Wissen, um mit diesen Systemen zu interagieren. Andere Forscher haben möglicherweise Zugang zu Hochleistungs-Computing-Clustern durch ihre Universitäten oder Institutionen, aber der Zugriff auf diese Ressourcen könnte begrenzt sein und manchmal führt zu Gebühren pro Rechenstunde, dh die Anzahl der CPU-Prozessoren multipliziert mit der Anzahl der Echtzeit-Uhr Stunden ", dass diese Prozessoren laufen. Nutzung eines Cyberinfrastruktursystems, das von der US National Science Foundation gefördert wirdSo wie CyVerse 3 , der freien Zugang zu Berechnungsressourcen für Forscher, in den USA und auf der ganzen Welt bietet, dazu beitragen kann, die Herausforderungen der Infrastruktur zu lindern, wie dies hier gezeigt wird.

Ein Beispiel für eine typische wissensbasierte Herausforderung ist das Verständnis der Software, die für vollständige Analysen benötigt wird. Um ein Sequenzierungsprojekt effektiv durchzuführen, müssen die Forscher mit den unzähligen Software-Tools vertraut sein, die für bioinformatische Analysen entwickelt wurden. Das Lernen jedes Pakets ist in seinem eigenen Recht schwierig, wird aber durch die Tatsache verschärft, dass Pakete ständig erweitert, wiederhergestellt, in neue Workflows zusammengestellt und manchmal für den Einsatz unter neuen Lizenzen eingeschränkt werden. Darüber hinaus erfordert die Verknüpfung der Eingänge und Ausgänge dieser Werkzeuge manchmal die Umwandlung von Datentypen, um sie kompatibel zu machen und ein weiteres Werkzeug zum Workflow hinzuzufügen. Schließlich ist es auch schwer zu wissen, welches Softwarepaket 'th istE am besten für eine Analyse, und häufig die Identifizierung der besten Software für bestimmte experimentelle Bedingungen ist eine Frage der subtilen Unterschiede. In einigen Fällen sind nützliche Rezensionen von Software verfügbar, aber aufgrund der fortlaufenden Freigabe von neuen Updates und Software-Optionen, diese schnell veraltet.

Für Forscher, die unterversorgte Organismen untersuchen, kommen diese angeborenen Herausforderungen zusätzlich zu den Herausforderungen, die mit der Analyse von Daten in einem neuartigen Organismus verbunden sind. Diese unterversorgten organismus-spezifischen Herausforderungen werden am besten bei der Gen-Annotation veranschaulicht. Zum Beispiel haben unterversorgte Organismen häufig keinen eng verwandten Modellorganismus, der vernünftigerweise zur Identifizierung von Genorthologie und -funktion ( zB marine Wirbellose und Drosophila ) verwendet werden kann. Viele bioinformuläre Werkzeuge erfordern auch "Training", um strukturelle Motive zu identifizieren, mit denen die Genfunktion identifiziert werden kann. Allerdings sind Trainingsdaten in der Regel nur für mod verfügbarEl-Organismen und Training versteckte Markov-Modelle (HMMs) außerhalb des Zuständigkeitsbereichs der Biologen und sogar vieler Bioinformatiker. Schließlich, auch wenn Annotationen unter Verwendung von Daten von Modellorganismen durchgeführt werden können, sind einige Gen-Ontologien, die mit Modellorganismen assoziiert sind, nicht sinnvoll, wenn die Biologie und die Naturgeschichte des unterversorgten Organismus betrachtet werden ( z . B. die Übertragung von Informationen von Drosophila zu Garnelen).

Angesichts dieser Herausforderungen müssen bioinformuläre Ressourcen mit Forschern entwickelt werden, die de novo- Analysen zu unterversorgten Organismen führen. Die nächsten Jahre der funktionalen Genomik-Sequenzprojekte werden dazu beitragen, die Kluft zwischen Modell und unterversorgten Organismen zu schließen ( https://genome10k.soe.ucsc.edu/ ), aber es gibt viele Werkzeuge, die entwickelt werden müssen, um die Herausforderungen zu bewältigen Oben betrachtet. CyVerse widmet sich der Schaffung von Ökosystemen von iNteroperabilität durch Verknüpfung bestehender Cyberinfrastruktur und Drittanbieteranwendungen zur Bereitstellung von Datenmanagement, bioinformulären Analysewerkzeugen und Datenvisualisierungen für Life Sciences. Die Interoperabilität hilft, die Übergänge zwischen bioinformatischen Anwendungen und Plattformen zu glätten, indem sie skalierbare Rechenressourcen bereitstellt und die Dateiformatkonvertierungen und die Datenmenge zwischen den Plattformen begrenzt. CyVerse bietet mehrere Plattformen an, darunter die Discovery Environment (DE 4 , Atmosphere 5 und der Data Store 3. Die DE ist webbasiert und hat viele gängige Bioinformatik-Analysewerkzeuge, die in benutzerfreundliche Point-and-Click-Formate (sogenannte "apps" ") Und ist die grafische Benutzeroberfläche (GUI) für den Data Store, in der große Datensätze ( dh rohe Sequenzierungslesungen, zusammengesetzte Genome) gespeichert und verwaltet werden. Atmosphere ist ein Cloud-Computing-Service, der Forschern mehr Flexibilität bietetMit Virtual Machine Rechenressourcen, die eine breite Palette von Bioinformatik-Tools vorinstalliert haben. Beide Plattformen sind mit dem Data Store verknüpft und können zusammen verwendet werden, um Workflows wie die hier beschriebenen zu erstellen. Dieser Bericht konzentriert sich auf eine de novo Transkriptom-Assembly und Differential-Gen-Expression Analyse Workflows, und weitere Adressen einige Best Practices mit der Entwicklung und Durchführung von bioinformatischen Analysen verbunden. Eine Erklärung der breiteren Mission von CyVerse ( http://www.cyverse.org/about ) und detaillierte Plattformbeschreibungen ( http://www.cyverse.org/learning-center ) sind öffentlich zugänglich. Alle hier beschriebenen Analysen verwenden die Discovery Environment 4 (DE) und Atmosphere 5 und werden so präsentiert, dass sie den Forschern aller Rechenebenen zugänglich sind. DE Arbeitsabläufe und AtmosphEre Bilder können direkt über URLs referenziert werden, um langfristige Provenienz, Wiederverwendbarkeit und Reproduzierbarkeit zu gewährleisten.

Protocol

HINWEIS: Das Gesamtprotokoll wurde nach Ordnern numeriert, die in Schritt 1.2 erstellt und benannt werden (Abbildung 1 und 2 ). Dieses Protokoll stellt eine Standard-Vergleichs- de novo- Transkriptom-Analyse dar, und jeder hier beschriebene Schritt kann für alle Forscher nicht notwendig sein. Dieser Workflow wird gründlich auf einem Begleit-Tutorial-Wiki dokumentiert, das auch alle weiteren Dateien und Links zu interessanten Dokumenten für jeden Analysepaket enthält ( Tabelle 1 ). Links zu diesem Material werden in diesem Protokoll für den einfachen Zugriff auf diese Informationen enthalten sein. Best Practices sind Notizen, die den Nutzern als Anregungen für den besten Weg zur Erfüllung von Aufgaben oder für Benutzer zur Verfügung gestellt werden, und werden durch Notizen im Protokoll mitgeteilt. Ein Ordner von Beispiel Dateneingabe und analytische Ausgabe ist öffentlich zugänglich für Benutzer, und ist organisiert wie im Protokoll vorgeschlagen ( de novo </Em> Transkription Montage und Analyse. 1. Richten Sie das Projekt ein, laden Sie Raw Sequencing Reads und Assess Reads mit FastQC Holen Sie sich Zugang zu Atmosphere und der Discovery Environment. Fordern Sie ein kostenloses CyVerse-Konto an, indem Sie zur Registrierungsseite ( zB person@institution.edu) navigieren. Füllen Sie die erforderlichen Informationen aus und unterbreiten Sie. Navigieren Sie zur Hauptseite (http://www.cyverse.org/) und wählen Sie "Anmelden" an der oberen Symbolleiste. Wählen Sie "Cyverse Login" und melden Sie sich mit Ihren CyVerse Anmeldeinformationen an. Navigieren Sie zum Tab "Apps & Services" und fordern Sie den Zugriff auf Atmosphere an. Der Zugriff auf die Discovery-Umgebung wird automatisch gewährt. Richten Sie das Projekt ein und verschieben Sie Daten in den Datenspeicher. Melden Sie sich in der Discovery-Umgebung an (https://de.iplantcollaborative.org/de). Wählen Sie die Registerkarte "Daten", um ein Menü mit allen Ordnern im Datenspeicher aufzurufen. </Li> Erstellen Sie einen Hauptprojektordner, der alle mit dem Projekt verknüpften Daten beherbergt. Suchen Sie die Symbolleiste am oberen Rand des Datenfensters und wählen Sie Datei | Neuer Ordner. Verwenden Sie keine Leerzeichen oder Sonderzeichen in den Ordnernamen oder beliebigen Input / Output-Dateinamen, zB "! @ # () [] {}:; $% ^ & *." Verwenden Sie stattdessen Unterstriche oder Bindestriche, dh "_" oder "-". Erstellen Sie fünf Ordner innerhalb des Hauptprojektordners, um Analysen zu organisieren (Abbildung 1 ) Benennen Sie die Ordner wie folgt ohne Kommas oder Anführungszeichen: "1_Raw_Sequence", "2_High_Quality_Sequence", "3_Assembly", "4_Differential_Expression", "5_Annotated_Assembly". Unterordner werden in jeden dieser Hauptprojektordner platziert (Abbildung 2 ). Zahl1: Ein allgemeiner Überblick über die Projektordnerorganisation und den De Novo Transcriptome Assembly and Analysis Workflow. Benutzer werden die rohe Sequenzierung in den Hauptprojektordner im Data Store hochladen und dann die Ergebnisse von jedem Schritt in separate Ordner platzieren. Bitte klicken Sie hier, um eine größere Version dieser Figur zu sehen. Abbildung 2: Eine detaillierte Übersicht über den De Novo Transcriptome Assembly- und Analysen-Workflow, der innerhalb der CyVerse Cyberinfrastruktur auftritt. Der gesamte Montage- und Analyse-Workflow wird in fünf Schritten abgeschlossen, die jeweils einen eigenen Ordner erhalten (fettgedruckte, nummerierte Ordner-Icons). Jeder der fünf nummerierten Workflow-Schrittordner enthält Unterordner, die Ausgabedaten aus bioinformatischen Analysen enthalten (OrdnerIcons). Eingaben für die Analyse kommen aus einem Unterordner und bewegen sich dann durch die Ausgabe eines Analyseprogramms (Rechteckboxen) in einen anderen Ordner. Die endgültigen Daten aus den ersten drei Schritten werden verglichen und zur Veröffentlichung vorbereitet. Letztlich gibt dieses Schema einen Hauptprojektordner, der eine schrittweise Analyse für Mitarbeiter und / oder Manuskript-Rezensenten hat, kann schnell den Workflow verstehen und ihn bei jeder Datei wiederholen, wenn nötig. Bitte klicken Sie hier, um eine größere Version dieser Figur zu sehen. Laden Sie rohe FASTQ-Sequenzdateien in den Ordner "1_Raw_Sequence" in einen Unterordner mit dem Titel "A_Raw_Reads" mit einer der folgenden drei Methoden. Verwenden Sie die einfache Upload-Funktion des Data Store, um zur Symbolleiste Datenfenster zu navigieren, indem Sie auf die Schaltfläche "Daten" im Haupt-DE-Desktop klicken und "Upload" auswählen Einfacher Upload vom Desktop. Wählen Sie die Schaltfläche DurchsuchenUm zu den rohen FASTQ-Sequenzdateien auf dem lokalen Computer zu navigieren. Diese Methode eignet sich nur für Dateien unter 2 GB. Wählen Sie die Schaltfläche Hochladen am unteren Rand des Bildschirms, um den Upload zu übermitteln. Eine Benachrichtigung wird sich rechts oben in der DE in der Glockensymbol registrieren, dass der Upload eingereicht wurde. Eine weitere Benachrichtigung wird registriert, wenn der Upload abgeschlossen ist. Alternativ verwenden Sie Cyberduck, um größere Dateien zu übertragen (https://wiki.cyverse.org/wiki/x/pYcVAQ). Installiere Cyberduck und laufe dann als Programm auf dem Desktop des lokalen Computers. Laden Sie ab sofort iCommands herunter und installieren Sie den lokalen Computer nach Anleitung (https://wiki.cyverse.org/wiki/display/DS/Using+iCommands). Assess hochgeladene, rohe Sequenzierung liest mit der FastQC App in der DE. Wählen Sie im Haupt-DE-Desktop die Schaltfläche "Apps", um ein Fenster zu öffnen, das alle in der DE verfügbaren Analyse-Apps enthält. Suchen und öffnen Sie den SiegDow für das FastQC-Tool in der Such-Symbolleiste am oberen Rand des Fensters. Öffnen Sie die Multi-Datei-Version, wenn es mehr als eine FASTQ-Datei gibt. Wählen Sie Datei | Neuer Ordner, um einen Ordner mit dem Namen "B_FastQC_Raw_Reads" zu erstellen und diesen Ordner als Ausgabeordner auszuwählen. Laden Sie die FASTQ-Dateien in das Werkzeugfenster "Select data data" und wählen Sie "Launch Analysis". Öffnen Sie die .html- oder .pdf-Datei, um die Ergebnisse anzuzeigen, sobald die Analyse abgeschlossen ist. FastQC führt mehrere Analysen durch, die verschiedene Aspekte der gelesenen Dateien testen (Abbildung 3 ). 2. Trimm- und Qualitätsfilter-Raw-Liest, um eine hohe Qualitätssequenz zu erzielen Hinweis: Verwenden Sie entweder die Trimmomatic App oder die Sichel App. Suchen Sie nach der programmierbaren Trimmomatic App in der DE und öffnen Sie sie wie bisher. Laden Sie den Ordner der rohen FASTQ-Dateien in den Abschnitt "Einstellungen". Wählen Sie aus, ob die SeQuencing-Dateien sind single- oder paired-end. Verwenden Sie die Standard-Steuerdatei, die durch Auswahl der Schaltfläche Durchsuchen und Einfügen / iplant / home / shared / Trinity_transdecoder_trinotate_databases in das Feld "Anzeigen:" verwendet wird. Wählen Sie die Datei Trimmomaticv0.33_control_file aus und starten Sie die Analyse. Die Datei kann heruntergeladen, die Einstellungen bearbeitet und dann in den zweiten Projektordner hochgeladen werden, um ein benutzerdefiniertes Trimm-Skript zu erstellen. Optional: Wenn die FastQC-Analyse die Adaptersequenzen identifiziert hat, verwenden Sie die ILLUMINACLIP-Einstellung, um die Illumina-Adapter zu schneiden. Wählen Sie die entsprechende Adapterdatei im Ordner / iplant / home / shared / Trinity_transdecoder_trinotate_databases wie oben. Die Qualität der Trimmsequenz liest mit Sichel. Suchen und öffnen Sie die Sichel-App in der DE. Wählen Sie die getrimmten FASTQ-Lesevorgänge als Eingabe liest und benennen Sie die Ausgabedateien um. Fügen Sie Qualitätseinstellungen in die Optionen ein. Typische Einstellungen sind Qualitätsformat: illumina, sanger, solexa; Qualität tHreshold: 20; Mindestlänge: 50. Verschieben Sie alle Ausgabe in den getrimmten und gefilterten Ordner (2_High_Quality_Sequence). Beurteilen Sie die letzten Lesungen mit FastQC und vergleichen Sie mit früheren FastQC Berichten. Wählen Sie die .html-Datei aus, um eine Webseite aller Ergebnisse aufzurufen. Wählen Sie den Ordner der Bilddateien (.png) aus, die in der Ausgabe bereitgestellt werden, wenn dieser nicht angezeigt werden kann. 3. De Novo Transcriptome Assembly mit Trinity in der Atmosphäre Öffnen Sie die aktuellste Version der Atmosphere-Instanz, indem Sie zur Wiki-Seite (https://wiki.cyverse.org/wiki/x/dgGtAQ) navigieren. Wählen Sie den Link für die aktuellste Version des Trinity- und Trinotate-Bildes aus. Alternativ können Sie "Trinotate" im Atmosphere-Bildsuchwerkzeug (https://atmo.iplantcollaborative.org/application/images) durchsuchen, um alle Versionen der Trinity- und Trinotate-Bilder aufzurufen. Wählen Sie die Schaltfläche "Anmelden zum Starten" und benennen Sie dann die Atmosphäre iNtanz Wähle eine Instanzgröße von "medium3" (CPU: 4, Mem: 32GB) oder "large3" (CPU: 8, Mem: 64 GB). Starten Sie die Instanz und warten Sie, bis es baut. In einigen seltenen Fällen wird CyVerse unterhalten, um Plattformen zu aktualisieren. Bestehende Instanzen sind bei diesen Updates verfügbar, aber es ist nicht möglich, neue Instanzen zu erstellen. Besuchen Sie die Seite CyVerse Status, um den aktuellen Stand einer Plattform zu sehen (http://status.cyverse.org/). Öffnen Sie die Instanz, sobald sie fertig ist, indem Sie auf den Namen klicken und dann "Remote Desktop" am unteren Rand des Menüs auf der rechten Seite auswählen. Java und VNC Viewer zulassen, wenn gefragt. Wählen Sie im Fenster VNC Viewer die Schaltfläche "Verbinden" und wählen Sie dann "Weiter". Melden Sie sich an, um ein separates Fenster zu öffnen, das die neue Cloud-Computing-Instanz sein wird. Verschieben Sie die getrimmten und / oder gefilterten FASTQ-Dateien in die Instanz mit einer der drei Methoden, die in den Schritten 1.3.1 – 1.3.4 beschrieben sind. UnsE der Internetbrowser, um auf die DE zuzugreifen und Dateien wie vorher auf dem lokalen Computer herunterzuladen. Oder verwenden Sie iCommands, die auf diesen Bildern installiert sind, um schnell große Datensätze zu übertragen. Laufen Trinity zum Zusammenbauen von hoher Qualität liest. Richten Sie den Analyseordner auf der Atmosphäre-Instanz ein. Verwenden Sie das Skript, das in der DE (/ iplant / home / shared / Trinity_transdecoder_trinotate_databases) verfügbar ist, oder kopieren Sie die Befehle aus der Wiki-Seite (https://wiki.cyverse.org/wiki/x/dgGtAQ). Die Erläuterung aller Befehle finden Sie auf der Wiki-Seite. Sobald der Analyseordner und die Trinotate-Datenbanken eingerichtet sind, führen Sie den Trinity-Assembler mit den Befehlen von oben aus. Es gibt mehrere Ausgabedateien, aber das wichtigste ist die endgültige Baugruppendatei mit dem Titel "Trinity.fasta". Benennen Sie diese FASTA-Datei um, um für den Organismus und die Behandlung der zusammengesetzten Lesevorgänge eindeutig zu sein, bevor Sie sie in den Datenspeicher (Ordner 3_Assembly) verschieben, um mögliche Verwirrung zu minimieren. HINWEIS: Ausgabe zählt Tabellen für die differentielle Genexpressionsanalyse in einen Ordner (4_Differential_Expression). Beurteilen Sie die Montage mit rnaQUAST (Abbildung 4 ). Verschieben Sie die Trinity-Ausgabedateien in den Ordner "3_Assembly" in der DE und markieren Sie den Ordner "A_Trinity_de_novo_assembly". Geben Sie jedem Transkriptom, das ein Unterordner im Ordner "A_Trinity_de_novo_assembly" mit eindeutigen Namen zusammengestellt wurde, einschließlich des wissenschaftlichen Namens von Organismen und Behandlungen, die mit jedem Transkriptom verbunden sind. Erstellen Sie einen weiteren Unterordner mit dem Namen "B_rnaQUAST_Output" im Ordner "3_Assembly". Öffnen Sie die App mit dem Titel "rnaQUAST 1.2.0 (denovo based)" und benennen Sie die Analyse und wählen Sie "B_rnaQUAST_Output" als Ausgabeordner. Fügen Sie die de novo Assembly FASTA Datei (en) zum Abschnitt "Dateneingabe" hinzu. Geben Sie im Abschnitt "Datenausgabe" einen eindeutigen Namen für den de novo ein </eM> montage Dadurch wird ein Ordner von rnaQUAST Ausgabedateien im Ordner "B_rnaQUAST_Output" erstellt. Wählen Sie zusätzliche Optionen in den "GenemarkS-T Gen Vorhersage", "BUSCO" und "Parameter" Abschnitte. Wählen Sie Prokaryonten im Abschnitt "GenemarkS-T Genvorhersage", wenn der Organismus nicht eukaryotisch ist. Führen Sie BUSCO aus, um die Schaltfläche "Durchsuchen" auszuwählen und kopieren Sie den Pfad iplant / home / shared / iplantcollaborative / example_data / BUSCO.sample.data in das Feld "Anzeigen:" und drücken Sie die Eingabetaste. Wählen Sie den spezifischsten BUSCO-Ordner aus, der für den Organismus verfügbar ist. ANMERKUNG: BUSCO wird die Assemblierung für lineage-spezifische Kerngene bewerten und ausgeben, welcher Prozentsatz der Kerngene gefunden wird. Es gibt allgemeine Ordner, zB Eukaryotten, und spezifischere Linien, zB Arthropoden. Suche nach "Transcript decoder" und laufe Transdecoder auf dem de novO Trinity Assembly-Ausgabe FASTA-Datei in der Discovery-Umgebung. Verschieben Sie die Ausgabe .pep-Datei in den Ordner de novo assembly (3_Assembly) für die Verwendung in Schritt 5 Annotation. 4. Paarweise Differentialausdruck mit DESeq2 in der DE Öffnen Sie die DESeq2 App in der DE wie zuvor beschrieben. Benennen Sie die Analyse und wählen Sie den Ausgabeordner als 4_Differential_Expression aus. Wählen Sie im Abschnitt "Eingaben" die Zählertabellendatei aus dem Trinity-Installationslauf und die Spalte aus, in der die Contig-Namen in dieser Zählertabelle gefunden werden können. Geben Sie die Spaltenüberschriften aus der Zähldaten-Datendatei ein, um festzustellen, welche Spalten verglichen werden. Füge die Kommas zwischen den einzelnen Bedingungen ein. Geben Sie nicht den ersten Spaltenkopf ein, der die Contig-Namen enthält. Für Wiederholungen wiederholen Sie den gleichen Namen ( zB Treatment1rep1, Treatment1rep2, Treatment1rep3 würde Treatment1, Treatment1, Treatment1) werden. In thE zweite Zeile, geben die Namen der beiden zu vergleichenden Bedingungen ( zB Behandlung1, Behandlung2). Passen Sie die Spaltenüberschriften in der ersten Zeile an. HINWEIS: Diese Spaltenüberschriften müssen alphanumerisch sein und keine Sonderzeichen enthalten. 5. Annotation mit Trinotat Führen Sie jeden Teil von Trinotate in der Atmosphere Cloud Computing Instanz. Hinweis: Bash-Befehle werden in einer txt-Datei bereitgestellt, die kopiert, eingefügt und dann geändert werden soll, bevor sie auf DE (/ iplant / home / shared / Trinity_transdecoder_trinotate_databases) oder auf der Wiki-Seite (https://wiki.cyverse.org/ Wiki / x / dgGtAQ). Wenn Sie mehrere Baugruppen annotieren, kommentieren Sie jede Baugruppe jeweils einmal und übertragen dann fertiggestellte Annotationsdateien wieder in den Ordner "5_Annotation" mit jeweils einem eindeutigen Ordner, der dem Assembler-Namen entspricht. Führen Sie den bash-Befehl zum Suchen von Trinity-Transkripten aus. Ändern Sie die Anzahl der Threads, um wie viele CPUs entsprechenAuf der Instanz, dh Medium hat 4 CPUs und groß hat 8 CPUs. Weitere Einzelheiten finden Sie in Schritt 3.1.2. Ändern Sie den Befehl Trinity.fasta, um dem BSSTA-Dateinamen zu entsprechen. HINWEIS: BLAST + sucht die meisten Zeit. Es kann Tage sein, bevor es fertig ist. Die Cloud-Computer-Aktivität kann in Atmosphere überprüft werden, ohne den VNC Viewer aufzurufen. Führen Sie den bash-Befehl für die Suche nach Transdecoder-vorhergesagten Proteinen. Ändern Sie wie zuvor die Threads Nummer und den Dateinamen entsprechend den Bedingungen in 5.2.1. Führen Sie den bash-Befehl für HMMER aus und ändern Sie die Anzahl der Threads wie oben. Führen Sie den bash-Befehl für signalP und tmHMM bei Bedarf aus. SignalP prognostiziert Signalpeptide und tmHMM prognostiziert Transmembran-Protein-Motive. Ergebnisse in die SQLite-Datenbank laden Sobald alle oben genannten Analysen abgeschlossen sind, führen Sie den Befehl bash aus, um Ausgabedateien in eine endgültige SQLite-Annotationsdatenbank zu laden. Entfernen Sie alle BefehleFür Analysen, die nicht ausgeführt wurden. Exportiere die SQLite-Datenbank in eine .xls-Datei zum Betrachten in beliebten Tabellen-Viewern.

Representative Results

Sobald die Projektorganisationsdateien erstellt wurden (Abbildung 1 und 2 ), ist die erste Aufgabe in diesem Workflow, die Rohsequenzdateien zu beurteilen und sie dann durch Trimmen und Qualitätsfilterung zu reinigen. FastQC generiert menschlich lesbare Zusammenfassungsstatistiken über die Qualitätswerte und die Länge der Sequenzen aus dem FASTQ-Dateiformat. Die FastQC-Figuren werden dann vor und nach dem Trimmen verglichen, um zu beurteilen, ob die endgültigen Lesevorgänge hohe Qualität aufweisen und daher für die Montage geeignet sind. "Pro Basensequenzqualität" zeigt die durchschnittliche Qualität der Lesungen über jedes Basenpaar der Sequenzierung. Es ist am besten, eine phred Qualität Punktzahl über 20-28 durch die Farben auf der FastQC Zahlen angegeben haben. "Pro Sequenzqualitätsbewertung" bestimmt, ob eine Qualitätsfilterung von Lesevorgängen erforderlich ist. Wenn zu viele Lesungen eine durchschnittliche Punktzahl unter 20-25 haben, dann kann es notwendig sein, auf der Grundlage der durchschnittlichen Lesequalität zu filtern. "Pro Basensequenzinhalt" sollte eine gleichmäßige Verteilung über alle vier Nukleotidbasen zeigen. Wenn eine Vorspannung im Nucleotidgehalt vorliegt, können Trimmenden erforderlich sein. "Pro Basis-GC-Inhalt sollte auch über alle Positionen hinaus sein.Wenn es ein Wobble gibt, müssen die Liest möglicherweise wie in 1.4.4.3 getrimmt werden." Pro Sequenz GC Inhalt "sollte eine normale Verteilung sein. Adapter oder Polymerase Kettenreaktion (PCR ) Kann die Kontamination in der Sequenzierungsbibliothek verunreinigen und die Normalverteilung verkürzen, in diesem Fall kann ein Adaptertrimmen erforderlich sein. "Sequenzlängenverteilung" gibt die durchschnittlichen Längen aller Lasten an. Liest kleiner als 35-45 Basenpaare werden in der Regel herausgefiltert. "Sequenz-Duplizierungsstufen" zeigen, wie oft eine gegebene Lesesequenz in der Bibliothek zu sehen ist. Im Abschnitt "Überrepräsentierte Sequenzen" wird eine sehr duplizierte Lesesequenz und -zählung bereitgestellt. FastQC versucht auch zu identifizieren, ob das duplizierte liestSind eine Adaptersequenz oder andere bekannte Sequenzen, die mit Sequenzierungsplattformen assoziiert sind. Ein Label von "No Hit" bedeutet, dass die Sequenz mit NCBI BLAST 6 weiter untersucht werden sollte, um festzustellen, ob es sich um eine biologisch relevante Sequenz handelt oder ob sie entfernt werden soll. Die DE hat auch mehrere Versionen von BLAST verfügbar. Die DE BLASTn App ist abrufbar unter: https://de.iplantcollaborative.org/de/?type=apps&amp;app-id=6f94cc92-6d28-45c6-aef1-036be697671d . Nachdem die rohe Sequenzierung abgeschirmt wurde, um qualitativ hochwertige Lesevorgänge zu erzeugen, müssen die Lesevorgänge zusammengestellt werden, um zusammenhängende Sequenzen (contigs) zu erzeugen. In Kürze werden Assemblies erstellt, indem alle kurzen Sequenz-Lesevorgänge ausgerichtet werden, um ähnliche Sequenzen zu finden. Bereiche mit ähnlicher Sequenz, die größer als eine bestimmte Länge sind, werden als sa angesehenMe-Sequenz, weil die Wahrscheinlichkeit einer zufällig auftretenden ähnlichen Sequenz einer bestimmten Länge nahezu Null ist. Trinity gibt Protokolldateien, Fasta-Dateien für jeden Schritt im Montageprozess aus. Allerdings ist die wichtigste Ausgabe die endgültige Baugruppendatei mit den Contigs, die mit "Trinity.fasta" bezeichnet ist und im Hauptordner gefunden wurde. Diese Datei enthält alle zusammengesetzten Gegenstände und ist an sich nicht praktisch "menschlich lesbar". Daher kann das rnaQUAST-Werkzeug verwendet werden, um die Montage in mehr Tiefe zu verstehen. Das rnaQUAST-Tool gibt Zahlen aus, die es den Anwendern ermöglichen, Assemblies zu vergleichen, um festzustellen, welche am meisten vollständig sind (Abbildung 4 ). Weitere Informationen über jede Figur von rnaQUAST finden Sie im Wiki ( https://wiki.cyverse.org/wiki/x/fwuEAQ ). Wenn BUSCO 7 ausgeführt wurde, von besonderem Interesse ist die specity.txt Datei, die die Anzahl der kompletten und p zeigtKünstliche BUSCO-Gene und die Anzahl der GeneMarkS-T-Genvorhersagen in einer Versammlung. BUSCO-Gene sind eine kuratierte Gruppe von Genen, die einer Gruppe von Organismen gemeinsam sind. Sie können verwendet werden, um zu beurteilen, wie gut eine Versammlung die Erfassung von Sätzen von Genen umfasst, von denen erwartet wird, dass sie in irgendeiner Art von Organismus vorhanden sind, der auf phylogenetischen Clades basiert. Eine eigenständige BUSCO App ist auch in der DE ( https://de.iplantcollaborative.org/de/?type=apps&amp;app-id=112b8a52-efd8-11e5-a15c-277125fcb1b1 ) verfügbar . Die Differentialgenexpressionsanalyse identifiziert Transkripte, die unterschiedliche Muster des Ausdrucks über Behandlungen von einfachen Zählungen pro zusammengesetzten Transkripttabellen aufweisen. DESeq2 verwendet ein verallgemeinertes lineares Modell (GLM), um die Variation von einem normalisierten Mittelwert zu bestimmen. Experimente mit Replikaten sind bevorzugt, so dass technische Variation frOm Sequenzierung kann durch den DESeq2 Algorithmus normalisiert werden. DESeq2 DEG-Analyse liefert Zahlen und eine .html Reportdatei, die alle Ausgabedaten und eine Beschreibung enthält. Alternativ kann EdgeR anstelle von DESeq2 verwendet werden, und der gleiche .html-Bericht wird stattdessen mit EdgeR-Visualisierungen erzeugt. Forscher mögen wünschen, sowohl DESeq2 als auch EdgeR zu führen, um differentiell exprimierte Gene zu finden, die durch beide Algorithmen für jedes gegebene Experiment identifiziert wurden. Trinotate erstellt eine Ausgabe .xls-Datei, die in jedem Tabellenkalkulationsprogramm geöffnet werden kann. Die DEG.txt-Dateien und die Annotation .xls-Datei können in zahlreichen Downstream-Anwendungen analysiert und visualisiert werden, die außerhalb der CyVerse-Plattform existieren. Abbildung 3: FastQC-Berichte von Raw Sequencing Reads, Trimmed Reads und Final Trimmed und Filtered Liest. Systematischer Vergleich der SequenzierungS nach jedem Vorverarbeitungsschritt. Hochwertige Lesungen sind notwendig, um de novo Transkriptome zusammenzusetzen. FastQC kann den Forschern helfen, die anfängliche Qualität ihrer Sequenzdaten zu verstehen und zu verfolgen, wie effizient die Lesevorgänge vorverarbeitet wurden. Die Ergebnisse von FastQC hängen von den Organismen und Proben ab, die sequenziert werden, aber die Gleichförmigkeit über alle Proben, die nachgeschaltet werden, ist das primäre Ziel der Vorverarbeitung liest. Ein Tutorial Video und Dokumentation sind bei den Autoren und Entwicklern von FastQC erhältlich. Bitte klicken Sie hier, um eine größere Version dieser Figur zu sehen. Abbildung 4: Berichte von drei getrennten Assemblies. RnaQUAST kann verwendet werden, um mehrere Leseanordnungen mit demselben Assembler oder mehreren a zu vergleichen Ssemblers mit dem gleichen Anfang liest. RnaQUAST nutzt BUSCO, um zusammenfassende Statistiken über Assemblies zu generieren, die auf bekannten Kerngenen in taxonomischen Clades basieren. Die Anzahl der Mismatches pro Transkript und wie viele Transkripte mit kanonischen Genen übereinstimmen, passende Fraktion, geben Einblick in die Genauigkeit der Monteure. Die letzten vier Subplots, die hier vorgestellt werden, liefern zusammenfassende Statistiken der Contig- und Isoform-Länge und die Abdeckung der erwarteten Isoformen. NAx repräsentiert den Prozentsatz (x) von Contigs mit einer Länge, die länger ist als die Länge (bp) auf der y-Achse. Zusammengesetzte Fraktion ist die längste einzelne zusammengesetzte Transkript geteilt durch ihre Länge. Abgedeckte Fraktion ist der Prozentsatz der kompletten zusammengesetzten Transkripte / Isoformen, wie von den kernprokaryotischen oder eukaryotischen Genen von BUSCO erwartet. Eine Beschreibung aller von rnaQUAST erzeugten Graphen steht zur Verfügung ( https://wiki.cyverse.org/wiki/x/fwuEAQ ).09 / 55009fig4large.jpg "target =" _ blank "> Bitte klicken Sie hier, um eine größere Version dieser Figur zu sehen. App Name CyVerse Plattform Drittanbieter-Dokumentation CyVerse Dokumentation Geschätzte Runtime für Beispieldatensatz Link zur App FastQC DE Http: //www.bioinformatik Babraham.ac.uk/projects/fastqc/ https://www.youtube.com/watch?v=bz93ReOv87Y Https://wiki.cyverse.org/wiki/pages/viewpage.action?pageId=9316768 15 Minuten Https: //de.iplantcollaborative. Org / de /? Type = apps & app-id = 112b9aa8-c4a7-11e5-8209- 5f3310948295 Trimmomatisch v0.33 DE Https://github.com/timflutre/trimmomatic Https://wiki.cyverse.org/wiki/display/DEapps/Trimmomatic-prOgrammable-0.33 30 Minuten Https: //de.iplantcollaborative. Org / de /? Type = apps & app-id = 9c2a30dc-028d- 11e6-a915-ab4311791e69 Sichel DE Https://github.com/najoshi/sickle Https://wiki.cyverse.org/wiki/display/DEapps/Sickle-quality-based-trimming 30 Minuten Https: //de.iplantcollaborative. Org / de /? Type = apps & app-id = 68b278f8-d4d6-414d-9a64-b685a7714f7c Dreieinigkeit Atmosphäre Https://github.com/trinityrnaseq/trinityrnaseq/wiki Https: //pods.iplantcollaborative. Org / wiki / display / atmman / Trinity + – + Trinotate + Atmosphäre + Bild 1 Woche Https: //atmo.iplantcollaborative. Org / application / images / 1261 DE Https://wiki.cyverse.org/wiki/display/DEapps/Trinity-64GB-2.1.1 2-5 Tage Https: // wikI.cyverse.org/wiki/display/DEapps/Trinity-64GB-2.1.1 RnaQUAST v1.2.0 DE, Atmosphäre Http://spades.bioinf.spbau.ru/rnaquast/release1.2.0/manual.html Https: //pods.iplantcollaborative. Org / wiki / display / TUT / rnaQUAST + 1.2.0 +% 28denovo + basiert% 29 + mit + DE 30 Minuten Https: //de.iplantcollaborative. Org / de /? Type = apps & app-id = 980dd11a-1666- 11e6-9122-930 Ba8f23352 Transdecoder DE Https://transdecoder.github.io Https://wiki.cyverse.org/wiki/display/DEapps/Transcript+decoder+2.0 2-3 Stunden Https: //de.iplantcollaborative. Org / de /? Type = apps & app-id = 5a0ba87e-b0fa-4994-92a2- 0d48ee881179 DESeq2 DE Https://bioconductor.org/packages/release/bioc/html/DESeq2.html Https: //pods.iplantcollaborative. Org / wiki / seiten /Viewpage.action? PageId = 28115142 2-3 Stunden Https: //de.iplantcollaborative. Org / de /? Type = apps & app-id = 9574e87c-4f90- 11e6-a594-008 Cfa5ae621 EdgeR DE Https://bioconductor.org/packages/release/bioc/vignettes/edgeR/inst/doc/edgeR.pdf Https://wiki.cyverse.org/wiki/pages/viewpage.action?pageId=28115144 2-3 Stunden Https: //de.iplantcollaborative. Org / de /? Type = apps & app-id = 4a08ceda-54fe- 11e6-862f-008 Cfa5ae621 Trinotieren Atmosphäre Https://trinotate.github.io/ Https: //pods.iplantcollaborative. Org / wiki / display / atmman / Trinity + – + Trinotate + Atmosphäre + Bild 1 Woche Https: //atmo.iplantcollaborative. Org / application / images / 1261 Tabelle 1: Analyseprogramme, Plattformen, auf denen sie verfügbar sind, aNd Zusätzliche Ressourcen für die Workflows im Auftrag nach dem ersten Erscheinungsbild verfügbar. Alle Paketversionen sind ab April 2016 aktuell.

Discussion

Es gibt fünf kritische Schritte im Protokoll, die jeweils einen eigenen Ordner innerhalb des Hauptprojektordners erstellen ( Abb. 1 und 2 ). Alle primären Rohsequenzdaten sind sakrosankt: Es sollte hochgeladen und im ersten Ordner mit der Bezeichnung "1_Raw_Sequence" gespeichert und in keiner Weise verändert werden. Die Daten können auf drei Arten hochgeladen werden. Mit der DE-Schnittstelle können Sie Dateien direkt hochladen. Dies ist der einfachste Weg, um Daten hochzuladen, aber auch die längste zu übertragen. Cyberduck hat eine grafische Oberfläche und ermöglicht es Benutzern, per Drag & Drop Dateien auf die DE zu übertragen. ICommands ist ein Befehlszeilentool, mit dem Daten in den und aus dem Data Store übertragen, Verzeichnisse erstellt und Datensätze verwaltet werden können und wahrscheinlich der schnellste Weg zum Übertragen von Datendateien ist. Alle Daten im Data Store können mit anderen CyVerse-Nutzern geteilt werden (https://wiki.cyverse.org/wiki/display/DEmanual/Sharing+Data+Files+and+Folders+Via+die+DiscoveRy + Environment), die über eine generierte URL (https://wiki.cyverse.org/wiki/display/DEmanual/Sharing+Data+Files+Via+Public+Links) öffentlich gemacht oder öffentlich und anonym gehostet werden kann ( Kein Benutzername erforderlich) Verfügbare Community-Daten (http://data.iplantcollaborative.org; http://mirrors.cyverse.org). Innerhalb dieses Ordners werden die Rohsequenz-Lesevorgänge mit FastQC (http://www.bioinformatics.bbsrc.ac.uk/projects/fastqc/) analysiert, um zu beurteilen, wie man die Lesevorgänge trimmt und filtert, um qualitativ hochwertige Lesevorgänge zu erzeugen. Nach dem Beschneiden und der Qualitätsfilterung ist es sinnvoll, die FastQC-Ausgänge zu vergleichen, um festzustellen, ob sich die Lesequalität geändert hat, um festzustellen, dass es besser geworden ist, ohne Informationen zu verlieren (Abbildung 3 ). Beachten Sie, dass die x-Achse von FastQC nicht linear ist, sondern vielmehr für viele Ausgabediagramme gebündelt wird, was zu einer Fehlinterpretation der Ergebnisse führen kann. Die getrimmten und gefilterten Lesevorgänge werden dann verwendet, um de novo Transkriptome unter Verwendung einer Atmosphere Cloud Computing Instanz zusammenzubauen. DiesCloud-Computer verwendet die lokalen Computer-Bildschirm, Tastatur und Maus, sondern hat seine eigene Software (Trinity und Trinotate) und Hardware installiert. Das Ausführen von Programmen auf der Cloud-Computer-Instanz wird den lokalen Computer in keiner Weise beeinflussen. De novo Assembly und Downstream Annotation werden höchstwahrscheinlich die beiden längsten laufenden Schritte in diesem Workflow sein. Daher sind sie auf Atmosphere abgeschlossen, um gemeinsame Labor-gemeinsam genutzte Computerprobleme zu vermeiden, die die Analyse wie Stromausfälle unterbrechen würden, nach der späten Nacht automatische Updates oder Abstürze, die von anderen Benutzern verursacht wurden, neu gestartet werden. Trinotat-Annotation verwendet BLAST + 8 , HMMER 9 , tmHMM 10 und PFAM 11 . Die endgültige Ausgabe der Annotation ist eine SQLite-Datenbank und eine .xls-Datei. Die Ausgänge können außerhalb von CyVerse in nachgelagerten Analyseplattformen wie KEGG 12 , 13 eingesetzt werden .

Dieser WorkflowIst bereit, in der DE und Atmosphäre zu verwenden. Dies eliminiert die Notwendigkeit, Zeit zu installieren, zu konfigurieren und zu beheben jedes Analysepaket und alle Abhängigkeiten, die jedes Werkzeug benötigt. Dies rationalisiert die Analysen der Forscher, minimiert den verschwendete Aufwand und senkt die Eintrittsbarriere für viele Wissenschaftler. Dieser Workflow sammelt spezifisch entweder Einzel- oder Paar-Lese-Lesungen von der Illumina-Sequenzierungsplattform, aber es gibt viele Werkzeuge in der DE und Atmosphere, um andere Arten von Sequenztechnologien zu behandeln. Werkzeuge in diesem Workflow können leicht durch ein entsprechendes alternatives Werkzeug ersetzt werden, um jede Art von eingehender Sequenztechnologie zu behandeln. Dies gilt auch für neue Versionen von Analysewerkzeugen oder ganz neuen Werkzeugen.

Dieser Workflow wurde speziell entwickelt, um nur wenige Transkriptome gleichzeitig zu montieren, zu vergleichen und zu kommentieren. Daher können Benutzer es zeitaufwendig finden, mehrere Transkriptome für vergleichende Populationsgenetik zusammenzustellen. AnalysePipelines werden in der nahen Zukunft den Nutzern der Genetik zur Verfügung stehen und der Link zur Pipeline finden Sie auf der Wiki-Seite (https://wiki.cyverse.org/wiki/x/dgGtAQ). Der Differential-Genexpressionsanalyse-Schritt kann Replikate behandeln, ist aber ein Paarungsvergleich und wird nicht genau mehrere Faktoren beurteilen ( z. B. Bedingungen, die im Laufe der Zeit variieren, mehr als zwei Behandlungen). Es gibt automatisierte Arbeitsabläufe für Organismen mit Referenzgenomen ( zB TRAPLINE 14 ). Während automatisierte Workflows am einfachsten für Anfänger zu verwenden sind, benötigen de novo Baugruppen eine Einschätzung und Betrachtung für jeden hier skizzierten Schritt. Darüber hinaus sind die Benutzer verpflichtet, automatisierte Pipelines zu verwenden, wie sie gebaut werden, und sind daher inhärent nicht flexibel, um den sich ändernden Anforderungen der Nutzer gerecht zu werden.

Da das meiste dieses Protokolls über das Internet ausgeführt wird, können Benutzer Probleme mit ihren Browsereinstellungen haben. Erstens,Pop-up-Blocker können Fenster von der Öffnung überhaupt halten, oder kann Fenster von der Öffnung halten, bis Erlaubnis zu CyVerse im Browser gegeben wird. Atmosphere verwendet VNC für den Zugriff auf Remote-Desktops, aber andere Software kann verwendet werden. Dieses gesamte Protokoll wurde in Firefox Version 45.0.2 durchgeführt und sollte mit allen gängigen Internetbrowsern arbeiten, aber einige Inkonsistenzen können auftreten. Der Workflow wird aktualisiert, da Trinity neue Versionen veröffentlicht (https://github.com/trinityrnaseq/trinityrnaseq/wiki). Die neuesten Versionen und aktuelle Informationen zum Workflow finden Sie auf der Wiki-Tutorialseite ( Tabelle 1 , https://wiki.cyverse.org/wiki/x/dgGtAQ). Benutzer können sich direkt an den Support wenden oder Fragen stellen bei Ask CyVerse (ask.cyverse.org/), um Probleme mit dem Workflow zu beheben.

In der DE gibt es mehrere Apps, um jeden Schritt dieses Protokolls zu erreichen. Zum Beispiel können Benutzer Scythe (https://github.com/najoshi/sickle) statt Trimmomatic ausführen15 zum Lesen von Trimmen oder Ausführen von EdgeR 16 anstelle von DESeq 17 , 18 . Obwohl außerhalb des Umfangs dieses Manuskripts können DE-Apps von Benutzern kopiert, bearbeitet und freigegeben werden (https://wiki.cyverse.org/wiki/display/DEmanual/Creating,+Copying,+and+Editing+DE+ Apps) oder neue Apps können von Benutzern hinzugefügt werden (https://wiki.cyverse.org/wiki/display/DEmanual/Dockerizing+Your+Tools+für+die+CyVerse+Discovery+Environment). Die Atmosphere-Bilder können auch modifiziert und neu erstellt werden, um neue oder geänderte Workflows zu erstellen, die den Bedürfnissen der Benutzer genauer entsprechen (https://wiki.cyverse.org/wiki/x/TwHX). Diese Arbeit dient als Einführung in die Nutzung der Kommandozeile, um Daten zu verschieben und Analysen durchzuführen. Benutzer können erwägen, erweiterte Befehlszeilenressourcen wie z. B. Cyverse Anwendungsprogrammierschnittstellen (APIs) (http://www.cyverse.org/science-apis) zu verwenden oder eigene DE-Anwendungen zu entwerfen, die Kenntnisse erfordernWie das Analyse-Tool auf der Kommandozeile ausgeführt wird (https://wiki.cyverse.org/wiki/display/DEmanual/Creating+a+New+App+Interface).

Disclosures

The authors have nothing to disclose.

Acknowledgements

The authors would like to acknowledge funding from USDA-NIFA grant 2013-00984, NSF grant IOS – 1339156, IOS – 1444490, and CyVerse (NSF: DBI – 1265383).

Materials

Trimmomatic v0.33 USADELLAB.org https://github.com/timflutre/trimmomatic https://de.iplantcollaborative.org/de/?type=apps&app-id=9c2a30dc-028d-11e6-a915-ab4311791e69
Sickle Joshi and Fass https://github.com/najoshi/sickle https://de.iplantcollaborative.org/de/?type=apps&app-id=68b278f8-d4d6-414d-9a64-b685a7714f7c
Trinity Broad Institute and Hebrew University of Jersalem https://github.com/trinityrnaseq/trinityrnaseq/wiki https://atmo.iplantcollaborative.org/application/images/1261
rnaQUAST v1.2.0 Algorithmic Biology Lab, St. Petersburg Academic University of the Russian Academy of Sciences http://spades.bioinf.spbau.ru/rnaquast/release1.2.0/manual.html https://de.iplantcollaborative.org
/de/?type=apps&app-
id=980dd11a-1666-11e6-9122-
930ba8f23352
Transdecoder Broad Institute and Commonwealth Scientific and Industrial Research Organisation https://transdecoder.github.io https://de.iplantcollaborative.org/de/?type=apps&app-id=5a0ba87e-b0fa-4994-92a2-0d48ee881179
EdgeR Robinson et al. 2010. https://bioconductor.org/packages/release/bioc/vignettes/edgeR/inst/doc/edgeR.pdf https://de.iplantcollaborative.org/de/?type=apps&app-id=5aa9e294-6f95-42f9-98e9-c9c96b44f499
Trinotate Broad Institute and Hebrew University of Jersalem https://trinotate.github.io/ https://atmo.iplantcollaborative.org/application/images/1261

References

  1. Hasselmann, M., Ferretti, L., Zayed, A. Beyond fruit-flies: population genomic advances in non-Drosophila arthropods. Brief. Funct. Genomics. 14 (6), 424-431 (2015).
  2. Scholz, M. B., Lo, C. -. C., Chain, P. S. Next generation sequencing and bioinformatic bottlenecks: the current state of metagenomic data analysis. Anal. Biotech. 23 (1), 9-15 (2012).
  3. Merchant, N., et al. The iPlant Collaborative: Cyberinfrastructure for Enabling Data to Discovery for the Life Sciences. PLoS Biol. 14 (1), e1002342 (2016).
  4. Oliver, S. L., Lenards, A. J., Barthelson, R. A., Merchant, N., McKay, S. J. Using the iPlant collaborative discovery environment. Cur. Protoc. Bioinformatics. , 1-22 (2013).
  5. Skidmore, E., Kim, S., Kuchimanchi, S., Singaram, S., Merchant, N., Stanzione, D. iPlant atmosphere: a gateway to cloud infrastructure for the plant sciences. Proc. 2011 ACM. , 59-64 (2011).
  6. Altschul, S. F., Gish, W., Miller, W., Myers, E. W., Lipman, D. J. Basic local alignment search tool. J. Mol. Bio. 215 (3), 403-410 (1990).
  7. Simão, F. A., Waterhouse, R. M., Ioannidis, P., Kriventseva, E. V., Zdobnov, E. M. BUSCO: assessing genome assembly and annotation completeness with single-copy orthologs. Bioinformatics. , (2015).
  8. Camacho, C., et al. BLAST+: architecture and applications. BMC Bioinformatics. 10, 421 (2009).
  9. Eddy, S. R. Profile hidden Markov models. Bioinformatics. 14 (9), 755-763 (1998).
  10. Krogh, A., Larsson, B., von Heijne, G., Sonnhammer, E. L. Predicting transmembrane protein topology with a hidden markov model: application to complete genomes. J. Mol. Biol. 305 (3), 567-580 (2001).
  11. Finn, R. D., Coggill, P., et al. The Pfam protein families database: towards a more sustainable future. Nucleic Acids Res. 44 (D1), D279-D285 (2016).
  12. Kanehisa, M., Sato, Y., Kawashima, M., Furumichi, M., Tanabe, M. KEGG as a reference resource for gene and protein annotation. Nucleic Acids Res. 44 (D1), D457-D462 (2016).
  13. Kanehisa, M., Goto, S. KEGG: Kyoto Encyclopedia of Genes and Genomes. Nucleic Acids Res. 28 (1), 27-30 (2000).
  14. Wolfien, M., et al. TRAPLINE: a standardized and automated pipeline for RNA sequencing data analysis, evaluation and annotation. BMC Bioinformatics. 17, 21 (2016).
  15. Bolger, A. M., Lohse, M., Usadel, B. Trimmomatic: a flexible trimmer for Illumina sequence data. Bioinformatics. 30 (15), 2114-2120 (2014).
  16. Robinson, M. D., McCarthy, D. J., Smyth, G. K. edgeR: a Bioconductor package for differential expression analysis of digital gene expression data. Bioinformatics. 26 (1), 139-140 (2010).
  17. Anders, S. Analysing RNA-Seq data with the DESeq package. Mol. Biol. 43 (4), 1-17 (2010).
  18. Love, M. I., Huber, W., Anders, S. Moderated estimation of fold change and dispersion for RNA-seq data with DESeq2. Genome Bio. 15 (12), 1-21 (2014).

Play Video

Cite This Article
Joyce, B. L., Haug-Baltzell, A. K., Hulvey, J. P., McCarthy, F., Devisetty, U. K., Lyons, E. Leveraging CyVerse Resources for De Novo Comparative Transcriptomics of Underserved (Non-model) Organisms. J. Vis. Exp. (123), e55009, doi:10.3791/55009 (2017).

View Video