This protocol outlines a comparative de novo transcriptome assembly and annotation workflow for novice bioinformaticians. The workflow is available for free entirely through CyVerse and connected by the Data Store. Command line and graphical user interfaces are used, but all code needed is available to copy and paste.
Dieser Workflow ermöglicht es Anfängern, fortschrittliche Berechnungsressourcen wie Cloud Computing zu nutzen, um paarweise vergleichende Transkriptomik durchzuführen. Es dient auch als Primer für Biologen, um Datenwissenschaftler Computational Fähigkeiten zu entwickeln, zB Ausführung von bash Befehlen, Visualisierung und Verwaltung von großen Datensätzen. Alle Kommandozeilen-Code und weitere Erklärungen zu jedem Befehl oder Schritt finden Sie im Wiki ( https://wiki.cyverse.org/wiki/x/dgGtAQ ). Die Plattform Discovery Environment und Atmosphere sind über den CyVerse Data Store miteinander verbunden. Als solches, sobald die anfänglichen Rohsequenzierungsdaten hochgeladen worden sind, gibt es keine Notwendigkeit mehr, große Datendateien über eine Internetverbindung zu übertragen, wodurch der Zeitaufwand für die Durchführung von Analysen minimiert wird. Dieses Protokoll soll nur zwei experimentelle Behandlungen oder Bedingungen analysieren. Die differentielle Genexpressionsanalyse wird durchgeführtOugh paarweise Vergleiche, und wird nicht geeignet sein, um mehrere Faktoren zu testen. Dieser Workflow ist auch manuell und nicht automatisiert. Jeder Schritt muss vom Benutzer ausgeführt und untersucht werden, was ein besseres Verständnis von Daten und analytischen Ergebnissen und damit bessere Ergebnisse für den Benutzer ergibt. Sobald es fertig ist, liefert dieses Protokoll de novo zusammengesetzte Transkriptome (s) für unterversorgte (Nicht-Modell-) Organismen, ohne dass es notwendig ist, zuvor zusammengesetzte Referenzgenome (die normalerweise nicht im unterversorgten Organismus verfügbar sind) zuzuordnen. Diese de novo- Transkriptome werden ferner in der paarweise differentiellen Genexpressionsanalyse verwendet, um Gene zu untersuchen, die sich zwischen zwei experimentellen Bedingungen unterscheiden. Differentiell exprimierte Gene werden dann funktionell kommentiert, um zu verstehen, dass die genetischen Response-Organismen experimentelle Bedingungen haben. Insgesamt werden die aus diesem Protokoll abgeleiteten Daten verwendet, um Hypothesen über biologische Reaktionen von unterversorgten Organismen zu testen.
Homo sapiens und einige Schlüsselmodell Tierarten wie Drosophila melanogaster , Mus musculus und Danio rerio repräsentieren die Mehrheit der aktuellen und vergangenen funktionellen Genomik Arbeit. Allerdings bieten die schnell abnehmenden Kosten der Hochdurchsatz-Sequenzierungstechnologie Chancen für funktionelle Genomik in Nicht-Modell- ( aka "vernachlässigten" oder "unterversorgten") Tierarten 1 . Dies ist ein wichtiger Übergang in der Genomik als Nicht-Modell-Organismen häufig ökonomisch relevante Arten ( zB Austern, Garnelen, Krabben) und bieten Möglichkeiten, neue Phänotypen und biologische Systeme außerhalb des Rahmens der in Modellarten gefunden zu untersuchen.
Obwohl unterversorgte Organismen eine attraktive Gelegenheit darstellen, einzigartige biologische Systeme zu untersuchen, stehen vor zahlreichen Herausforderungen vor allem bei der bioinformatischen Analyse mehrere Herausforderungen. Einige derDie Herausforderungen sind angeboren, um große Datensätze zu verarbeiten, während andere aus dem Mangel an genetischen Ressourcen resultieren, die Forschern in unterversorgten Organismen wie einem Referenzgenom, organisationsspezifischen Ontologien usw. zur Verfügung stehen . Die Herausforderungen der Nukleinsäureisolation und Sequenzierung sind oft routinemäßig Vergleich mit denen der Datenanalyse, und als solche bioinformatische Analysen erweisen sich im Allgemeinen als die am meisten unterschätzten Kosten der Sequenzprojekte 2 . Beispielsweise könnte eine grundlegende Sequenzierung der bioinformatischen Analyse der nächsten Generation aus den folgenden Schritten bestehen: Qualitätsfilterung und Trimmen von Rohsequenzierungslesungen, Zusammenstellung von kurzen Lesevorgängen in größere zusammenhängende Stücke und Annotation und / oder Vergleiche mit anderen Systemen, um biologisches Verständnis zu gewinnen. Während es scheinbar einfach ist, erfordert dieses Beispiel-Workflow Spezialwissen und rechnerische Ressourcen, die über den Rahmen eines Labor-Bank-Computers hinausgehen und es außerhalb der Reichweite vieler Wissenschaftler, die nicht-Modellorganismen.
Angemessene Herausforderungen können infrastruktur- oder wissensbasiert sein. Eine klassische Infrastruktur-Herausforderung ist der Zugang zu geeigneten Rechenressourcen. Beispielsweise beruht die Montage und Annotation auf rechenintensiven Algorithmen, die leistungsstarke Computer oder Computercluster benötigen, mit einer großen Menge an RAM (256 GB-1 TB) und mehreren Prozessoren / Kerne zum Ausführen. Leider haben viele Forscher keinen Zugang zu solchen Rechenressourcen oder haben nicht das nötige Wissen, um mit diesen Systemen zu interagieren. Andere Forscher haben möglicherweise Zugang zu Hochleistungs-Computing-Clustern durch ihre Universitäten oder Institutionen, aber der Zugriff auf diese Ressourcen könnte begrenzt sein und manchmal führt zu Gebühren pro Rechenstunde, dh die Anzahl der CPU-Prozessoren multipliziert mit der Anzahl der Echtzeit-Uhr Stunden ", dass diese Prozessoren laufen. Nutzung eines Cyberinfrastruktursystems, das von der US National Science Foundation gefördert wirdSo wie CyVerse 3 , der freien Zugang zu Berechnungsressourcen für Forscher, in den USA und auf der ganzen Welt bietet, dazu beitragen kann, die Herausforderungen der Infrastruktur zu lindern, wie dies hier gezeigt wird.
Ein Beispiel für eine typische wissensbasierte Herausforderung ist das Verständnis der Software, die für vollständige Analysen benötigt wird. Um ein Sequenzierungsprojekt effektiv durchzuführen, müssen die Forscher mit den unzähligen Software-Tools vertraut sein, die für bioinformatische Analysen entwickelt wurden. Das Lernen jedes Pakets ist in seinem eigenen Recht schwierig, wird aber durch die Tatsache verschärft, dass Pakete ständig erweitert, wiederhergestellt, in neue Workflows zusammengestellt und manchmal für den Einsatz unter neuen Lizenzen eingeschränkt werden. Darüber hinaus erfordert die Verknüpfung der Eingänge und Ausgänge dieser Werkzeuge manchmal die Umwandlung von Datentypen, um sie kompatibel zu machen und ein weiteres Werkzeug zum Workflow hinzuzufügen. Schließlich ist es auch schwer zu wissen, welches Softwarepaket 'th istE am besten für eine Analyse, und häufig die Identifizierung der besten Software für bestimmte experimentelle Bedingungen ist eine Frage der subtilen Unterschiede. In einigen Fällen sind nützliche Rezensionen von Software verfügbar, aber aufgrund der fortlaufenden Freigabe von neuen Updates und Software-Optionen, diese schnell veraltet.
Für Forscher, die unterversorgte Organismen untersuchen, kommen diese angeborenen Herausforderungen zusätzlich zu den Herausforderungen, die mit der Analyse von Daten in einem neuartigen Organismus verbunden sind. Diese unterversorgten organismus-spezifischen Herausforderungen werden am besten bei der Gen-Annotation veranschaulicht. Zum Beispiel haben unterversorgte Organismen häufig keinen eng verwandten Modellorganismus, der vernünftigerweise zur Identifizierung von Genorthologie und -funktion ( zB marine Wirbellose und Drosophila ) verwendet werden kann. Viele bioinformuläre Werkzeuge erfordern auch "Training", um strukturelle Motive zu identifizieren, mit denen die Genfunktion identifiziert werden kann. Allerdings sind Trainingsdaten in der Regel nur für mod verfügbarEl-Organismen und Training versteckte Markov-Modelle (HMMs) außerhalb des Zuständigkeitsbereichs der Biologen und sogar vieler Bioinformatiker. Schließlich, auch wenn Annotationen unter Verwendung von Daten von Modellorganismen durchgeführt werden können, sind einige Gen-Ontologien, die mit Modellorganismen assoziiert sind, nicht sinnvoll, wenn die Biologie und die Naturgeschichte des unterversorgten Organismus betrachtet werden ( z . B. die Übertragung von Informationen von Drosophila zu Garnelen).
Angesichts dieser Herausforderungen müssen bioinformuläre Ressourcen mit Forschern entwickelt werden, die de novo- Analysen zu unterversorgten Organismen führen. Die nächsten Jahre der funktionalen Genomik-Sequenzprojekte werden dazu beitragen, die Kluft zwischen Modell und unterversorgten Organismen zu schließen ( https://genome10k.soe.ucsc.edu/ ), aber es gibt viele Werkzeuge, die entwickelt werden müssen, um die Herausforderungen zu bewältigen Oben betrachtet. CyVerse widmet sich der Schaffung von Ökosystemen von iNteroperabilität durch Verknüpfung bestehender Cyberinfrastruktur und Drittanbieteranwendungen zur Bereitstellung von Datenmanagement, bioinformulären Analysewerkzeugen und Datenvisualisierungen für Life Sciences. Die Interoperabilität hilft, die Übergänge zwischen bioinformatischen Anwendungen und Plattformen zu glätten, indem sie skalierbare Rechenressourcen bereitstellt und die Dateiformatkonvertierungen und die Datenmenge zwischen den Plattformen begrenzt. CyVerse bietet mehrere Plattformen an, darunter die Discovery Environment (DE 4 , Atmosphere 5 und der Data Store 3. Die DE ist webbasiert und hat viele gängige Bioinformatik-Analysewerkzeuge, die in benutzerfreundliche Point-and-Click-Formate (sogenannte "apps" ") Und ist die grafische Benutzeroberfläche (GUI) für den Data Store, in der große Datensätze ( dh rohe Sequenzierungslesungen, zusammengesetzte Genome) gespeichert und verwaltet werden. Atmosphere ist ein Cloud-Computing-Service, der Forschern mehr Flexibilität bietetMit Virtual Machine Rechenressourcen, die eine breite Palette von Bioinformatik-Tools vorinstalliert haben. Beide Plattformen sind mit dem Data Store verknüpft und können zusammen verwendet werden, um Workflows wie die hier beschriebenen zu erstellen. Dieser Bericht konzentriert sich auf eine de novo Transkriptom-Assembly und Differential-Gen-Expression Analyse Workflows, und weitere Adressen einige Best Practices mit der Entwicklung und Durchführung von bioinformatischen Analysen verbunden. Eine Erklärung der breiteren Mission von CyVerse ( http://www.cyverse.org/about ) und detaillierte Plattformbeschreibungen ( http://www.cyverse.org/learning-center ) sind öffentlich zugänglich. Alle hier beschriebenen Analysen verwenden die Discovery Environment 4 (DE) und Atmosphere 5 und werden so präsentiert, dass sie den Forschern aller Rechenebenen zugänglich sind. DE Arbeitsabläufe und AtmosphEre Bilder können direkt über URLs referenziert werden, um langfristige Provenienz, Wiederverwendbarkeit und Reproduzierbarkeit zu gewährleisten.
Es gibt fünf kritische Schritte im Protokoll, die jeweils einen eigenen Ordner innerhalb des Hauptprojektordners erstellen ( Abb. 1 und 2 ). Alle primären Rohsequenzdaten sind sakrosankt: Es sollte hochgeladen und im ersten Ordner mit der Bezeichnung "1_Raw_Sequence" gespeichert und in keiner Weise verändert werden. Die Daten können auf drei Arten hochgeladen werden. Mit der DE-Schnittstelle können Sie Dateien direkt hochladen. Dies ist der einfachste Weg, um Daten hochzuladen, aber auch die längste zu übertragen. Cyberduck hat eine grafische Oberfläche und ermöglicht es Benutzern, per Drag & Drop Dateien auf die DE zu übertragen. ICommands ist ein Befehlszeilentool, mit dem Daten in den und aus dem Data Store übertragen, Verzeichnisse erstellt und Datensätze verwaltet werden können und wahrscheinlich der schnellste Weg zum Übertragen von Datendateien ist. Alle Daten im Data Store können mit anderen CyVerse-Nutzern geteilt werden (https://wiki.cyverse.org/wiki/display/DEmanual/Sharing+Data+Files+and+Folders+Via+die+DiscoveRy + Environment), die über eine generierte URL (https://wiki.cyverse.org/wiki/display/DEmanual/Sharing+Data+Files+Via+Public+Links) öffentlich gemacht oder öffentlich und anonym gehostet werden kann ( Kein Benutzername erforderlich) Verfügbare Community-Daten (http://data.iplantcollaborative.org; http://mirrors.cyverse.org). Innerhalb dieses Ordners werden die Rohsequenz-Lesevorgänge mit FastQC (http://www.bioinformatics.bbsrc.ac.uk/projects/fastqc/) analysiert, um zu beurteilen, wie man die Lesevorgänge trimmt und filtert, um qualitativ hochwertige Lesevorgänge zu erzeugen. Nach dem Beschneiden und der Qualitätsfilterung ist es sinnvoll, die FastQC-Ausgänge zu vergleichen, um festzustellen, ob sich die Lesequalität geändert hat, um festzustellen, dass es besser geworden ist, ohne Informationen zu verlieren (Abbildung 3 ). Beachten Sie, dass die x-Achse von FastQC nicht linear ist, sondern vielmehr für viele Ausgabediagramme gebündelt wird, was zu einer Fehlinterpretation der Ergebnisse führen kann. Die getrimmten und gefilterten Lesevorgänge werden dann verwendet, um de novo Transkriptome unter Verwendung einer Atmosphere Cloud Computing Instanz zusammenzubauen. DiesCloud-Computer verwendet die lokalen Computer-Bildschirm, Tastatur und Maus, sondern hat seine eigene Software (Trinity und Trinotate) und Hardware installiert. Das Ausführen von Programmen auf der Cloud-Computer-Instanz wird den lokalen Computer in keiner Weise beeinflussen. De novo Assembly und Downstream Annotation werden höchstwahrscheinlich die beiden längsten laufenden Schritte in diesem Workflow sein. Daher sind sie auf Atmosphere abgeschlossen, um gemeinsame Labor-gemeinsam genutzte Computerprobleme zu vermeiden, die die Analyse wie Stromausfälle unterbrechen würden, nach der späten Nacht automatische Updates oder Abstürze, die von anderen Benutzern verursacht wurden, neu gestartet werden. Trinotat-Annotation verwendet BLAST + 8 , HMMER 9 , tmHMM 10 und PFAM 11 . Die endgültige Ausgabe der Annotation ist eine SQLite-Datenbank und eine .xls-Datei. Die Ausgänge können außerhalb von CyVerse in nachgelagerten Analyseplattformen wie KEGG 12 , 13 eingesetzt werden .
Dieser WorkflowIst bereit, in der DE und Atmosphäre zu verwenden. Dies eliminiert die Notwendigkeit, Zeit zu installieren, zu konfigurieren und zu beheben jedes Analysepaket und alle Abhängigkeiten, die jedes Werkzeug benötigt. Dies rationalisiert die Analysen der Forscher, minimiert den verschwendete Aufwand und senkt die Eintrittsbarriere für viele Wissenschaftler. Dieser Workflow sammelt spezifisch entweder Einzel- oder Paar-Lese-Lesungen von der Illumina-Sequenzierungsplattform, aber es gibt viele Werkzeuge in der DE und Atmosphere, um andere Arten von Sequenztechnologien zu behandeln. Werkzeuge in diesem Workflow können leicht durch ein entsprechendes alternatives Werkzeug ersetzt werden, um jede Art von eingehender Sequenztechnologie zu behandeln. Dies gilt auch für neue Versionen von Analysewerkzeugen oder ganz neuen Werkzeugen.
Dieser Workflow wurde speziell entwickelt, um nur wenige Transkriptome gleichzeitig zu montieren, zu vergleichen und zu kommentieren. Daher können Benutzer es zeitaufwendig finden, mehrere Transkriptome für vergleichende Populationsgenetik zusammenzustellen. AnalysePipelines werden in der nahen Zukunft den Nutzern der Genetik zur Verfügung stehen und der Link zur Pipeline finden Sie auf der Wiki-Seite (https://wiki.cyverse.org/wiki/x/dgGtAQ). Der Differential-Genexpressionsanalyse-Schritt kann Replikate behandeln, ist aber ein Paarungsvergleich und wird nicht genau mehrere Faktoren beurteilen ( z. B. Bedingungen, die im Laufe der Zeit variieren, mehr als zwei Behandlungen). Es gibt automatisierte Arbeitsabläufe für Organismen mit Referenzgenomen ( zB TRAPLINE 14 ). Während automatisierte Workflows am einfachsten für Anfänger zu verwenden sind, benötigen de novo Baugruppen eine Einschätzung und Betrachtung für jeden hier skizzierten Schritt. Darüber hinaus sind die Benutzer verpflichtet, automatisierte Pipelines zu verwenden, wie sie gebaut werden, und sind daher inhärent nicht flexibel, um den sich ändernden Anforderungen der Nutzer gerecht zu werden.
Da das meiste dieses Protokolls über das Internet ausgeführt wird, können Benutzer Probleme mit ihren Browsereinstellungen haben. Erstens,Pop-up-Blocker können Fenster von der Öffnung überhaupt halten, oder kann Fenster von der Öffnung halten, bis Erlaubnis zu CyVerse im Browser gegeben wird. Atmosphere verwendet VNC für den Zugriff auf Remote-Desktops, aber andere Software kann verwendet werden. Dieses gesamte Protokoll wurde in Firefox Version 45.0.2 durchgeführt und sollte mit allen gängigen Internetbrowsern arbeiten, aber einige Inkonsistenzen können auftreten. Der Workflow wird aktualisiert, da Trinity neue Versionen veröffentlicht (https://github.com/trinityrnaseq/trinityrnaseq/wiki). Die neuesten Versionen und aktuelle Informationen zum Workflow finden Sie auf der Wiki-Tutorialseite ( Tabelle 1 , https://wiki.cyverse.org/wiki/x/dgGtAQ). Benutzer können sich direkt an den Support wenden oder Fragen stellen bei Ask CyVerse (ask.cyverse.org/), um Probleme mit dem Workflow zu beheben.
In der DE gibt es mehrere Apps, um jeden Schritt dieses Protokolls zu erreichen. Zum Beispiel können Benutzer Scythe (https://github.com/najoshi/sickle) statt Trimmomatic ausführen15 zum Lesen von Trimmen oder Ausführen von EdgeR 16 anstelle von DESeq 17 , 18 . Obwohl außerhalb des Umfangs dieses Manuskripts können DE-Apps von Benutzern kopiert, bearbeitet und freigegeben werden (https://wiki.cyverse.org/wiki/display/DEmanual/Creating,+Copying,+and+Editing+DE+ Apps) oder neue Apps können von Benutzern hinzugefügt werden (https://wiki.cyverse.org/wiki/display/DEmanual/Dockerizing+Your+Tools+für+die+CyVerse+Discovery+Environment). Die Atmosphere-Bilder können auch modifiziert und neu erstellt werden, um neue oder geänderte Workflows zu erstellen, die den Bedürfnissen der Benutzer genauer entsprechen (https://wiki.cyverse.org/wiki/x/TwHX). Diese Arbeit dient als Einführung in die Nutzung der Kommandozeile, um Daten zu verschieben und Analysen durchzuführen. Benutzer können erwägen, erweiterte Befehlszeilenressourcen wie z. B. Cyverse Anwendungsprogrammierschnittstellen (APIs) (http://www.cyverse.org/science-apis) zu verwenden oder eigene DE-Anwendungen zu entwerfen, die Kenntnisse erfordernWie das Analyse-Tool auf der Kommandozeile ausgeführt wird (https://wiki.cyverse.org/wiki/display/DEmanual/Creating+a+New+App+Interface).
The authors have nothing to disclose.
The authors would like to acknowledge funding from USDA-NIFA grant 2013-00984, NSF grant IOS – 1339156, IOS – 1444490, and CyVerse (NSF: DBI – 1265383).
Trimmomatic v0.33 | USADELLAB.org | https://github.com/timflutre/trimmomatic | https://de.iplantcollaborative.org/de/?type=apps&app-id=9c2a30dc-028d-11e6-a915-ab4311791e69 |
Sickle | Joshi and Fass | https://github.com/najoshi/sickle | https://de.iplantcollaborative.org/de/?type=apps&app-id=68b278f8-d4d6-414d-9a64-b685a7714f7c |
Trinity | Broad Institute and Hebrew University of Jersalem | https://github.com/trinityrnaseq/trinityrnaseq/wiki | https://atmo.iplantcollaborative.org/application/images/1261 |
rnaQUAST v1.2.0 | Algorithmic Biology Lab, St. Petersburg Academic University of the Russian Academy of Sciences | http://spades.bioinf.spbau.ru/rnaquast/release1.2.0/manual.html | https://de.iplantcollaborative.org /de/?type=apps&app- id=980dd11a-1666-11e6-9122- 930ba8f23352 |
Transdecoder | Broad Institute and Commonwealth Scientific and Industrial Research Organisation | https://transdecoder.github.io | https://de.iplantcollaborative.org/de/?type=apps&app-id=5a0ba87e-b0fa-4994-92a2-0d48ee881179 |
EdgeR | Robinson et al. 2010. | https://bioconductor.org/packages/release/bioc/vignettes/edgeR/inst/doc/edgeR.pdf | https://de.iplantcollaborative.org/de/?type=apps&app-id=5aa9e294-6f95-42f9-98e9-c9c96b44f499 |
Trinotate | Broad Institute and Hebrew University of Jersalem | https://trinotate.github.io/ | https://atmo.iplantcollaborative.org/application/images/1261 |