This protocol outlines a comparative de novo transcriptome assembly and annotation workflow for novice bioinformaticians. The workflow is available for free entirely through CyVerse and connected by the Data Store. Command line and graphical user interfaces are used, but all code needed is available to copy and paste.
Met deze workflow kunnen beginnende onderzoekers gebruik maken van geavanceerde computergebruikers, zoals cloud computing, om pairwise comparative transcriptomics uit te voeren. Het dient ook als basis voor biologen om gegevensverwerkende computervaardigheden te ontwikkelen, bijvoorbeeld het uitvoeren van bash-commando's, visualisatie en beheer van grote datasets. Alle commando-code en verdere uitleg van elk commando of stap vindt u op de wiki ( https://wiki.cyverse.org/wiki/x/dgGtAQ ). De Discovery Environment en Atmosphere platforms zijn samen verbonden via de CyVerse Data Store. Als zodra de eerste ruwe sequencinggegevens zijn geüpload, hoeft u geen grote gegevensbestanden over een internetverbinding over te dragen, waardoor u de tijd nodig hebt om analyses uit te voeren. Dit protocol is ontworpen om slechts twee experimentele behandelingen of voorwaarden te analyseren. Differentiële genexpressie analyse wordt uitgevoerd thrMoeilijke pairwise vergelijkingen, en zal niet geschikt zijn om meerdere factoren te testen. Deze workflow is ook ontworpen om handmatig te zijn in plaats van geautomatiseerd. Elke stap moet worden uitgevoerd en onderzocht door de gebruiker, waardoor een beter inzicht wordt verkregen in data en analytische uitvoeringen, en dus betere resultaten voor de gebruiker. Eenmaal voltooid, zal dit protocol de gecombineerde transcriptome (s) voor onderverdiende (niet-model) organismen opleveren zonder dat er een kaart moet worden aangebracht op eerder samengestelde referentiegenomen (die gewoonlijk niet beschikbaar zijn in onderverdiend organisme). Deze de novo transcriptomen worden verder gebruikt in paarsvormige differentiële genuitdrukkingsanalyse om genen te onderzoeken die verschillen tussen twee experimentele omstandigheden. Differentiaal uitgedrukte genen worden vervolgens functioneel geannoteerd om te begrijpen dat de genetische responsorganismen de experimentele condities hebben. In totaal worden de gegevens afgeleid van dit protocol gebruikt om hypothesen over biologische reacties van onderbediende organismen te testen.
Homo sapiens en een aantal belangrijke diersoorten zoals Drosophila melanogaster , Mus musculus en Danio rerio vormen de meerderheid van het huidige en verleden functioneel genomics werk. De snel dalende kosten van high-throughput sequencing technologie bieden echter mogelijkheden voor functionele genomica in niet-model ( aka "neglected" of "underserved") diersoort 1 . Dit is een belangrijke overgang in genomics, omdat niet-modelorganismen vaak economisch relevante soorten vertegenwoordigen ( bijv. Oesters, garnalen, krab) en mogelijkheden bieden om nieuwe fenotypes en biologische systemen te onderzoeken buiten de omvang van die welke in modelvarianten voorkomen.
Hoewel onderverdeelde organismen een aantrekkelijke kans bieden om unieke biologische systemen te onderzoeken, komen verschillende uitdagingen in de gaten voor onderzoekers, vooral tijdens bioinformatische analyse. Sommige van deZie uitdagingen zijn ingewikkeld om grote datasets te verwerken, terwijl anderen het gevolg zijn van het gebrek aan genetische hulpbronnen die beschikbaar zijn voor onderzoekers die werkzaam zijn in onderbediende organismen, zoals een referentiegenoom, organisme-specifieke ontologieën, enz. De uitdagingen van nucleïnezuurisolatie en sequencing zijn vaak routine in Vergelijking met die van data analyse, en als zodanig blijken bioinformatische analyses meestal de meest onderschatte kosten van sequencing projecten 2 te zijn . Bijvoorbeeld, een basisvolgorde bioinformatische analyse van de volgende generatie kan bestaan uit de volgende stappen: kwaliteitsfiltrering en afsnijden van ruwe sequencing leest, samenstellen van korte leest in grotere aangrenzende stukken, en annotatie en / of vergelijkingen met andere systemen om biologisch begrip te krijgen. Hoewel dit werkstroomproces schijnbaar simpel is, vereist speciale kennis en berekeningsbronnen buiten de reikwijdte van een laboratoriumcomputer, waardoor het buiten bereik komt van veel wetenschappers die non-Model organismen.
Innate uitdagingen kunnen infrastructuur- of kennisgebaseerd zijn. Een klassieke infrastructuuruitdaging is toegang tot geschikte computermiddelen. Bijvoorbeeld, assemblage en annotatie berusten op computationeel intensieve algoritmen die krachtige computers of computerclusters nodig hebben, met een grote hoeveelheid RAM (256 GB-1 TB) en meerdere processors / kernen om te draaien. Helaas hebben veel onderzoekers ook geen toegang tot dergelijke computergebruikers of hebben ze niet de nodige kennis om met deze systemen te kunnen communiceren. Andere onderzoekers zouden toegang hebben tot high performance computing clusters via hun universiteiten of instellingen, maar de toegang tot deze bronnen kan beperkt zijn en resulteren soms in kosten per berekeningsuur, dat wil zeggen het aantal CPU-processors vermenigvuldigd met het aantal real-time klok Uren "dat die processors draaien. Levering van een cyberinfrastructuur systeem gefinancierd door de Amerikaanse National Science Foundation sZoals CyVerse 3, die gratis toegang biedt tot het berekenen van middelen voor onderzoekers, in de Verenigde Staten en over de hele wereld, kan helpen bij het verlichten van infrastructuuruitdagingen, zoals hier wordt aangetoond.
Een voorbeeld van een typische kennisgerichte uitdaging is het begrijpen van de software die nodig is voor volledige analyses. Om effectief een sequencing-based project uit te voeren, moeten onderzoekers bekend zijn met de talrijke software tools die zijn ontwikkeld voor bioinformatische analyses. Het leren van elk pakket is eigenlijk moeilijk, maar wordt verergerd door het feit dat pakketten voortdurend worden opgewaardeerd, herlezen, samengevoegd in nieuwe workflows en soms beperkt worden tot gebruik onder nieuwe licenties. Bovendien moet het koppelen van de ingangen en uitgangen van deze gereedschappen soms transformeren van datatypen om ze compatibel te maken en een ander hulpprogramma toe te voegen aan de workflow. Tenslotte is het ook moeilijk om te weten welk softwarepakket het isE best 'voor een analyse, en het vaak identificeren van de beste software voor bepaalde experimentele omstandigheden is een kwestie van subtiele verschillen. In sommige gevallen zijn handige recensies van software beschikbaar, maar als gevolg van de voortdurende release van nieuwe updates en software opties, gaan deze snel verouderd.
Voor onderzoekers die ondergedompelde organismen onderzoeken, komen deze aangeboren uitdagingen naast de uitdagingen in verband met het analyseren van gegevens in een nieuw organisme. Deze onderbestand organisme-specifieke uitdagingen worden het best geïllustreerd tijdens de genannotatie. Onderverdiende organismen hebben bijvoorbeeld vaak geen nauw verwant model organisme dat redelijkerwijs kan worden gebruikt om de genetische orthologie en functie te identificeren ( bijv. Mariene invertebraten en Drosophila ). Veel bioinformatische hulpmiddelen vereisen ook "training" om structurele motieven te identificeren, die kunnen worden gebruikt om de genfunctie te identificeren. Opleidingsgegevens zijn echter meestal alleen beschikbaar voor modEl-organismen, en het trainen van verborgen Markov-modellen (HMM's) ligt buiten het bereik van biologen, en zelfs veel bioinformatica. Ten slotte, ook al kunnen annotaties worden uitgevoerd met behulp van gegevens van modelorganismen, zijn sommige genontologieën verbonden aan modelorganismen niet zinvol wanneer de biologie en de natuurlijke geschiedenis van het onderverdeelde organisme worden overwogen ( bijv . Overdracht van informatie van Drosophila naar garnalen).
In het licht van deze uitdagingen moeten bioinformatische middelen worden ontwikkeld met onderzoekers die de novo- analyses uitvoeren op onderverdiende organismen die specifiek in gedachten zijn. De volgende jaren van functionele genomics sequencing projecten helpen bij het sluiten van de kloof tussen model en onderverdeelde organismen ( https://genome10k.soe.ucsc.edu/ ), maar er zijn veel tools die moeten worden ontwikkeld om de uitdagingen aan te pakken Hierboven beschouwd. CyVerse is gewijd aan het creëren van ecosystemen van iNteroperability door het koppelen van bestaande cyberinfrastructuur en applicaties van derden om data management, bioinformatische analyse tools en data visualisaties aan life scientists te leveren. Interoperabiliteit helpt om de overgangen tussen bioinformatische applicaties en platforms te vergemakkelijken door schaalbare computergebruiken te bieden, en omzettingen van bestandsformaten te beperken en de hoeveelheid gegevens die tussen platforms worden overgedragen. CyVerse biedt verschillende platforms, waaronder de Discovery Environment (DE 4 , Atmosphere 5 en de Data Store 3) . De DE is op internet gebaseerd en heeft veel algemene bioinformatica analytische tools omgezet in gebruiksvriendelijke point-and-click formaten (genaamd "apps ") En is de grafische gebruikersinterface (GUI) voor de Data Store waar grote datasets ( dat wil zeggen ruwe sequencing leest, samengevoegde genen) worden opgeslagen en beheerd. Atmosfeer is een cloud computing service die de onderzoekers verhoogde flexibiliteit voorMet behulp van computermiddelen van Virtual Machine, die een breed scala aan bioinformatica-instrumenten vooraf geïnstalleerd hebben. Beide platforms zijn gekoppeld aan de Data Store en kunnen samen worden gebruikt om workflows zoals hier beschreven te maken. Dit rapport concentreert zich op een de novo transcriptome assemblage en differentiële genexpressie analyse werkstromen, en behandelt verder enkele beste praktijken die verband houden met het ontwikkelen en uitvoeren van bioinformatische analyses. Een toelichting op de bredere missie van CyVerse ( http://www.cyverse.org/about ) en gedetailleerde platformbeschrijvingen ( http://www.cyverse.org/learning-center ) zijn publiekelijk beschikbaar. Alle analyses die hierin worden beschreven, gebruiken Discovery Environment 4 (DE) en Atmosphere 5 en worden op een manier gepresenteerd om ze toegankelijk te maken voor onderzoekers van alle computerniveaus. DE werkstromen en AtmosphEre beelden kunnen direct worden gebruikt met behulp van URL's om langlopende herkomst, herbruikbaarheid en reproduceerbaarheid te waarborgen.
Er zijn vijf kritische stappen in het protocol dat elk hun eigen aparte map in de hoofdprojectmap maken ( figuren 1 en 2 ). Al de primaire raw sequencing data is heilig: het moet worden geupload en bewaard in de eerste map genaamd "1_Raw_Sequence" en niet op enige manier veranderd. Gegevens kunnen op een van de drie manieren worden geüpload. De DE-interface kan worden gebruikt om bestanden direct te uploaden. Dit is de makkelijkste manier om gegevens te uploaden, maar ook de langste overdracht. Cyberduck heeft een grafische interface en stelt gebruikers in staat om bestanden te slepen en te laten vallen om naar de DE over te zetten. ICommands is een command line tool dat kan worden gebruikt om gegevens naar en van de Data Store over te zetten, directories te maken en data sets te beheren en is waarschijnlijk de snelste manier om gegevensbestanden over te dragen. Alle gegevens in de Data Store kunnen worden gedeeld met andere gebruikers van CyVerse (https://wiki.cyverse.org/wiki/display/Demanual/Sharing+Data+Files+and+Folders+Via+the+DiscoveRy + Milieu), openbaar gemaakt via een gegenereerde URL (https://wiki.cyverse.org/wiki/display/DEmanual/Sharing+Data+Files+Via+Public+Links), of kan worden gehost als publiek en anoniem ( Geen gebruikersnaam vereist) beschikbare gemeenschapgegevens (http://data.iplantcollaborative.org; http://mirrors.cyverse.org). Binnen die map worden de ruwe sequentie lezingen geanalyseerd met FastQC (http://www.bioinformatics.bbsrc.ac.uk/projects/fastqc/) om te beoordelen hoe u de lezers kunt snijden en filteren om lezers van hoge kwaliteit te genereren. Na het trimmen en kwaliteitsfiltreren is het handig om de FastQC-uitgangen te vergelijken om te bepalen of de leeskwaliteit is veranderd om te bepalen dat het beter is geworden, zonder informatie te verliezen ( Figuur 3 ). Houd er rekening mee dat de x-as van FastQC niet lineair is, maar eerder voor veel uitvoergrafieken komt, wat kan leiden tot verkeerde interpretatie van de resultaten. De getrimde en gefiltreerde lezingen worden dan gebruikt om de novo transcriptomen te assembleren met behulp van een Atmosphere Cloud computing-instantie. DezeCloud computer gebruikt het lokale computerscherm, toetsenbord en muis, maar heeft zijn eigen software (Trinity and Trinotate) en hardware geïnstalleerd. Running programma's op de cloud computer instantie beïnvloeden de lokale computer op geen enkele manier. De novo assemblage en downstream annotatie zijn waarschijnlijk de twee langste stappen in deze workflow. Daarom worden ze op Atmosfeer afgerond om gemeenschappelijke lab-gedeelde computerproblemen te vermijden die de analyse als stroomuitval zouden onderbreken, opnieuw starten na late nacht automatische updates of crashes veroorzaakt door andere gebruikers. Trinotaat annotatie gebruikt BLAST + 8 , HMMER 9 , tmHMM 10 en PFAM 11 . De uiteindelijke output van annotatie is een SQLite database en een .xls bestand. De uitgangen kunnen buiten CyVerse worden gebruikt in downstream analyse platforms zoals KEGG 12 , 13 .
Deze workflowIs klaar voor gebruik in de DE en Atmosphere. Dit elimineert de tijd om tijd te installeren, configureren en oplossen van elk analysepakket en alle afhankelijkheden die elk gereedschap nodig heeft. Dit stroomlijnt de analyses van onderzoekers, vermindert de moeite van de moeite en vermindert de toegangsbeperking voor veel wetenschappers. Deze workflow specificeert afzonderlijk of single-of paired-end leest van het Illumina sequencing platform, maar veel tools bestaan in de DE en Atmosphere om andere soorten sequencing technologieën te behandelen. Gereedschappen in deze workflow kunnen gemakkelijk vervangen worden door een bijbehorende alternatieve tool om elk type inkomende sequencing technologie te behandelen. Dit geldt ook voor nieuwe versies van analyse tools of helemaal nieuwe tools.
Deze workflow is speciaal ontworpen om slechts een paar transcriptomen tegelijk te monteren, te vergelijken en te annoteren. Daarom kunnen gebruikers het tijdrovend vinden om meerdere transcriptomen te assembleren voor vergelijkende populatiegenetica. AnalysePijpleidingen zullen in de nabije toekomst beschikbaar zijn voor populatiegenetica gebruikers en de link naar de pijpleiding is te vinden op de wiki pagina (https://wiki.cyverse.org/wiki/x/dgGtAQ). De differentiële genexpressie analyse stap kan replicaten behandelen, maar het is een pairwise vergelijking en zal niet meerdere factoren nauwkeurig beoordelen ( bijv . Omstandigheden die over de tijd verschillen, meer dan twee behandelingen). Geautomatiseerde workflows bestaan voor organismen met referentiegenomen ( bv . TRAPLINE 14 ). Terwijl geautomatiseerde workflows het makkelijkst zijn om voor beginners te gebruiken, hebben de novo assemblies de beoordeling en de overweging nodig voor elke hier beschreven stap. Daarnaast moeten gebruikers geautomatiseerde pijpleidingen gebruiken zoals ze zijn gebouwd, en zijn daarom inherent niet flexibel om aan de veranderende eisen van gebruikers te voldoen.
Aangezien het meeste van dit protocol via internet wordt uitgevoerd, kunnen gebruikers problemen ondervinden bij hun browserinstellingen. Ten eerste,Pop-upblokkers kunnen de ramen helemaal niet openen, of kunnen de ramen open houden totdat er toestemming is verleend voor CyVerse in de browser. Atmosfeer gebruikt VNC voor toegang tot externe desktops, maar andere software kan worden gebruikt. Dit gehele protocol is uitgevoerd in Firefox versie 45.0.2 en moet werken met alle populaire internet browsers, maar sommige inconsistenties kunnen verschijnen. De workflow wordt bijgewerkt als Trinity maakt nieuwe versies bekend (https://github.com/trinityrnaseq/trinityrnaseq/wiki). De nieuwste versies en actuele informatie over de workflow vindt u op de wiki-handleiding pagina ( Tabel 1 , https://wiki.cyverse.org/wiki/x/dgGtAQ). Gebruikers kunnen rechtstreeks contact opnemen met vragen of vragen stellen op Ask CyVerse (ask.cyverse.org/) om problemen op te lossen met de workflow.
In de DE bestaan er verschillende apps om elke stap van dit protocol te bereiken. Gebruikers kunnen bijvoorbeeld Scythe (https://github.com/najoshi/sickle) in plaats van Trimmomatic15 voor het lezen of EdgeR 16 in plaats van DESEQ 17 , 18 lezen . Hoewel buiten de reikwijdte van dit manuscript kunnen DE apps worden gekopieerd, bewerkt en vrijgegeven door gebruikers (https://wiki.cyverse.org/wiki/display/DEmanual/Creating,+Copying,+and+Editing+DE+ Apps) of nieuwe apps kunnen worden toegevoegd door gebruikers (https://wiki.cyverse.org/wiki/display/DEmanual/Dockerizing+Your+Tools+for+the+CyVerse+Discovery+Environment). De afbeeldingen van de atmosfeer kunnen ook aangepast en opnieuw worden aangepast om nieuwe of gewijzigde workflows te maken die specifiek op de behoeften van de gebruikers passen (https://wiki.cyverse.org/wiki/x/TwHX). Dit werk dient als een inleiding tot het gebruik van de opdrachtregel om gegevens te verplaatsen en analyses uit te voeren. Gebruikers kunnen overwegen gebruik te maken van meer geavanceerde commando bronnen zoals CyVerse Application Programming Interfaces (APIs) (http://www.cyverse.org/science-apis), of het ontwerpen van hun eigen DE apps, die kennis vereisenOver hoe het analyseapparaat wordt uitgevoerd op de opdrachtregel (https://wiki.cyverse.org/wiki/display/DEmanual/Creating+a+New+App+Interface).
The authors have nothing to disclose.
The authors would like to acknowledge funding from USDA-NIFA grant 2013-00984, NSF grant IOS – 1339156, IOS – 1444490, and CyVerse (NSF: DBI – 1265383).
Trimmomatic v0.33 | USADELLAB.org | https://github.com/timflutre/trimmomatic | https://de.iplantcollaborative.org/de/?type=apps&app-id=9c2a30dc-028d-11e6-a915-ab4311791e69 |
Sickle | Joshi and Fass | https://github.com/najoshi/sickle | https://de.iplantcollaborative.org/de/?type=apps&app-id=68b278f8-d4d6-414d-9a64-b685a7714f7c |
Trinity | Broad Institute and Hebrew University of Jersalem | https://github.com/trinityrnaseq/trinityrnaseq/wiki | https://atmo.iplantcollaborative.org/application/images/1261 |
rnaQUAST v1.2.0 | Algorithmic Biology Lab, St. Petersburg Academic University of the Russian Academy of Sciences | http://spades.bioinf.spbau.ru/rnaquast/release1.2.0/manual.html | https://de.iplantcollaborative.org /de/?type=apps&app- id=980dd11a-1666-11e6-9122- 930ba8f23352 |
Transdecoder | Broad Institute and Commonwealth Scientific and Industrial Research Organisation | https://transdecoder.github.io | https://de.iplantcollaborative.org/de/?type=apps&app-id=5a0ba87e-b0fa-4994-92a2-0d48ee881179 |
EdgeR | Robinson et al. 2010. | https://bioconductor.org/packages/release/bioc/vignettes/edgeR/inst/doc/edgeR.pdf | https://de.iplantcollaborative.org/de/?type=apps&app-id=5aa9e294-6f95-42f9-98e9-c9c96b44f499 |
Trinotate | Broad Institute and Hebrew University of Jersalem | https://trinotate.github.io/ | https://atmo.iplantcollaborative.org/application/images/1261 |