Summary

CyVerse Resources gebruiken voor<em> De Novo</em> Vergelijkende transcriptomics van onderverdiende (niet-model) organismen

Published: May 09, 2017
doi:

Summary

This protocol outlines a comparative de novo transcriptome assembly and annotation workflow for novice bioinformaticians. The workflow is available for free entirely through CyVerse and connected by the Data Store. Command line and graphical user interfaces are used, but all code needed is available to copy and paste.

Abstract

Met deze workflow kunnen beginnende onderzoekers gebruik maken van geavanceerde computergebruikers, zoals cloud computing, om pairwise comparative transcriptomics uit te voeren. Het dient ook als basis voor biologen om gegevensverwerkende computervaardigheden te ontwikkelen, bijvoorbeeld het uitvoeren van bash-commando's, visualisatie en beheer van grote datasets. Alle commando-code en verdere uitleg van elk commando of stap vindt u op de wiki ( https://wiki.cyverse.org/wiki/x/dgGtAQ ). De Discovery Environment en Atmosphere platforms zijn samen verbonden via de CyVerse Data Store. Als zodra de eerste ruwe sequencinggegevens zijn geüpload, hoeft u geen grote gegevensbestanden over een internetverbinding over te dragen, waardoor u de tijd nodig hebt om analyses uit te voeren. Dit protocol is ontworpen om slechts twee experimentele behandelingen of voorwaarden te analyseren. Differentiële genexpressie analyse wordt uitgevoerd thrMoeilijke pairwise vergelijkingen, en zal niet geschikt zijn om meerdere factoren te testen. Deze workflow is ook ontworpen om handmatig te zijn in plaats van geautomatiseerd. Elke stap moet worden uitgevoerd en onderzocht door de gebruiker, waardoor een beter inzicht wordt verkregen in data en analytische uitvoeringen, en dus betere resultaten voor de gebruiker. Eenmaal voltooid, zal dit protocol de gecombineerde transcriptome (s) voor onderverdiende (niet-model) organismen opleveren zonder dat er een kaart moet worden aangebracht op eerder samengestelde referentiegenomen (die gewoonlijk niet beschikbaar zijn in onderverdiend organisme). Deze de novo transcriptomen worden verder gebruikt in paarsvormige differentiële genuitdrukkingsanalyse om genen te onderzoeken die verschillen tussen twee experimentele omstandigheden. Differentiaal uitgedrukte genen worden vervolgens functioneel geannoteerd om te begrijpen dat de genetische responsorganismen de experimentele condities hebben. In totaal worden de gegevens afgeleid van dit protocol gebruikt om hypothesen over biologische reacties van onderbediende organismen te testen.

Introduction

Homo sapiens en een aantal belangrijke diersoorten zoals Drosophila melanogaster , Mus musculus en Danio rerio vormen de meerderheid van het huidige en verleden functioneel genomics werk. De snel dalende kosten van high-throughput sequencing technologie bieden echter mogelijkheden voor functionele genomica in niet-model ( aka "neglected" of "underserved") diersoort 1 . Dit is een belangrijke overgang in genomics, omdat niet-modelorganismen vaak economisch relevante soorten vertegenwoordigen ( bijv. Oesters, garnalen, krab) en mogelijkheden bieden om nieuwe fenotypes en biologische systemen te onderzoeken buiten de omvang van die welke in modelvarianten voorkomen.

Hoewel onderverdeelde organismen een aantrekkelijke kans bieden om unieke biologische systemen te onderzoeken, komen verschillende uitdagingen in de gaten voor onderzoekers, vooral tijdens bioinformatische analyse. Sommige van deZie uitdagingen zijn ingewikkeld om grote datasets te verwerken, terwijl anderen het gevolg zijn van het gebrek aan genetische hulpbronnen die beschikbaar zijn voor onderzoekers die werkzaam zijn in onderbediende organismen, zoals een referentiegenoom, organisme-specifieke ontologieën, enz. De uitdagingen van nucleïnezuurisolatie en sequencing zijn vaak routine in Vergelijking met die van data analyse, en als zodanig blijken bioinformatische analyses meestal de meest onderschatte kosten van sequencing projecten 2 te zijn . Bijvoorbeeld, een basisvolgorde bioinformatische analyse van de volgende generatie kan bestaan ​​uit de volgende stappen: kwaliteitsfiltrering en afsnijden van ruwe sequencing leest, samenstellen van korte leest in grotere aangrenzende stukken, en annotatie en / of vergelijkingen met andere systemen om biologisch begrip te krijgen. Hoewel dit werkstroomproces schijnbaar simpel is, vereist speciale kennis en berekeningsbronnen buiten de reikwijdte van een laboratoriumcomputer, waardoor het buiten bereik komt van veel wetenschappers die non-Model organismen.

Innate uitdagingen kunnen infrastructuur- of kennisgebaseerd zijn. Een klassieke infrastructuuruitdaging is toegang tot geschikte computermiddelen. Bijvoorbeeld, assemblage en annotatie berusten op computationeel intensieve algoritmen die krachtige computers of computerclusters nodig hebben, met een grote hoeveelheid RAM (256 GB-1 TB) en meerdere processors / kernen om te draaien. Helaas hebben veel onderzoekers ook geen toegang tot dergelijke computergebruikers of hebben ze niet de nodige kennis om met deze systemen te kunnen communiceren. Andere onderzoekers zouden toegang hebben tot high performance computing clusters via hun universiteiten of instellingen, maar de toegang tot deze bronnen kan beperkt zijn en resulteren soms in kosten per berekeningsuur, dat wil zeggen het aantal CPU-processors vermenigvuldigd met het aantal real-time klok Uren "dat die processors draaien. Levering van een cyberinfrastructuur systeem gefinancierd door de Amerikaanse National Science Foundation sZoals CyVerse 3, die gratis toegang biedt tot het berekenen van middelen voor onderzoekers, in de Verenigde Staten en over de hele wereld, kan helpen bij het verlichten van infrastructuuruitdagingen, zoals hier wordt aangetoond.

Een voorbeeld van een typische kennisgerichte uitdaging is het begrijpen van de software die nodig is voor volledige analyses. Om effectief een sequencing-based project uit te voeren, moeten onderzoekers bekend zijn met de talrijke software tools die zijn ontwikkeld voor bioinformatische analyses. Het leren van elk pakket is eigenlijk moeilijk, maar wordt verergerd door het feit dat pakketten voortdurend worden opgewaardeerd, herlezen, samengevoegd in nieuwe workflows en soms beperkt worden tot gebruik onder nieuwe licenties. Bovendien moet het koppelen van de ingangen en uitgangen van deze gereedschappen soms transformeren van datatypen om ze compatibel te maken en een ander hulpprogramma toe te voegen aan de workflow. Tenslotte is het ook moeilijk om te weten welk softwarepakket het isE best 'voor een analyse, en het vaak identificeren van de beste software voor bepaalde experimentele omstandigheden is een kwestie van subtiele verschillen. In sommige gevallen zijn handige recensies van software beschikbaar, maar als gevolg van de voortdurende release van nieuwe updates en software opties, gaan deze snel verouderd.

Voor onderzoekers die ondergedompelde organismen onderzoeken, komen deze aangeboren uitdagingen naast de uitdagingen in verband met het analyseren van gegevens in een nieuw organisme. Deze onderbestand organisme-specifieke uitdagingen worden het best geïllustreerd tijdens de genannotatie. Onderverdiende organismen hebben bijvoorbeeld vaak geen nauw verwant model organisme dat redelijkerwijs kan worden gebruikt om de genetische orthologie en functie te identificeren ( bijv. Mariene invertebraten en Drosophila ). Veel bioinformatische hulpmiddelen vereisen ook "training" om structurele motieven te identificeren, die kunnen worden gebruikt om de genfunctie te identificeren. Opleidingsgegevens zijn echter meestal alleen beschikbaar voor modEl-organismen, en het trainen van verborgen Markov-modellen (HMM's) ligt buiten het bereik van biologen, en zelfs veel bioinformatica. Ten slotte, ook al kunnen annotaties worden uitgevoerd met behulp van gegevens van modelorganismen, zijn sommige genontologieën verbonden aan modelorganismen niet zinvol wanneer de biologie en de natuurlijke geschiedenis van het onderverdeelde organisme worden overwogen ( bijv . Overdracht van informatie van Drosophila naar garnalen).

In het licht van deze uitdagingen moeten bioinformatische middelen worden ontwikkeld met onderzoekers die de novo- analyses uitvoeren op onderverdiende organismen die specifiek in gedachten zijn. De volgende jaren van functionele genomics sequencing projecten helpen bij het sluiten van de kloof tussen model en onderverdeelde organismen ( https://genome10k.soe.ucsc.edu/ ), maar er zijn veel tools die moeten worden ontwikkeld om de uitdagingen aan te pakken Hierboven beschouwd. CyVerse is gewijd aan het creëren van ecosystemen van iNteroperability door het koppelen van bestaande cyberinfrastructuur en applicaties van derden om data management, bioinformatische analyse tools en data visualisaties aan life scientists te leveren. Interoperabiliteit helpt om de overgangen tussen bioinformatische applicaties en platforms te vergemakkelijken door schaalbare computergebruiken te bieden, en omzettingen van bestandsformaten te beperken en de hoeveelheid gegevens die tussen platforms worden overgedragen. CyVerse biedt verschillende platforms, waaronder de Discovery Environment (DE 4 , Atmosphere 5 en de Data Store 3) . De DE is op internet gebaseerd en heeft veel algemene bioinformatica analytische tools omgezet in gebruiksvriendelijke point-and-click formaten (genaamd "apps ") En is de grafische gebruikersinterface (GUI) voor de Data Store waar grote datasets ( dat wil zeggen ruwe sequencing leest, samengevoegde genen) worden opgeslagen en beheerd. Atmosfeer is een cloud computing service die de onderzoekers verhoogde flexibiliteit voorMet behulp van computermiddelen van Virtual Machine, die een breed scala aan bioinformatica-instrumenten vooraf geïnstalleerd hebben. Beide platforms zijn gekoppeld aan de Data Store en kunnen samen worden gebruikt om workflows zoals hier beschreven te maken. Dit rapport concentreert zich op een de novo transcriptome assemblage en differentiële genexpressie analyse werkstromen, en behandelt verder enkele beste praktijken die verband houden met het ontwikkelen en uitvoeren van bioinformatische analyses. Een toelichting op de bredere missie van CyVerse ( http://www.cyverse.org/about ) en gedetailleerde platformbeschrijvingen ( http://www.cyverse.org/learning-center ) zijn publiekelijk beschikbaar. Alle analyses die hierin worden beschreven, gebruiken Discovery Environment 4 (DE) en Atmosphere 5 en worden op een manier gepresenteerd om ze toegankelijk te maken voor onderzoekers van alle computerniveaus. DE werkstromen en AtmosphEre beelden kunnen direct worden gebruikt met behulp van URL's om langlopende herkomst, herbruikbaarheid en reproduceerbaarheid te waarborgen.

Protocol

OPMERKING: Het algehele protocol is genummerd volgens mappen die worden gecreëerd en genoemd in stap 1.2 ( figuren 1 en 2 ). Dit protocol vertegenwoordigt een standaardvergelijkende de novo transcriptome analyse, en elke stap die hier gedetailleerd is, is mogelijk niet nodig voor alle onderzoekers. Deze workflow is grondig gedocumenteerd op een compilatiehandleiding wiki, die ook alle aanvullende bestanden bevat en links naar documenten van belangstelling voor 3 analysepartners voor elk analysepakket ( tabel 1 ). Links naar dit materiaal zullen door dit protocol worden opgenomen voor eenvoudige toegang tot deze informatie. Best practices zijn notities die worden verstrekt aan gebruikers als suggesties voor de beste manier om taken te verwezenlijken of om gebruikers te overwegen en te communiceren via notities in het protocol. Een map met voorbeeld data input en analytische output is publiekelijk beschikbaar voor gebruikers, en is georganiseerd zoals voorgesteld in het protocol ( de novo </Em> transcriptome assemblage en analyse. 1. Stel het project op, geef Rauwe Sequencing op, en lees Lees met behulp van FastQC Krijg toegang tot Atmosphere en de Discovery Environment. Vraag een gratis CyVerse account aan door naar de registratiepagina te navigeren (bijvoorbeeld person@institution.edu). Vul de vereiste informatie in en verstuur. Navigeer naar de hoofdwebpagina (http://www.cyverse.org/) en selecteer 'Aanmelden' in de bovenste werkbalk. Selecteer "Cyverse Login" en meld je aan met je CyVerse credentials. Navigeer naar het tabblad Apps & Services en vraag toegang tot Atmosfeer. Toegang tot de Discovery Environment wordt automatisch toegekend. Stel het project op en verplaats gegevens naar de Data Store. Log in bij de Discovery Environment (https://de.iplantcollaborative.org/de). Selecteer het tabblad 'Data' om een ​​menu op te roepen met alle mappen in de Data Store. </li> Maak een hoofdprojectmap waarin alle gegevens die bij het project zijn gekoppeld, zullen bevatten. Zoek de werkbalk boven in het gegevensvenster en selecteer Bestand | Nieuwe map. Gebruik geen spaties of speciale tekens in de mapnamen of invoer- / uitvoerbestandsnamen, bijvoorbeeld "! @ # () [] {}:; $% ^ & *." Gebruik in plaats daarvan onderstreepjes of streepjes, dwz "_" of "-" waar van toepassing. Maak vijf mappen in de hoofdprojectmap om analyses te organiseren. ( Figuur 1 ) Geef de volgende mappen aan zonder komma's of aanhalingstekens: "1_Raw_Sequence," "2_High_Quality_Sequence," "3_Assembly," "4_Differential_Expression," "5_Annotated_Assembly." Submappen worden in elk van deze hoofdprojectmappen geplaatst ( Figuur 2 ). Figuur1: Een algemeen overzicht van Project Folder Organization en de De Novo Transcriptome Assembly and Analysis Workflow. Gebruikers zullen ruwe sequencing uploaden, lezen in de hoofdprojectmap in de Data Store en vervolgens de resultaten van elke stap in aparte mappen plaatsen. Klik hier om een ​​grotere versie van deze figuur te bekijken. Figuur 2: Een gedetailleerd overzicht van de De Novo Transcriptome Assembly and Analysis Workflow die voorkomt binnen CyVerse Cyberinfrastructure. De volledige assemblage en analyse workflow wordt ingevuld in vijf stappen, die elk hun eigen map krijgen (bolded, genummerde map iconen). Elk van de vijf genummerde workflow-stapmappen heeft submappen die outputdata bevatten van bioinformatische analyses (mappictogrammen). Ingangen voor analyse komen uit een subfolder en verhuizen dan naar een andere map via de uitvoer van een analyseprogramma (rechthoekdozen). De laatste gegevens van de eerste drie stappen worden vergeleken en voorbereid voor publicatie. Uiteindelijk levert deze schema een hoofdprojectmap op die stapsgewijs analyseert voor medewerkers en / of manuscripters kunnen de werkstroom snel begrijpen en herhalen met behulp van elk bestand indien nodig. Klik hier om een ​​grotere versie van deze figuur te bekijken. Ruwe FASTQ sequentiebestanden uploaden in de map "1_Raw_Sequence" in een subfolder getiteld "A_Raw_Reads" met een van de volgende drie methoden. Gebruik de eenvoudige opslagfunctie van de Data Store om naar de werkbalk van de gegevensvenster te navigeren door op de gegevensknop in het hoofd DE-bureaublad te klikken en selecteer Upload | Eenvoudige upload vanaf het bureaublad. Selecteer de knop BladerenNavigeren naar de rauwe FASTQ sequencing bestanden op de lokale computer. Deze methode is alleen geschikt voor bestanden onder 2 GB. Selecteer de Upload knop onderaan het scherm om de upload in te dienen. Een melding zal in de rechterbovenhoek van de DE in het bellenpictogram worden geregistreerd dat de upload is ingediend. Een andere melding wordt geregistreerd wanneer de upload is voltooid. Als alternatief kunt u Cyberduck gebruiken om grotere bestanden over te brengen (https://wiki.cyverse.org/wiki/x/pYcVAQ). Installeer Cyberduck en voer vervolgens als programma op het desktop van de lokale computer. Ten slotte, download iCommands en installeer op de lokale computer volgens instructies (https://wiki.cyverse.org/wiki/display/DS/Using+iCommands). Beoordeel geüploade, rauwe sequencing lees met behulp van de FastQC app in de DE. Selecteer de knop 'Apps' op het hoofdbord van DE om een ​​venster te openen met alle analyseprogramma's die beschikbaar zijn in de DE. Zoek en open de winDow voor het FastQC tool in de zoekbalk bovenaan het raam. Open de multi-file versie als er meer dan één FASTQ bestand is. Selecteer Bestand | Nieuwe map om een ​​map te maken met de naam "B_FastQC_Raw_Reads" en selecteer deze map als de uitvoermap. Laad de FASTQ-gelezen bestanden in het gereedschapsvenster genaamd "Selecteer invoergegevens" en selecteer "Launch Analysis." Open het .html of .pdf bestand om de resultaten te zien zodra de analyse is voltooid. FastQC draait verschillende analyses die verschillende aspecten van de gelezen bestanden testen ( figuur 3 ). 2. Trim en Quality Filter Raw leest op het leveren van hoge kwaliteit sequentie Opmerking: Gebruik de Trimmomatic app of de Sickle app. Zoek naar de programmeerbare Trimmomatic app in de DE en open het als voorheen. Upload de map van rauwe FASTQ gelezen bestanden naar de sectie 'Instellingen'. Selecteer of de seUitbesteding van bestanden is single-of paired-end. Gebruik het standaardcontrolebestand dat wordt geleverd door de knop Bladeren te selecteren en in te vullen / iplant / home / shared / Trinity_transdecoder_trinotate_databases in het vak 'Viewing:'. Selecteer het bestand genaamd Trimmomaticv0.33_control_file en start de analyse. Het bestand kan worden gedownload, de instellingen worden bewerkt en vervolgens geüpload naar de tweede projectmap om een ​​aangepast snijschrift te maken. Optioneel: Als de FastQC-analyse de adaptersequenties identificeert, gebruikt u de ILLUMINACLIP-instelling om de Illumina-adapters te bekleden. Selecteer het juiste adapterbestand in de map / iplant / home / shared / Trinity_transdecoder_trinotate_databases zoals hierboven. Kwaliteit trimmen volgorde leest met behulp van Sickle. Zoek en open de Sickle app in de DE. Selecteer de bijgesneden FASTQ als de invoer leest, en wijzig de uitvoerbestanden opnieuw. Inclusief kwaliteitsinstellingen in de opties. Typische instellingen zijn kwaliteitsformaat: illumina, sanger, solexa; Kwaliteit tDrempelwaarde: 20; Minimale lengte: 50. Verplaats alle uitvoer naar de getrimde en gefilterde map (2_High_Quality_Sequence). Beoordeel de laatste lezingen met behulp van FastQC en vergelijk met vorige FastQC-rapporten. Selecteer het .html bestand om een ​​webpagina van alle resultaten op te halen. Selecteer de map van afbeeldingsbestanden (.png) die in de uitvoer worden geleverd als dat niet kan worden bekeken. 3. De Novo Transcriptome Assembly Met behulp van Trinity in Atmosphere Open de meest actuele versie van het Sample-voorbeeld door naar de wiki-pagina te gaan (https://wiki.cyverse.org/wiki/x/dgGtAQ). Selecteer de link voor de meest recente versie van de Trinity and Trinotate afbeelding. Alternatief, zoek "Trinotate" in het hulpprogramma voor het zoeken naar atmosfeer (https://atmo.iplantcollaborative.org/application/images) om alle versies van de Trinity and Trinotate-beelden op te roepen. Selecteer de knop 'Log in to launch' en geef de sfeer innstance. Selecteer een instantiegrootte van "medium3" (CPU: 4, Mem: 32GB) of "big3" (CPU: 8, Mem: 64 GB). Start het exemplaar en wacht op het bouwen. In sommige zeldzame gevallen ondergaat CyVerse onderhoud om platforms bij te werken. Bestaande instanties zijn beschikbaar tijdens deze updates, maar het is mogelijk dat er geen nieuwe gevallen kunnen worden gemaakt. Ga naar de pagina CyVerse Status om de huidige status van elk platform te zien (http://status.cyverse.org/). Open het exemplaar zodra het klaar is door op de naam te klikken en vervolgens "Remote Desktop" onderaan het menu aan de rechterkant te selecteren. Laat Java en VNC Viewer toe indien gevraagd. Selecteer de knop 'Verbinden' in het venster VNC Viewer en selecteer vervolgens 'Doorgaan'. Log in om een ​​apart venster te openen dat de nieuwe cloud computing-instantie zal zijn. Verplaats de opgesneden en / of gefilterde FASTQ-gelezen bestanden naar het voorbeeld met behulp van een van de drie methoden beschreven in stappen 1.3.1 – 1.3.4. OnsE de internet browser om toegang te krijgen tot de DE en download bestanden zoals eerder op de lokale computer. Of gebruik iCommands geïnstalleerd op deze afbeeldingen om grote datasets snel over te dragen. Running Trinity om hoge kwaliteit te verzamelen leest. Stel de analysemap op in het voorbeeld van Atmosphere. Gebruik het script dat beschikbaar is in de DE (/ iplant / home / shared / Trinity_transdecoder_trinotate_databases) of kopieer en plak de commando's van de wiki pagina (https://wiki.cyverse.org/wiki/x/dgGtAQ). Uitleg over alle commando's vindt u op de wiki pagina. Zodra de analysemap en de Trinotate databases zijn opgericht, voer de Trinity assembler uit met de bovenstaande commando's. Er zijn verschillende uitvoerbestanden, maar het belangrijkste is het definitieve montagebestand getiteld "Trinity.fasta." Hernoem dit FASTA bestand om uniek te zijn voor het organisme en de behandeling van de samengestelde leest voordat u het in de Data Store (folder 3_Assembly) verplaatst om mogelijke verwarring te minimaliseren. OPMERKING: Output telt tabellen voor differentiële genexpressie analyse in een map (4_Differential_Expression). Bepaal het montage met behulp van rnaQUAST ( Figuur 4 ). Verplaats de Trinity-uitvoerbestanden naar de folder "3_Assembly" in de DE en label de map "A_Trinity_de_novo_assembly." Geef elke transcriptoom die een subfolder in de map "A_Trinity_de_novo_assembly" is samengesteld met unieke namen, waaronder de wetenschappelijke naam van organismen en behandelingen die bij elke transcriptome zijn verbonden. Maak een andere submap genaamd "B_rnaQUAST_Output" in de map "3_Assembly." Open de app met de titel "rnaQUAST 1.2.0 (denovo based)" en noem de analyse en selecteer "B_rnaQUAST_Output" als de uitvoermap. Voeg de FASTA-bestand (en) van de de novo- montage toe aan het gedeelte 'Data Input'. Typ in het gedeelte 'Gegevensuitvoer' een unieke naam voor de de novo </eM> montage. Dit zal een map maken van rnaQUAST-uitvoerbestanden in de map 'B_rnaQUAST_Output'. Selecteer aanvullende opties in de secties "GenemarkS-T Gene Prediction", "BUSCO" en "Parameters". Selecteer prokaryoot in de sectie GenemarkS-T Gene Prediction als het organisme niet eukaryotisch is. Voer BUSCO uit om de bladerenknop te selecteren en kopieer de pad iplant / home / shared / iplantcollaborative / example_data / BUSCO.sample.data in het vak 'Viewing:' en druk op enter. Selecteer de meest specifieke BUSCO map die beschikbaar is voor het organisme. OPMERKING: BUSCO zal de assemblage beoordelen voor lijnspecifieke kerngenen en het uitvoeren van welk percentage kerngenen worden gevonden. Er zijn algemene mappen, bijvoorbeeld eukaryote, en meer specifieke stammen, bijv. Arthropoda. Zoek naar "Transcript decoder" en voer Transdecoder op de de novO Trinity assemblage output FASTA bestand in de Discovery Environment. Verplaats het output .pep bestand naar de de novo assemblage (3_Assembly) map voor gebruik in stap 5 Annotatie. 4. Pairwise Differentiële Expressie Met DESeq2 in de DE Open de DESeq2 app in de DE zoals eerder beschreven. Noem de analyse en selecteer de output map als 4_Differential_Expression. In het gedeelte 'Ingangen' selecteert u het tellenlijstbestand uit de Trinity-assemblage en de kolom die de contignamen in die tabel kunnen worden gevonden. Voer de kolomkoppen in van het tabelgegevensbestand tellen om te bepalen welke kolommen worden vergeleken. Inclusief de komma's tussen elk van de voorwaarden. Sluit niet de eerste kolomkop in die de contignamen bevat. Voor replicaten, herhaal dezelfde naam (bijvoorbeeld Behandeling1rep1, Behandeling1rep2, Behandeling1rep3 wordt Behandeling1, Behandeling1, Behandeling1). In thE tweede lijn, geef de namen van de twee voorwaarden te vergelijken ( bijv . Behandeling1, Behandeling2). Pas de naam van de kolomkop in die eerste regel aan. OPMERKING: Deze kolomkoppen moeten alfanumeriek zijn en mogen geen speciale tekens bevatten. 5. Annotatie met behulp van Trinotaat Run elk deel van Trinotate in de cloud computing-instantie van Atmosphere. Opmerking: Bash commando's worden geleverd in een txt bestand dat wordt gekopieerd, geplakt en vervolgens aangepast voordat u op de DE (/ iplant / home / shared / Trinity_transdecoder_trinotate_databases) of op de wiki pagina (https://wiki.cyverse.org/ wiki / x / dgGtAQ). Als u meerdere assemblies annotatieert, annuleer u elke assemblage een tegelijk en verzend dan de ingevulde annotatiebestanden terug naar de map "5_Annotation", elk met een unieke map die overeenkomt met de assemblage naam. Voer de opdracht bash uit om Trinity transcripts te zoeken. Verander het aantal draden om overeen te komen met hoeveel CPU's er zijnOp het exemplaar, dat wil zeggen medium heeft 4 CPU's en groot heeft 8 CPU's. Raadpleeg stap 3.1.2 voor meer details. Wijzig het commando Trinity.fasta om de FASTA-bestandsnaam van de montage overeen te stemmen. OPMERKING: BLAST + zoekopdrachten hebben de meeste tijd nodig. Het kan dagen zijn voordat het voltooid is. De cloud computer activiteit kan in Sfeer worden gecontroleerd zonder de VNC Viewer te laten zien. Voer het bash commando uit voor het zoeken naar Transdecoder-voorspelde eiwitten. Verander als voorheen het draadnummer en de bestandsnaam om aan de voorwaarden in 5.2.1 te voldoen. Voer het bash commando voor HMMER uit en verander het aantal draden zoals hierboven. Voer indien nodig het bash commando voor signaalP en tmHMM uit. SignalP zal signaalpeptiden voorspellen en tmHMM voorspelt transmembrane eiwitmotieven. Resultaten laden in de SQLite database Zodra alle bovenstaande analyses zijn voltooid, voer het bash commando om uitvoerbestanden te laden in een laatste SQLite annotatiedatabase. Verwijder eventuele opdrachtenVoor analyses die niet werden uitgevoerd. Exporteer de SQLite-database naar een .xls-bestand voor weergave in populaire tabelweergavers.

Representative Results

Zodra de projectorganisatiebestanden zijn aangemaakt ( Figuur 1 en 2 ), is de eerste taak in deze workflow om de ruwe sequencingbestanden te beoordelen en vervolgens te reinigen door te snijden en kwaliteitsfiltreren. FastQC zal menselijk leesbare samenvattingsstatistieken genereren over de kwaliteitsscore en lengte van sequenties uit het FASTQ bestandsformaat. De FastQC cijfers worden vervolgens vergeleken voor en na het snijden om te beoordelen of de uiteindelijke lezingen van hoge kwaliteit zijn en daarom geschikt zijn voor montage. "Per basisvolgorde kwaliteit" geeft de gemiddelde kwaliteit weer van elk basisparenvolgorde. Het is best om een ​​phred kwaliteitscore boven 20-28 te hebben, aangegeven door de kleuren op de FastQC cijfers. "Per sequentie kwaliteitsscore" bepaalt of kwaliteitseffecten van lezingen nodig kunnen zijn. Als er teveel leestjes een gemiddelde score hebben van minder dan 20-25, dan is het mogelijk om te filteren op basis van de gemiddelde lezekwaliteit. "Per basissequentie inhoud" zou een even verdeling over alle vier nucleotide bases moeten tonen. Als er een vooroordeel is in het nucleotide-gehalte, wordt weergegeven, dan kunnen afsnijdende uiteinden noodzakelijk zijn. "Per basis GC-inhoud moet ook gelijk zijn aan alle posities. Als er sprake is van een wobble, moet het mogelijk zijn dat de lezingen worden afgerond zoals in 1.4.4.3." Per sequentie GC-inhoud "moet een normale verdeling zijn. Adapter of polymerase kettingreactie (PCR ) Producten kunnen verontreiniging in de sequencing-bibliotheek en de normale distributie scheiden. In dit geval kan adapter trimming nodig zijn. "Sequence length distribution" geeft de gemiddelde lengte van alle lezingen. Lees minder dan 35-45 basisparen worden meestal gefilterd. "Sequence duplication levels" laten zien hoe vaak een sequentie van een bepaalde lezer binnen de bibliotheek wordt gezien. In de sectie "Oververtegenwoordigde sequenties" vindt u een veelvoudige leesbare volgorde en tellen. FastQC probeert ook te identificeren of het duplicaat leestZijn adapter sequentie of andere bekende sequenties geassocieerd met sequencing platforms. Een label van "No Hit" betekent dat de sequentie verder moet worden onderzocht met behulp van NCBI BLAST 6 om te bepalen of het een biologisch relevante sequentie is, of om het te verwijderen. De DE heeft ook verschillende versies van BLAST beschikbaar. De DE BLASTn app is beschikbaar op: https://de.iplantcollaborative.org/de/?type=apps&amp;app-id=6f94cc92-6d28-45c6-aef1-036be697671d . Nadat ruwe sequencing is gescreend om hoogwaardige lezingen te produceren, moeten de lezingen worden samengesteld om samenhangende sequenties te maken (contigs). Kortom, samenstellingen worden gecreëerd door het aanpassen van alle korte sequenties leest om vergelijkbare sequenties te vinden. Gebieden met een soortgelijke sequentie groter dan een bepaalde lengte worden beschouwd als de saMij ​​volgorde omdat de kans op een willekeurig voorkomende soortgelijke sequentie van een bepaalde lengte bijna nul is. Trinity zal logbestanden, vaste bestanden voor elke stap in het assemblageproces uitvoeren. De belangrijkste uitvoer is echter het uiteindelijke montagebestand dat de contigs bevat, die "Trinity.fasta" is en in de hoofdmap staat. Dit bestand bevat alle gemonteerde contigs, en op zichzelf is het niet praktisch 'menselijk leesbaar'. Daarom kan het rnaQUAST-gereedschap gebruikt worden om de montage grondiger te begrijpen. Het rnaQUAST-gereedschap geeft cijfers af waarmee gebruikers de samenstellingen kunnen vergelijken om te bepalen wat het meest compleet is ( figuur 4 ). Aanvullende informatie over elk cijfer uit rnaQUAST vindt u op de wiki ( https://wiki.cyverse.org/wiki/x/fwuEAQ ). Als BUSCO 7 werd uitgevoerd, is het van bijzonder belang het specificity.txt bestand dat het aantal complete en p. ToontArtiale BUSCO genen en het aantal GeneMarkS-T gen voorspellingen in een assemblage. BUSCO genen zijn een gecorateerde reeks genen die gemeenschappelijk zijn voor een groep organismen. Ze kunnen worden gebruikt om te beoordelen hoe goed een assemblage vastleggingen van genen vastlegt die naar verwachting aanwezig zullen zijn in een bepaald type organisme, dat gebaseerd is op filogenetische clades. Een zelfstandige BUSCO app is ook beschikbaar in de DE ( https://de.iplantcollaborative.org/de/?type=apps&amp;app-id=112b8a52-efd8-11e5-a15c-277125fcb1b1 ). Differentiële genexpressie analyse identificeert transcripten die verschillende patronen van expressie hebben over behandelingen van eenvoudige tellingen per samengestelde transcriptietabellen. DESeq2 gebruikt een genormaliseerd lineair model (GLM) om variatie van een genormaliseerde gemiddelde te bepalen. Experimenten met replicaten hebben de voorkeur, zodat technische variatie frOm sequentie kan worden genormaliseerd door het DESeq2 algoritme. DESeq2 DEG analyse geeft cijfers en een .html rapport bestand dat alle output cijfers en een beschrijving bevat. Alternatief kan EdgeR worden gebruikt in plaats van DESeq2, en hetzelfde .html rapport wordt gegenereerd met EdgeR visualisaties in plaats daarvan. Onderzoekers zouden wellicht zowel DESeq2 als EdgeR willen gebruiken om differentieel uitgedrukte genen te vinden die door beide algoritmen geïdentificeerd zijn voor elk gegeven experiment. Trinotate maakt een output .xls bestand dat kan worden geopend in elk spreadsheet software programma. De DEG .txt bestanden en het annotatie .xls bestand kunnen worden geanalyseerd en weergegeven in tal van downstream toepassingen die buiten het CyVerse platform bestaan. Figuur 3: FastQC Rapporten van Raw Sequencing Lees, Afgesneden Reads, en Final Trimmed en Gefilterde Reads. Systematische vergelijking van sequencing lezenS na elke voorverwerkingsstap. Hoge kwaliteit lezen is nodig om de novo transcriptomen te monteren. FastQC kan onderzoekers helpen om de oorspronkelijke kwaliteit van hun sequencing data te begrijpen en te volgen hoe efficiënt de lezingen zijn voorverwerkt. Resultaten van FastQC zullen afhankelijk zijn van de organismen en de monsters worden sequenced, maar gelijkmatigheid over alle monsters die stroomafwaarts vergeleken wordt, is het primaire doel van voorverwerkende leest. Een handleiding video en documentatie zijn beschikbaar bij de auteurs en ontwikkelaars van FastQC. Klik hier om een ​​grotere versie van deze figuur te bekijken. Figuur 4: RNAQUAST Rapporten van drie afzonderlijke vergaderingen. RnaQUAST kan gebruikt worden om meerdere leesstukken te vergelijken met dezelfde assembler of meerdere a Ssemblers gebruiken dezelfde initiële leest. RnaQUAST maakt gebruik van BUSCO om samenvattende statistieken te genereren over samenstellingen op basis van bekende kerngenen die in taxonomische clades aanwezig zijn. Het aantal mismatches per transcript en hoeveel transcripties stemmen overeen met kanonieke genen, bijpassende fractie, geven inzicht in de nauwkeurigheid van assemblers. De laatste vier subplots die hier worden gepresenteerd, geven samenvattende statistieken van contig en isoform lengte en de dekking van de verwachte isoforms. NAx vertegenwoordigt het percentage (x) van contigs met een lengte langer dan de lengte (bp) op de y-as. Gemonteerde fractie is het langste single-assembled transcript gedeeld door zijn lengte. Gedekte fractie is het percentage complete transcripten / isoformen zoals verwacht door de kern prokaryotische of eukaryotische genen uit BUSCO. Een beschrijving van alle grafieken die gegenereerd worden door rnaQUAST is beschikbaar ( https://wiki.cyverse.org/wiki/x/fwuEAQ ).09 / 55009fig4large.jpg "target =" _ blank "> Klik hier om een ​​grotere versie van deze figuur te zien. Applicatie naam CyVerse Platform Documentatie van derden CyVerse Documentatie Geschatte Runtime voor Sample Data Set Link naar App FastQC DE http: //www.bioinformatics. Babraham.ac.uk/projects/fastqc/ https://www.youtube.com/watch?v=bz93ReOv87Y https://wiki.cyverse.org/wiki/pages/viewpage.action?pageId=9316768 15 minuten https: //de.iplantcollaborative. org / de /? type = apps en app-id = 112b9aa8-c4a7-11e5-8209- 5f3310948295 Trimmomatic v0.33 DE https://github.com/timflutre/trimmomatic https://wiki.cyverse.org/wiki/display/DEapps/Trimmomatic-programmable-0.33 30 minuten https: //de.iplantcollaborative. org / de /? type = apps en app-id = 9c2a30dc-028d- 11e6-A915-ab4311791e69 Sikkel DE https://github.com/najoshi/sickle https://wiki.cyverse.org/wiki/display/DEapps/Sickle-quality-based-trimming 30 minuten https: //de.iplantcollaborative. org / de /? type = apps en app-id = 68b278f8-d4d6-414d-9a64-b685a7714f7c Drievuldigheid Atmosfeer https://github.com/trinityrnaseq/trinityrnaseq/wiki https: //pods.iplantcollaborative. org / wiki / display / atmman / Trinity + – + Trinotate + Sfeer + Afbeelding 1 week https: //atmo.iplantcollaborative. org / application / images / 1261 DE https://wiki.cyverse.org/wiki/display/DEapps/Trinity-64GB-2.1.1 2-5 dagen https: // wiki.cyverse.org/wiki/display/DEapps/Trinity-64GB-2.1.1 RnaQUAST v1.2.0 DE, Atmosfeer http://spades.bioinf.spbau.ru/rnaquast/release1.2.0/manual.html https: //pods.iplantcollaborative. org / wiki / display / TUT / rnaQUAST + 1.2.0 +% 28denovo + gebaseerd% 29 + met + DE 30 minuten https: //de.iplantcollaborative. org / de /? type = apps en app-id = 980dd11a-1666- 11e6-9122-930 ba8f23352 Transdecoder DE https://transdecoder.github.io https://wiki.cyverse.org/wiki/display/DEapps/Transcript+decoder+2.0 2-3 uur https: //de.iplantcollaborative. org / de /? type = apps en app-id = 5a0ba87e-b0fa-4994-92a2- 0d48ee881179 DESeq2 DE https://bioconductor.org/packages/release/bioc/html/DESeq2.html https: //pods.iplantcollaborative. org / wiki / pages /viewpage.action? PageId = 28115142 2-3 uur https: //de.iplantcollaborative. org / de /? type = apps en app-id = 9574e87c-4f90- 11e6-a594-008 cfa5ae621 Edger DE https://bioconductor.org/packages/release/bioc/vignettes/edgeR/inst/doc/edgeR.pdf https://wiki.cyverse.org/wiki/pages/viewpage.action?pageId=28115144 2-3 uur https: //de.iplantcollaborative. org / de /? type = apps en app-id = 4a08ceda-54fe- 11e6-862f-008 cfa5ae621 Trinotate Atmosfeer https://trinotate.github.io/ https: //pods.iplantcollaborative. org / wiki / display / atmman / Trinity + – + Trinotate + Sfeer + Afbeelding 1 week https: //atmo.iplantcollaborative. org / application / images / 1261 Tabel 1: Analyseprogramma's, Platforms waar ze beschikbaar zijn op, aEn aanvullende middelen beschikbaar voor de Workflows in volgorde van eerste verschijning. Alle pakketversies zijn van kracht vanaf april 2016.

Discussion

Er zijn vijf kritische stappen in het protocol dat elk hun eigen aparte map in de hoofdprojectmap maken ( figuren 1 en 2 ). Al de primaire raw sequencing data is heilig: het moet worden geupload en bewaard in de eerste map genaamd "1_Raw_Sequence" en niet op enige manier veranderd. Gegevens kunnen op een van de drie manieren worden geüpload. De DE-interface kan worden gebruikt om bestanden direct te uploaden. Dit is de makkelijkste manier om gegevens te uploaden, maar ook de langste overdracht. Cyberduck heeft een grafische interface en stelt gebruikers in staat om bestanden te slepen en te laten vallen om naar de DE over te zetten. ICommands is een command line tool dat kan worden gebruikt om gegevens naar en van de Data Store over te zetten, directories te maken en data sets te beheren en is waarschijnlijk de snelste manier om gegevensbestanden over te dragen. Alle gegevens in de Data Store kunnen worden gedeeld met andere gebruikers van CyVerse (https://wiki.cyverse.org/wiki/display/Demanual/Sharing+Data+Files+and+Folders+Via+the+DiscoveRy + Milieu), openbaar gemaakt via een gegenereerde URL (https://wiki.cyverse.org/wiki/display/DEmanual/Sharing+Data+Files+Via+Public+Links), of kan worden gehost als publiek en anoniem ( Geen gebruikersnaam vereist) beschikbare gemeenschapgegevens (http://data.iplantcollaborative.org; http://mirrors.cyverse.org). Binnen die map worden de ruwe sequentie lezingen geanalyseerd met FastQC (http://www.bioinformatics.bbsrc.ac.uk/projects/fastqc/) om te beoordelen hoe u de lezers kunt snijden en filteren om lezers van hoge kwaliteit te genereren. Na het trimmen en kwaliteitsfiltreren is het handig om de FastQC-uitgangen te vergelijken om te bepalen of de leeskwaliteit is veranderd om te bepalen dat het beter is geworden, zonder informatie te verliezen ( Figuur 3 ). Houd er rekening mee dat de x-as van FastQC niet lineair is, maar eerder voor veel uitvoergrafieken komt, wat kan leiden tot verkeerde interpretatie van de resultaten. De getrimde en gefiltreerde lezingen worden dan gebruikt om de novo transcriptomen te assembleren met behulp van een Atmosphere Cloud computing-instantie. DezeCloud computer gebruikt het lokale computerscherm, toetsenbord en muis, maar heeft zijn eigen software (Trinity and Trinotate) en hardware geïnstalleerd. Running programma's op de cloud computer instantie beïnvloeden de lokale computer op geen enkele manier. De novo assemblage en downstream annotatie zijn waarschijnlijk de twee langste stappen in deze workflow. Daarom worden ze op Atmosfeer afgerond om gemeenschappelijke lab-gedeelde computerproblemen te vermijden die de analyse als stroomuitval zouden onderbreken, opnieuw starten na late nacht automatische updates of crashes veroorzaakt door andere gebruikers. Trinotaat annotatie gebruikt BLAST + 8 , HMMER 9 , tmHMM 10 en PFAM 11 . De uiteindelijke output van annotatie is een SQLite database en een .xls bestand. De uitgangen kunnen buiten CyVerse worden gebruikt in downstream analyse platforms zoals KEGG 12 , 13 .

Deze workflowIs klaar voor gebruik in de DE en Atmosphere. Dit elimineert de tijd om tijd te installeren, configureren en oplossen van elk analysepakket en alle afhankelijkheden die elk gereedschap nodig heeft. Dit stroomlijnt de analyses van onderzoekers, vermindert de moeite van de moeite en vermindert de toegangsbeperking voor veel wetenschappers. Deze workflow specificeert afzonderlijk of single-of paired-end leest van het Illumina sequencing platform, maar veel tools bestaan ​​in de DE en Atmosphere om andere soorten sequencing technologieën te behandelen. Gereedschappen in deze workflow kunnen gemakkelijk vervangen worden door een bijbehorende alternatieve tool om elk type inkomende sequencing technologie te behandelen. Dit geldt ook voor nieuwe versies van analyse tools of helemaal nieuwe tools.

Deze workflow is speciaal ontworpen om slechts een paar transcriptomen tegelijk te monteren, te vergelijken en te annoteren. Daarom kunnen gebruikers het tijdrovend vinden om meerdere transcriptomen te assembleren voor vergelijkende populatiegenetica. AnalysePijpleidingen zullen in de nabije toekomst beschikbaar zijn voor populatiegenetica gebruikers en de link naar de pijpleiding is te vinden op de wiki pagina (https://wiki.cyverse.org/wiki/x/dgGtAQ). De differentiële genexpressie analyse stap kan replicaten behandelen, maar het is een pairwise vergelijking en zal niet meerdere factoren nauwkeurig beoordelen ( bijv . Omstandigheden die over de tijd verschillen, meer dan twee behandelingen). Geautomatiseerde workflows bestaan ​​voor organismen met referentiegenomen ( bv . TRAPLINE 14 ). Terwijl geautomatiseerde workflows het makkelijkst zijn om voor beginners te gebruiken, hebben de novo assemblies de beoordeling en de overweging nodig voor elke hier beschreven stap. Daarnaast moeten gebruikers geautomatiseerde pijpleidingen gebruiken zoals ze zijn gebouwd, en zijn daarom inherent niet flexibel om aan de veranderende eisen van gebruikers te voldoen.

Aangezien het meeste van dit protocol via internet wordt uitgevoerd, kunnen gebruikers problemen ondervinden bij hun browserinstellingen. Ten eerste,Pop-upblokkers kunnen de ramen helemaal niet openen, of kunnen de ramen open houden totdat er toestemming is verleend voor CyVerse in de browser. Atmosfeer gebruikt VNC voor toegang tot externe desktops, maar andere software kan worden gebruikt. Dit gehele protocol is uitgevoerd in Firefox versie 45.0.2 en moet werken met alle populaire internet browsers, maar sommige inconsistenties kunnen verschijnen. De workflow wordt bijgewerkt als Trinity maakt nieuwe versies bekend (https://github.com/trinityrnaseq/trinityrnaseq/wiki). De nieuwste versies en actuele informatie over de workflow vindt u op de wiki-handleiding pagina ( Tabel 1 , https://wiki.cyverse.org/wiki/x/dgGtAQ). Gebruikers kunnen rechtstreeks contact opnemen met vragen of vragen stellen op Ask CyVerse (ask.cyverse.org/) om problemen op te lossen met de workflow.

In de DE bestaan ​​er verschillende apps om elke stap van dit protocol te bereiken. Gebruikers kunnen bijvoorbeeld Scythe (https://github.com/najoshi/sickle) in plaats van Trimmomatic15 voor het lezen of EdgeR 16 in plaats van DESEQ 17 , 18 lezen . Hoewel buiten de reikwijdte van dit manuscript kunnen DE apps worden gekopieerd, bewerkt en vrijgegeven door gebruikers (https://wiki.cyverse.org/wiki/display/DEmanual/Creating,+Copying,+and+Editing+DE+ Apps) of nieuwe apps kunnen worden toegevoegd door gebruikers (https://wiki.cyverse.org/wiki/display/DEmanual/Dockerizing+Your+Tools+for+the+CyVerse+Discovery+Environment). De afbeeldingen van de atmosfeer kunnen ook aangepast en opnieuw worden aangepast om nieuwe of gewijzigde workflows te maken die specifiek op de behoeften van de gebruikers passen (https://wiki.cyverse.org/wiki/x/TwHX). Dit werk dient als een inleiding tot het gebruik van de opdrachtregel om gegevens te verplaatsen en analyses uit te voeren. Gebruikers kunnen overwegen gebruik te maken van meer geavanceerde commando bronnen zoals CyVerse Application Programming Interfaces (APIs) (http://www.cyverse.org/science-apis), of het ontwerpen van hun eigen DE apps, die kennis vereisenOver hoe het analyseapparaat wordt uitgevoerd op de opdrachtregel (https://wiki.cyverse.org/wiki/display/DEmanual/Creating+a+New+App+Interface).

Disclosures

The authors have nothing to disclose.

Acknowledgements

The authors would like to acknowledge funding from USDA-NIFA grant 2013-00984, NSF grant IOS – 1339156, IOS – 1444490, and CyVerse (NSF: DBI – 1265383).

Materials

Trimmomatic v0.33 USADELLAB.org https://github.com/timflutre/trimmomatic https://de.iplantcollaborative.org/de/?type=apps&app-id=9c2a30dc-028d-11e6-a915-ab4311791e69
Sickle Joshi and Fass https://github.com/najoshi/sickle https://de.iplantcollaborative.org/de/?type=apps&app-id=68b278f8-d4d6-414d-9a64-b685a7714f7c
Trinity Broad Institute and Hebrew University of Jersalem https://github.com/trinityrnaseq/trinityrnaseq/wiki https://atmo.iplantcollaborative.org/application/images/1261
rnaQUAST v1.2.0 Algorithmic Biology Lab, St. Petersburg Academic University of the Russian Academy of Sciences http://spades.bioinf.spbau.ru/rnaquast/release1.2.0/manual.html https://de.iplantcollaborative.org
/de/?type=apps&app-
id=980dd11a-1666-11e6-9122-
930ba8f23352
Transdecoder Broad Institute and Commonwealth Scientific and Industrial Research Organisation https://transdecoder.github.io https://de.iplantcollaborative.org/de/?type=apps&app-id=5a0ba87e-b0fa-4994-92a2-0d48ee881179
EdgeR Robinson et al. 2010. https://bioconductor.org/packages/release/bioc/vignettes/edgeR/inst/doc/edgeR.pdf https://de.iplantcollaborative.org/de/?type=apps&app-id=5aa9e294-6f95-42f9-98e9-c9c96b44f499
Trinotate Broad Institute and Hebrew University of Jersalem https://trinotate.github.io/ https://atmo.iplantcollaborative.org/application/images/1261

References

  1. Hasselmann, M., Ferretti, L., Zayed, A. Beyond fruit-flies: population genomic advances in non-Drosophila arthropods. Brief. Funct. Genomics. 14 (6), 424-431 (2015).
  2. Scholz, M. B., Lo, C. -. C., Chain, P. S. Next generation sequencing and bioinformatic bottlenecks: the current state of metagenomic data analysis. Anal. Biotech. 23 (1), 9-15 (2012).
  3. Merchant, N., et al. The iPlant Collaborative: Cyberinfrastructure for Enabling Data to Discovery for the Life Sciences. PLoS Biol. 14 (1), e1002342 (2016).
  4. Oliver, S. L., Lenards, A. J., Barthelson, R. A., Merchant, N., McKay, S. J. Using the iPlant collaborative discovery environment. Cur. Protoc. Bioinformatics. , 1-22 (2013).
  5. Skidmore, E., Kim, S., Kuchimanchi, S., Singaram, S., Merchant, N., Stanzione, D. iPlant atmosphere: a gateway to cloud infrastructure for the plant sciences. Proc. 2011 ACM. , 59-64 (2011).
  6. Altschul, S. F., Gish, W., Miller, W., Myers, E. W., Lipman, D. J. Basic local alignment search tool. J. Mol. Bio. 215 (3), 403-410 (1990).
  7. Simão, F. A., Waterhouse, R. M., Ioannidis, P., Kriventseva, E. V., Zdobnov, E. M. BUSCO: assessing genome assembly and annotation completeness with single-copy orthologs. Bioinformatics. , (2015).
  8. Camacho, C., et al. BLAST+: architecture and applications. BMC Bioinformatics. 10, 421 (2009).
  9. Eddy, S. R. Profile hidden Markov models. Bioinformatics. 14 (9), 755-763 (1998).
  10. Krogh, A., Larsson, B., von Heijne, G., Sonnhammer, E. L. Predicting transmembrane protein topology with a hidden markov model: application to complete genomes. J. Mol. Biol. 305 (3), 567-580 (2001).
  11. Finn, R. D., Coggill, P., et al. The Pfam protein families database: towards a more sustainable future. Nucleic Acids Res. 44 (D1), D279-D285 (2016).
  12. Kanehisa, M., Sato, Y., Kawashima, M., Furumichi, M., Tanabe, M. KEGG as a reference resource for gene and protein annotation. Nucleic Acids Res. 44 (D1), D457-D462 (2016).
  13. Kanehisa, M., Goto, S. KEGG: Kyoto Encyclopedia of Genes and Genomes. Nucleic Acids Res. 28 (1), 27-30 (2000).
  14. Wolfien, M., et al. TRAPLINE: a standardized and automated pipeline for RNA sequencing data analysis, evaluation and annotation. BMC Bioinformatics. 17, 21 (2016).
  15. Bolger, A. M., Lohse, M., Usadel, B. Trimmomatic: a flexible trimmer for Illumina sequence data. Bioinformatics. 30 (15), 2114-2120 (2014).
  16. Robinson, M. D., McCarthy, D. J., Smyth, G. K. edgeR: a Bioconductor package for differential expression analysis of digital gene expression data. Bioinformatics. 26 (1), 139-140 (2010).
  17. Anders, S. Analysing RNA-Seq data with the DESeq package. Mol. Biol. 43 (4), 1-17 (2010).
  18. Love, M. I., Huber, W., Anders, S. Moderated estimation of fold change and dispersion for RNA-seq data with DESeq2. Genome Bio. 15 (12), 1-21 (2014).

Play Video

Cite This Article
Joyce, B. L., Haug-Baltzell, A. K., Hulvey, J. P., McCarthy, F., Devisetty, U. K., Lyons, E. Leveraging CyVerse Resources for De Novo Comparative Transcriptomics of Underserved (Non-model) Organisms. J. Vis. Exp. (123), e55009, doi:10.3791/55009 (2017).

View Video