This protocol outlines a comparative de novo transcriptome assembly and annotation workflow for novice bioinformaticians. The workflow is available for free entirely through CyVerse and connected by the Data Store. Command line and graphical user interfaces are used, but all code needed is available to copy and paste.
Ce flux de travail permet aux chercheurs débutants d'exploiter des ressources informatiques avancées telles que le cloud computing pour effectuer des transcriptomies comparatives par paires. Il sert également de base pour que les biologistes développent des compétences informatiques scientifiques, par exemple en exécutant des commandes bash, la visualisation et la gestion de grands ensembles de données. Tout le code de la ligne de commande et d'autres explications de chaque commande ou étape peuvent être trouvés sur le wiki ( https://wiki.cyverse.org/wiki/x/dgGtAQ ). Les plates-formes Discovery Environment et Atmosphere sont reliées entre elles via le CyVerse Data Store. En tant que tel, une fois que les données de séquençage brutes initiales ont été téléchargées, il n'est plus nécessaire de transférer de gros fichiers de données sur une connexion Internet, en minimisant le temps nécessaire à la réalisation d'analyses. Ce protocole est conçu pour analyser seulement deux traitements ou conditions expérimentales. L'analyse différentielle de l'expression des gènes est conduiteComparaisons par paires, et ne sera pas approprié pour tester de multiples facteurs. Ce flux de travail est également conçu pour être manuel plutôt que automatisé. Chaque étape doit être exécutée et étudiée par l'utilisateur, ce qui donne une meilleure compréhension des données et des résultats analytiques, et donc de meilleurs résultats pour l'utilisateur. Une fois terminé, ce protocole produira des transcriptomes assemblés de novo pour les organismes mal desservis (sans modèle) sans avoir à cartographier les génomes de référence préalablement assemblés (qui ne sont généralement pas disponibles dans un organisme mal desservi). Ces transcriptomes de novo sont encore utilisés dans l'analyse différentielle de l'expression des gènes par paires pour étudier les gènes qui diffèrent entre deux conditions expérimentales. Les gènes exprimés de façon différentielle sont ensuite fonctionnellement annotés pour comprendre les organismes de réponse génétique qui ont des conditions expérimentales. Au total, les données dérivées de ce protocole sont utilisées pour tester des hypothèses sur les réponses biologiques des organismes mal desservis.
Homo sapiens et plusieurs espèces d'animaux modèles clés tels que Drosophila melanogaster , Mus musculus et Danio rerio représentent la majorité du travail de génomique fonctionnel actuel et passé. Cependant, le coût en baisse rapide de la technologie de séquençage à haut débit fournit des possibilités de génomique fonctionnelle dans les espèces animales non-modèles ( aka "négligées" ou "mal desservies" 1) . Il s'agit d'une transition importante dans la génomique car les organismes non-modèles représentent fréquemment des espèces économiquement pertinentes ( p. Ex. Les huîtres, les crevettes, le crabe) et offrent des possibilités d'enquêter sur de nouveaux phénotypes et des systèmes biologiques en dehors de la portée des espèces modèles.
Bien que les organismes mal desservis présentent une opportunité intéressante pour étudier des systèmes biologiques uniques, plusieurs défis sont confrontés aux chercheurs en particulier lors de l'analyse bioinformatique. CertainsLes défis sont innés au traitement de grands ensembles de données, tandis que d'autres résultent du manque de ressources génétiques disponibles pour les chercheurs travaillant dans des organismes mal desservis tels qu'un génome de référence, des ontologies spécifiques à l'organisme, etc. Les problèmes liés à l'isolement et au séquençage des acides nucléiques sont souvent courants Comparaison avec celles de l'analyse des données, et en tant que telles, les analyses bioinformatiques se révèlent généralement être le coût le plus sous-estimé des projets de séquençage 2 . Par exemple, une analyse bioinformatique de base de prochaine génération de la prochaine génération pourrait comporter les étapes suivantes: filtrage et coupe de qualité des lectures séquentielles brutes, assemblage de lectures courtes en pièces contiguës plus importantes et annotations et / ou comparaisons avec d'autres systèmes pour acquérir une compréhension biologique. Bien que tout simplement simple, cet exemple de flux de travail nécessite des connaissances spécialisées et des ressources informatiques au-delà de la portée d'un ordinateur de laboratoire, en le plaçant hors de la portée de nombreux scientifiques qui étudient des non-Organismes modèles.
Les défis innés peuvent être basés sur l'infrastructure ou la connaissance. Un défi d'infrastructure classique est l'accès à des ressources informatiques appropriées. Par exemple, l'assemblage et l'annotation s'appuient sur des algorithmes à forte intensité de calcul qui nécessitent des ordinateurs puissants ou des clusters d'ordinateurs, disposant d'une grande quantité de RAM (256 Go-1 TB) et de plusieurs processeurs / noyaux à exécuter. Malheureusement, de nombreux chercheurs n'ont pas accès à de telles ressources informatiques ou n'ont pas les connaissances nécessaires pour interagir avec ces systèmes. D'autres chercheurs pourraient avoir accès à des grappes informatiques performantes dans leurs universités ou institutions, mais l'accès à ces ressources pourrait être limité et parfois entraîner des charges par heure de calcul, c'est-à-dire le nombre de processeurs CPU multiplié par le nombre d'horloge en temps réel Heures "que ces processeurs fonctionnent. Tirer parti d'un système de cyberinfrastructure financé par l'US National Science Foundation sUch que CyVerse 3 qui offre un accès gratuit aux ressources de calcul pour les chercheurs, aux États-Unis et dans le monde entier, peut aider à atténuer les défis de l'infrastructure, comme cela sera démontré ici.
Un exemple d'un défi typique basé sur le savoir consiste à comprendre le logiciel nécessaire aux analyses complètes. Pour mener efficacement un projet basé sur le séquençage, les chercheurs doivent se familiariser avec la myriade d'outils logiciels qui ont été développés pour les analyses bioinformatiques. L'apprentissage de chaque paquet est difficile à part entière, mais il est exacerbé par le fait que les paquets sont constamment mis à niveau, rediffusés, mis en place dans de nouveaux flux de travail et parfois restreints pour être utilisés sous de nouvelles licences. En outre, la liaison des entrées et des sorties de ces outils nécessite parfois la transformation de types de données pour les rendre compatibles, en ajoutant un autre outil au flux de travail. Enfin, il est également difficile de savoir quel paquet logiciel est 'thLe meilleur "pour une analyse, et souvent identifier le meilleur logiciel pour des conditions expérimentales particulières est une question de différences subtiles. Dans certains cas, des critiques utiles sur les logiciels sont disponibles, mais en raison de la publication continue de nouvelles mises à jour et d'options logicielles, celles-ci sont rapidement dépassées.
Pour les chercheurs qui étudient les organismes mal desservis, ces défis innés s'ajoutent aux défis associés à l'analyse des données dans un organisme nouveau. Ces défis spécifiques aux organismes mal desservis sont mieux illustrés lors de l'annotation des gènes. Par exemple, les organismes mal desservis ne possèdent souvent pas d'organisme modèle étroitement lié qui peut être utilisé de façon raisonnable pour identifier l'orthologie et la fonction des gènes ( p. Ex. Invertébrés marins et Drosophila ). De nombreux outils bioinformatiques nécessitent également une «formation» pour identifier des motifs structurels, qui peuvent être utilisés pour identifier la fonction des gènes. Cependant, les données de formation ne sont généralement disponibles que pour le modLes organismes et les modèles cachés de Markov (HMM) ne relèvent pas des biologistes, et même de nombreux bioinformaticiens. Enfin, même si des annotations peuvent être réalisées à l'aide de données provenant d'organismes modèles, certaines ontologies de gènes associées à des organismes modèles n'ont pas de sens lorsque la biologie et l'histoire naturelle de l'organisme mal desservi sont considérées ( p. Ex . Transfert d'informations de Drosophila aux crevettes ).
À la lumière de ces défis, les ressources bioinformatiques doivent être développées avec des chercheurs qui effectuent des analyses de novo sur les organismes mal desservis. Les prochaines années de projets de séquençage génomique fonctionnel aideront à combler l'écart entre les organismes modèles et mal desservis ( https://genome10k.soe.ucsc.edu/ ), mais il existe plusieurs outils qui devront être développés pour relever les défis Considéré ci-dessus. CyVerse est dédié à la création d'écosystèmes de iNteropérabilité en liant la cyberinfrastructure existante et les applications tierces pour fournir une gestion des données, des outils d'analyse bioinformatique et des visualisations de données à des scientifiques de la vie. L'interopérabilité contribue à lisser les transitions entre les applications bioinformatiques et les plates-formes en fournissant des ressources informatiques évolutives et en limitant les conversions de format de fichier et la quantité de données transférées entre les plates-formes. CyVerse offre plusieurs plates-formes, y compris l'environnement Discovery (DE 4 , Atmosphere 5 et Data Store 3) . Le DE est basé sur le Web et dispose de nombreux outils analytiques de bioinformatique communs converties en formats conviviaux point-et-clic (appelés "applications "), Et est l'interface utilisateur graphique (GUI) pour le magasin de données où sont stockés et gérés des ensembles de données volumineux ( c'est-à-dire des lectures séquentielles brutes, des génomes assemblés). L'atmosphère est un service de cloud computing offrant aux chercheurs une flexibilité accrue pourEn utilisant les ressources informatiques de la machine virtuelle, qui possèdent une large gamme d'outils de bioinformatique préinstallés. Ces deux plates-formes sont liées au magasin de données et peuvent être utilisées ensemble pour créer des flux de travail tels que ceux décrits ici. Ce rapport se concentre sur un assemblage de transcriptome de novo et des flux de travail différentiels d'analyse de l'expression des gènes, et traite en outre des meilleures pratiques associées au développement et à la réalisation d'analyses bioinformatiques. Une explication de la mission plus large de CyVerse ( http://www.cyverse.org/about ) et des descriptions détaillées de plate-forme ( http://www.cyverse.org/learning-center ) sont publiquement disponibles. Toutes les analyses décrites ici utilisent Discovery Environment 4 (DE) et Atmosphere 5 , et sont présentées de manière à les rendre accessibles aux chercheurs de tous les niveaux de calcul. DE workflows et AtmosphLes images peuvent être référencées directement à l'aide d'URL pour assurer la provenance, la réutilisation et la reproductibilité à long terme.
Il existe cinq étapes critiques dans le protocole qui créeront chacun leur propre dossier distinct dans le dossier principal du projet ( figures 1 et 2 ). Toutes les données principales de séquençage brut sont sacrosanct: elles doivent être téléchargées et conservées dans le premier dossier intitulé «1_Raw_Sequence» et non modifiées de quelque manière que ce soit. Les données peuvent être téléchargées de trois façons. L'interface DE peut être utilisée pour télécharger des fichiers directement. C'est le moyen le plus simple de télécharger des données, mais prendra le plus de temps à transférer. Cyberduck dispose d'une interface graphique et permet aux utilisateurs de faire glisser et déposer des fichiers à transférer vers le DE. ICommands est un outil de ligne de commande qui peut être utilisé pour transférer des données vers et depuis le magasin de données, créer des répertoires et gérer des ensembles de données et est probablement le moyen le plus rapide de transférer des fichiers de données. Toutes les données dans le magasin de données peuvent être partagées avec d'autres utilisateurs de CyVerse (https://wiki.cyverse.org/wiki/display/DEmanual/Sharing+Data+Files+and+Folders+Via+the+DiscoveRy + Environment), rendu public via une URL générée (https://wiki.cyverse.org/wiki/display/DEmanual/Sharing+Data+Files+Via+Public+Links), ou peut être hébergé de manière publique et anonyme ( Aucun nom d'utilisateur requis) données communautaires disponibles (http://data.iplantcollaborative.org; http://mirrors.cyverse.org). À l'intérieur de ce dossier, les lectures de séquence brute sont analysées avec FastQC (http://www.bioinformatics.bbsrc.ac.uk/projects/fastqc/) afin d'évaluer comment recadrer et filtrer les lectures pour générer des lectures de haute qualité. Après le recadrage et le filtrage de qualité, il est utile de comparer les sorties FastQC pour déterminer si la qualité de lecture a changé pour déterminer qu'elle s'est améliorée sans perdre d'informations ( Figure 3 ). Notez que l'axe des x de FastQC n'est pas linéaire, mais est plutôt utilisé pour de nombreux graphiques de sortie, ce qui peut entraîner une mauvaise interprétation des résultats. Les lectures taillées et filtrées sont ensuite utilisées pour assembler des transcriptomes de novo à l'aide d'une instance de cloud computing. CeL'ordinateur en nuage utilise l'écran, le clavier et la souris de l'ordinateur local, mais possède son propre logiciel (Trinity et Trinotate) et son matériel installé. L'exécution des programmes sur l'instance de l'ordinateur en nuage n'affectera aucunement l'ordinateur local. L' assemblage de novo et l'annotation en aval seront probablement les deux étapes les plus longues dans ce flux de travail. Par conséquent, ils sont complétés sur Atmosphere pour éviter les problèmes courants d'ordinateur partagés en laboratoire qui interrompent l'analyse, comme les pannes de courant, les redémarrages après des mises à jour automatiques tardives ou des collisions causées par d'autres utilisateurs. L'annotation Trinotate utilise BLAST + 8 , HMMER 9 , tmHMM 10 et PFAM 11 . Le résultat final de l'annotation est une base de données SQLite et un fichier .xls. Les sorties peuvent être utilisées en dehors de CyVerse dans les plates-formes d'analyse en aval telles que KEGG 12 , 13 .
Ce flux de travailEst prêt à utiliser dans le DE et l'atmosphère. Cela élimine la nécessité de passer du temps à installer, à configurer et à résoudre chaque module d'analyse et toutes les dépendances requises par chaque outil. Cela rationalise les analyses des chercheurs, minimise les efforts gaspillés et réduit la barrière d'entrée pour de nombreux scientifiques. Ce flux de travail assemble spécifiquement des lectures individuelles ou jumelées de la plate-forme de séquençage Illumina, mais de nombreux outils existent dans le DE et l'atmosphère pour gérer d'autres types de technologies de séquençage. Les outils de ce flux de travail peuvent être facilement remplacés par un outil alternatif correspondant pour gérer tout type de technologie de séquençage entrant. Cela vaut également pour les nouvelles versions d'outils d'analyse ou des outils complètement nouveaux.
Ce flux de travail est spécifiquement conçu pour assembler, comparer et annoter seulement quelques transcriptomes à la fois. Par conséquent, les utilisateurs peuvent trouver beaucoup de temps pour assembler des transcriptomes multiples pour la génétique de population comparative. Une analyseLes pipelines seront disponibles pour les utilisateurs de la génétique de la population dans un proche avenir et le lien vers le pipeline peut être trouvé sur la page wiki (https://wiki.cyverse.org/wiki/x/dgGtAQ). L'étape différentielle d'analyse de l'expression du gène peut traiter les répétitions, mais il s'agit d'une comparaison par paire et ne pas évaluer avec précision de multiples facteurs ( par exemple , les conditions qui varient avec le temps, plus de deux traitements). Des flux de travail automatisés existent pour les organismes avec des génomes de référence ( p. Ex. , TRAPLINE 14 ). Alors que les flux de travail automatisés sont les plus faciles à utiliser pour les novices, les ensembles de novo nécessitent une évaluation et une considération pour chaque étape décrite ici. En outre, les utilisateurs sont tenus d'utiliser des pipelines automatisés au fur et à mesure qu'ils sont construits et ne sont donc pas souples pour répondre aux demandes changeantes des utilisateurs.
Comme la plupart de ce protocole est effectué sur Internet, les utilisateurs peuvent rencontrer des problèmes avec leurs paramètres de navigateur. Premièrement,Les bloqueurs de fenêtres pop-up peuvent empêcher les fenêtres d'ouvrir ou empêcher les fenêtres d'ouvrir jusqu'à l'autorisation de CyVerse dans le navigateur. Atmosphère utilise VNC pour accéder aux ordinateurs de bureau distants, mais d'autres logiciels peuvent être utilisés. Tout ce protocole a été mené dans Firefox version 45.0.2 et devrait fonctionner avec tous les navigateurs Internet populaires, mais certaines incohérences peuvent apparaître. Le flux de travail sera mis à jour car Trinity publie de nouvelles versions (https://github.com/trinityrnaseq/trinityrnaseq/wiki). Les versions les plus récentes et les informations à jour sur le flux de travail se trouvent sur la page du didacticiel wiki ( tableau 1 , https://wiki.cyverse.org/wiki/x/dgGtAQ). Les utilisateurs peuvent contacter directement le support technique ou poser des questions à Ask CyVerse (ask.cyverse.org/) pour résoudre les problèmes liés au flux de travail.
Dans le DE plusieurs applications existent pour accomplir chaque étape de ce protocole. Par exemple, les utilisateurs souhaitent exécuter Scythe (https://github.com/najoshi/sickle) au lieu de Trimmomatic15 pour lire ou couper EdgeR 16 au lieu de DESeq 17 , 18 . Bien que hors de la portée de ce manuscrit, les applications DE peuvent être copiées, éditées et diffusées par les utilisateurs (https://wiki.cyverse.org/wiki/display/DEmanual/Creating,+Copying,+and+Editing+DE+ Apps) ou de nouvelles applications peuvent être ajoutées par les utilisateurs (https://wiki.cyverse.org/wiki/display/DEmanual/Dockerizing+Your+Tools+for+the+CyVerse+Discovery+Environment). Les images Atmosphère peuvent également être modifiées et redimensionnées pour créer des flux de travail nouveaux ou modifiés qui correspondent plus spécifiquement aux besoins des utilisateurs (https://wiki.cyverse.org/wiki/x/TwHX). Ce travail sert d'introduction à l'utilisation de la ligne de commande pour déplacer des données et exécuter des analyses. Les utilisateurs peuvent envisager d'utiliser des ressources de ligne de commande plus avancées telles que les interfaces de programmation d'applications CyVerse (API) (http://www.cyverse.org/science-apis), ou la conception de leurs propres applications DE, qui nécessitent des connaissancesSur la façon dont l'outil d'analyse est exécuté sur la ligne de commande (https://wiki.cyverse.org/wiki/display/DEmanual/Creating+a+New+App+Interface).
The authors have nothing to disclose.
The authors would like to acknowledge funding from USDA-NIFA grant 2013-00984, NSF grant IOS – 1339156, IOS – 1444490, and CyVerse (NSF: DBI – 1265383).
Trimmomatic v0.33 | USADELLAB.org | https://github.com/timflutre/trimmomatic | https://de.iplantcollaborative.org/de/?type=apps&app-id=9c2a30dc-028d-11e6-a915-ab4311791e69 |
Sickle | Joshi and Fass | https://github.com/najoshi/sickle | https://de.iplantcollaborative.org/de/?type=apps&app-id=68b278f8-d4d6-414d-9a64-b685a7714f7c |
Trinity | Broad Institute and Hebrew University of Jersalem | https://github.com/trinityrnaseq/trinityrnaseq/wiki | https://atmo.iplantcollaborative.org/application/images/1261 |
rnaQUAST v1.2.0 | Algorithmic Biology Lab, St. Petersburg Academic University of the Russian Academy of Sciences | http://spades.bioinf.spbau.ru/rnaquast/release1.2.0/manual.html | https://de.iplantcollaborative.org /de/?type=apps&app- id=980dd11a-1666-11e6-9122- 930ba8f23352 |
Transdecoder | Broad Institute and Commonwealth Scientific and Industrial Research Organisation | https://transdecoder.github.io | https://de.iplantcollaborative.org/de/?type=apps&app-id=5a0ba87e-b0fa-4994-92a2-0d48ee881179 |
EdgeR | Robinson et al. 2010. | https://bioconductor.org/packages/release/bioc/vignettes/edgeR/inst/doc/edgeR.pdf | https://de.iplantcollaborative.org/de/?type=apps&app-id=5aa9e294-6f95-42f9-98e9-c9c96b44f499 |
Trinotate | Broad Institute and Hebrew University of Jersalem | https://trinotate.github.io/ | https://atmo.iplantcollaborative.org/application/images/1261 |