Summary

Analyse transcriptomique de<em> C</em>.<em> elegans</em> RNA séquençage des données par le Tuxedo Suite sur le projet Galaxy

Published: April 08, 2017
doi:

Summary

Galaxy et David sont apparus comme des outils populaires qui permettent aux enquêteurs sans formation de bio-informatique pour analyser et interpréter les données d'ARN-Seq. Nous décrivons un protocole pour C. elegans aux chercheurs d'effectuer des expériences ARN-Seq, l' accès et de traiter l'ensemble de données en utilisant Galaxy et d' obtenir des informations biologiques significatives à partir des listes de gènes en utilisant DAVID.

Abstract

technologies de séquençage de nouvelle génération (NGS) ont révolutionné la nature de la recherche biologique. Parmi ceux-ci, l'ARN de séquençage (ARN-Seq) est devenue un outil puissant pour l'analyse de l'expression génique et cartographie transcriptome. Cependant, la manipulation des ensembles de données d'ARN-Seq nécessite une expertise informatique sophistiquée et pose des défis inhérents aux chercheurs en biologie. Ce goulot d'étranglement a été atténué par le projet Galaxy d'accès ouvert qui permet aux utilisateurs sans compétences en bio-informatique pour analyser les données d'ARN-Seq, et la base de données pour l'annotation, la visualisation et la découverte intégrée (DAVID), une analyse terme Gene Ontology (de GO) de suite qui aide tirer signification biologique de grands ensembles de données. Toutefois, pour les nouveaux utilisateurs et les amateurs de bio-informatique, l'auto-apprentissage et de familiarisation avec ces plates-formes peut prendre beaucoup de temps et intimidante. Nous décrivons un flux de travail simple qui aidera à C. elegans chercheurs pour isoler l' ARN sans fin, mener une expérience d'ARN-Seqet d'analyser les données en utilisant des plates-formes Galaxy et David. Ce protocole fournit des instructions par étapes pour l'utilisation des différents modules Galaxy pour l'accès aux données de l'END premières vérifications de contrôle de qualité, l'alignement et l'analyse de l'expression génique différentielle, guidant l'utilisateur avec des paramètres à chaque étape pour générer une liste de gènes qui peuvent être criblés pour l'enrichissement de classes de gènes ou de processus biologiques à l'aide de DAVID. Dans l' ensemble, nous prévoyons que cet article fournira des informations à C. elegans chercheurs qui entreprennent des expériences d'ARN-Seq pour la première fois ainsi que les utilisateurs fréquents en cours d' exécution d' un petit nombre d'échantillons.

Introduction

Le premier séquençage du génome humain, réalisée en utilisant la méthode didésoxynucléotide-séquençage de Fred Sanger, a 10 ans et a coûté 3 milliards $ US environ 1, 2. Cependant, dans un peu plus d'une décennie depuis sa création, le séquençage de nouvelle génération (NGS) la technologie a permis de séquencer l'ensemble du génome humain dans les deux semaines et pour 1000 $ US. De nouveaux instruments qui permettent NGS toujours plus des vitesses de collecte de données d'séquençage avec une incroyable efficacité, ainsi que de fortes réductions des coûts, sont en train de révolutionner la biologie moderne de façon inimaginable que des projets de séquençage du génome deviennent rapidement monnaie courante. De plus, ces développements ont galvanisé des progrès dans de nombreux autres domaines tels que l'analyse de l'expression des gènes par ARN-séquençage (ARN-Seq), étude du génome à l'échelle des modifications épigénétiques, les interactions ADN-protéines, et le dépistage de la diversité microbienne dans des hôtes humains. ARN-Se-NGS à baseq en particulier, a permis d'identifier et de cartographier transcriptome globalement la précision et la sensibilité, et a remplacé la technologie des puces à ADN comme méthode de choix pour le profilage d'expression. Bien que la technologie des puces à ADN a été largement utilisée, elle est limitée par sa dépendance à l'égard des réseaux préexistants avec des informations génomiques connues, et d'autres inconvénients tels que l'hybridation croisée et la gamme restreinte de changements d'expression qui peut être mesurée de manière fiable. ARN-Seq, d'autre part, peut être utilisé pour détecter à la fois les transcriptions connus et inconnus, tout en produisant un faible bruit de fond en raison de sa nature cartographie de l'ADN non équivoque. ARN-Seq, ainsi que les nombreux outils génétiques offerts par des organismes modèles tels que la levure, les mouches, les vers, les poissons et les souris, a servi de base pour de nombreuses importantes découvertes biomédicales récentes. Cependant, d'importants défis subsistent qui rendent NGS inaccessibles à la communauté scientifique dans son ensemble, y compris les limites de stockage, le traitement, et la plupart de tous, m analyse bioinformatique eaningful de grands volumes de données de séquençage.

Les progrès rapides des technologies de séquençage et de l'accumulation exponentielle des données ont créé un grand besoin de plates-formes de calcul qui permettront aux chercheurs d'accéder, d'analyser et de comprendre ces informations. Les premiers systèmes étaient fortement tributaires des connaissances de programmation informatique, alors que, les navigateurs du génome tels que NCBI qui a permis aux non-programmeurs d'accéder et de visualiser les données ne permettaient pas des analyses sophistiquées. Le Web, la plate – forme ouverte d'accès, Galaxy ( https://galaxyproject.org/ ), a rempli ce vide et avéré être un pipeline précieux qui permet aux chercheurs de traiter les données et effectuer NGS un spectre de simple à complexe analyse bio-informatique. Galaxy a d'abord été établie et est maintenue, par les laboratoires d'Anton Nekrutenko (Penn State University) et James Taylor (Johns Hopkins University)f "> 3. Galaxy propose une large gamme de tâches de calcul qui en fait un « guichet unique » pour les besoins innombrables de bio – informatique, y compris toutes les étapes impliquées dans une étude de l' ARN-Seq. Itallows utilisateurs pour effectuer le traitement des données soit sur ses serveurs ou localement sur leurs propres machines. les données et les flux de travail peuvent être reproduits et partagés. les didacticiels en ligne, aide et une page wiki ( https://wiki.galaxyproject.org/Support ) dédié au projet Galaxy fournissent un soutien constant. Cependant, pour les utilisateurs pour la première fois, en particulier ceux sans formation de bio-informatique, le pipeline peut sembler décourageants et le processus d'auto-apprentissage et de familiarisation peut prendre du temps. En outre, le système biologique étudié, et les spécificités de l'expérience et les méthodes utilisées, l'impact les décisions d'analyse à plusieurs étapes, et celles-ci peuvent être difficiles à naviguer sans instruction.

Le RN total A-Seq Galaxy flux de travail se compose de transfert de données et de contrôle de qualité suivie d' une analyse en utilisant le Tuxedo Suite 4, 5, 6, 7, 8, 9, qui est un collectif de différents outils nécessaires à différentes étapes de l' analyse des données de l' ARN-Seq 10, 11, 12, 13, 14. Une expérience d'ARN-Seq typique se compose de la partie expérimentale (préparation de l'échantillon, l'isolement de l'ARNm et préparation banque d'ADNc), l'END et l'analyse des données bio-informatique. Un aperçu de ces sections, et les étapes du pipeline Galaxy, sont présentés dans la figure 1.

3fig1.jpg »/>
Figure 1: Vue d' ensemble d'un ARN-Seq Workflow. Illustration des étapes expérimentales et informatiques impliquées dans une expérience d'ARN-Seq pour comparer les profils d'expression génique de deux souches de vers (A et B, les lignes orange et vert et des flèches, respectivement). Les différents modules de Galaxy utilisés sont indiqués dans les cases avec l'étape correspondante dans notre protocole indiqué en rouge. Les sorties de différentes opérations sont écrites en gris avec les formats de fichiers en bleu. S'il vous plaît cliquer ici pour voir une version plus grande de ce chiffre.

Le premier outil de la Tuxedo Suite est un programme d'alignement appelé « Tophat ». Il se décompose l'entrée NGS lit en fragments plus petits, puis les cartes à un génome de référence. Ce procédé en deux étapes assure que les lectures couvrant les régions introniques dont l'alignement peut être autrement disrupted ou manqués sont pris en compte et cartographiées. Cela augmente la couverture et facilite l'identification des jonctions nouvelles d'épissage. Sortie Tophat est rapporté que deux fichiers, un fichier de lit (avec des informations sur les jonctions d'épissage qui comprennent l' emplacement génomique) et un fichier BAM (avec des détails cartographiques de chaque lecture). Ensuite, le fichier BAM est aligné sur un génome de référence pour estimer l'abondance des relevés de notes individuelles dans chaque échantillon à l' aide de l'outil suivant dans la suite Tuxedo appelé « » Boutons de manchette. Boutons de manchette fonctions en balayant l'alignement pour signaler des fragments de transcription complète ou « transfrags » qui couvrent toutes les variantes d'épissage possibles dans les données d'entrée pour chaque gène. Sur cette base, il génère un « transcriptome » (ensemble de tous les transcrits générés par gène pour chaque gène) pour chaque échantillon étant séquencées. Ces ensembles de boutons de manchette sont alors effondrés ou ont fusionné ensemble avec la regénome rence pour produire un fichier d'annotation pour l' analyse différentielle en aval en utilisant l'outil suivant, 'Cuffmerge. Enfin, les mesures de l' outil « Cuffdiff » expression différentielle de gènes entre des échantillons en comparant les sorties de TopHat de chacun des échantillons dans le fichier de sortie de Cuffmerge finale (Figure 1). Cufflinks utilise des valeurs FPKM / RPKM (Fragments / Reads par kilobase de la transcription par million cartographié lectures) de faire rapport abondances de transcription. Ces valeurs reflètent la normalisation des données de l'END premières pour la profondeur (nombre moyen de lectures à partir d'un échantillon alignement sur le génome de référence) et la longueur des gènes (gènes ont des longueurs différentes, de sorte que les chiffres doivent être normalisées pour la longueur d'un gène pour comparer les niveaux entre les gènes). FPKM et RPKM sont essentiellement les mêmes avec RPKM utilisé pour l'ARN-Seq-end unique où chaque lecture correspond à un seul fragment, tandis que, FPKM est utilisé pourARN-Seq-end associé, car il tient compte du fait que deux lectures peuvent correspondre au même fragment. En fin de compte, le résultat de ces analyses est une liste de gènes exprimés de manière différentielle entre les conditions et / ou les souches testées.

Une fois un succès run Galaxy est terminée et une « liste de gènes » est générée, la prochaine étape logique exige plus des analyses bio-informatique pour en déduire des connaissances significatives à partir des ensembles de données. De nombreux logiciels ont vu le jour pour répondre à ce besoin, y compris les progiciels de calcul basés sur le Web accessibles au public , tels que DAVID (la base de données pour l' annotation, la visualisation et la découverte intégrée) 15. DAVID facilite l'attribution sens biologique à des listes de gènes provenant d'études à haut débit en comparant la liste des gènes transféré à sa base de connaissances biologique intégrée et révélant les annotations biologiques associées à la liste des gènes. Il est suivi par l' analyse d' enrichissement, par exemple, des tests à identifier si un processus biologique ou une catégorie gène est surreprésenté dans la liste de gène (s) d'une manière statistiquement significative. Il est devenu un choix populaire en raison d'une combinaison d'un large, des algorithmes d' analyse et de base de connaissances intégrée puissants qui permettent aux chercheurs de détecter des thèmes biologiques enrichis au sein de la génomique dérivées 10 « listes de gènes », 16. D'autres avantages sont sa capacité à traiter des listes de gènes créés sur une plate-forme de séquençage et une interface très conviviale.

Le nématode Caenorhabditis elegans est un système de modèle génétique, bien connu pour ses nombreux avantages tels que de petite taille, le corps transparent, plan de corps simple, la facilité de la culture et à la dissection grande amenability génétique et moléculaire. Worms ont un petit, simple et génome bien annotée qui comprend jusqu'à 40% des gènes conservés avec homologues humains connus 17. En effet, C. elegansa été le premier métazoaire dont le génome a été entièrement séquencé 18, et une de la première espèce , où l' ARN-Seq a été utilisé pour cartographier le transcriptome d'un organisme 19, 20. Les premières études de ver impliqués expérimentation de méthodes différentes pour la capture d'ARN à haut débit, la préparation et le séquençage bibliothèque, ainsi que les pipelines de bio – informatique qui ont contribué à l'avancement de la technologie 21, 22. Ces dernières années, l'expérimentation à base d'ARN-Seq vers est devenu monnaie courante. Mais, pour les biologistes des vers traditionnels les défis posés par l'analyse informatique des données d'ARN-Seq demeurent un obstacle majeur pour une meilleure utilisation et une meilleure de la technique.

Dans cet article, on décrit un protocole pour l' utilisation de la plate – forme Galaxy pour analyser les données d'ARN-Seq à haut débit provenant de C. elegans. Pour beaucoup pour la première fois et le petit-scautilisateurs Le, la façon la plus rentable et facile à entreprendre une expérience d'ARN-Seq est d'isoler l'ARN dans le laboratoire et utiliser un commercial (ou interne) installation NGS pour la préparation de banques d'ADNc de séquençage et la centrale nucléaire elle-même. Par conséquent, nous avons d' abord en détail les étapes de l' isolement, l' évaluation de la quantification et la qualité de C. elegans échantillons d'ARN pour l' ARN-Seq. Ensuite, nous fournissons des instructions étape par étape pour l'utilisation de l'interface Galaxy pour l'analyse des données de l'END, en commençant par des tests de contrôles de qualité post-séquençage suivi par l'alignement, l'assemblage et la quantification différentielle de l'expression génique. De plus, nous avons inclus les directions pour examiner les listes de gènes résultant de Galaxy pour des études d'enrichissement biologique en utilisant DAVID. En tant que dernière étape du flux de travail, nous fournissons des instructions pour le téléchargement des données d'ARN-Seq aux serveurs publics tels que l'archive Lire la séquence (SRA) sur NCBI ( http: // www.ncbi.nlm.nih.gov/sra) pour le rendre librement accessible à la communauté scientifique. Dans l'ensemble, nous prévoyons que cet article fournira des informations complètes et suffisantes pour les biologistes de ver expériences d'ARN qui entreprennent-Seq pour la première fois ainsi que les utilisateurs fréquents en cours d'exécution d'un petit nombre d'échantillons.

Protocol

1. Isolement de l'ARN Des mesures de précaution Essuyez toute la surface de travail, des instruments et pipettes à l'aide d'un spray RNase disponible dans le commerce pour éliminer les RNases présents. Porter des gants en tout temps, les changer régulièrement avec les frais au cours des différentes étapes du protocole. Utilisez uniquement des conseils de filtre et de garder tous les échantillons sur la glace autant que possible pour éviter la…

Representative Results

Dans C. elegans, l' élimination des cellules souches de lignée germinale (les CSS) étend la durée de vie, améliore la résistance au stress, et élève la graisse du corps 24, 28. Perte de CSS, soit provoquée par une ablation au laser ou par des mutations telles que le GLP-1, provoque l' extension de la durée de vie grâce à l' activation d'un réseau de 29 facteur…

Discussion

Importance de la plate-forme de séquençage Galaxy en biologie moderne

Le projet Galaxy est devenu un instrument pour aider les biologistes sans formation de bio-informatique pour traiter et analyser les données de séquençage à haut débit de manière rapide et efficace. Une fois considéré comme une tâche herculéenne, cette plate-forme accessible au public a fait des algorithmes en cours d'exécution de bio-informatique pour analyser les données complexes NGS un processus simple, …

Disclosures

The authors have nothing to disclose.

Acknowledgements

Les auteurs tiennent à exprimer leur gratitude aux laboratoires, les groupes et les individus qui ont développé Galaxy et David, et donc en NGS largement accessibles à la communauté scientifique. L'aide et les conseils fournis par des collègues de l'Université de Pittsburgh au cours de notre formation de bio-informatique est reconnue. Ce travail a été soutenu par une fondation médicale Ellison nouveau chercheur en récompense le vieillissement (AG-NS-0879-12) et une subvention des National Institutes of Health (R01AG051659) à AG.

Materials

RNase spray  Fisher Scientific 21-402-178
Trizol  Ambion 15596026
Sonicator Sonics Vibra Cell  VCX130
Centrifuge  Eppendorf 5415C
chloroform  Sigma Aldrich 288306
2-propanol  Fisher Scientific A416P-4
Ethanol Decon Labs 2705HC
RNase-free water  Fisher Scientific BP561-1
Bioanalyzer  Agilent G2940CA
Mac/PC

References

  1. Venter, J. C., et al. The sequence of the human genome. Science. 291 (5507), 1304-1351 (2001).
  2. Lander, E. S., et al. Initial sequencing and analysis of the human genome. Nature. 409 (6822), 860-921 (2001).
  3. Afgan, E., et al. The Galaxy platform for accessible, reproducible and collaborative biomedical analyses: 2016 update. Nucleic Acids Res. 44 (W1), W3-W10 (2016).
  4. Trapnell, C., Pachter, L., Salzberg, S. L. TopHat: discovering splice junctions with RNA-Seq. Bioinformatics. 25 (9), 1105-1111 (2009).
  5. Trapnell, C., et al. Transcript assembly and quantification by RNA-Seq reveals unannotated transcripts and isoform switching during cell differentiation. Nat Biotechnol. 28 (5), 511-515 (2010).
  6. Roberts, A., Trapnell, C., Donaghey, J., Rinn, J. L., Pachter, L. Improving RNA-Seq expression estimates by correcting for fragment bias. Genome Biol. 12 (3), R22 (2011).
  7. Roberts, A., Pimentel, H., Trapnell, C., Pachter, L. Identification of novel transcripts in annotated genomes using RNA-Seq. Bioinformatics. 27 (17), 2325-2329 (2011).
  8. Trapnell, C., et al. Differential gene and transcript expression analysis of RNA-seq experiments with TopHat and Cufflinks. Nat Protoc. 7 (3), 562-578 (2012).
  9. Trapnell, C., et al. Differential analysis of gene regulation at transcript resolution with RNA-seq. Nat Biotechnol. 31 (1), 46-53 (2013).
  10. Huang da, W., Sherman, B. T., Lempicki, R. A. Systematic and integrative analysis of large gene lists using DAVID bioinformatics resources. Nat Protoc. 4 (1), 44-57 (2009).
  11. Giardine, B., et al. Galaxy: a platform for interactive large-scale genome analysis. Genome Res. 15 (10), 1451-1455 (2005).
  12. Han, Y., Gao, S., Muegge, K., Zhang, W., Zhou, B. Advanced Applications of RNA Sequencing and Challenges. Bioinform Biol Insights. 9 (1), 29-46 (2015).
  13. Mardis, E. R. Next-generation sequencing platforms. Annu Rev Anal Chem (Palo Alto Calif). 6, 287-303 (2013).
  14. Yang, I. S., Kim, S. Analysis of Whole Transcriptome Sequencing Data: Workflow and Software. Genomics Inform. 13 (4), 119-125 (2015).
  15. Khatri, P., Draghici, S. Ontological analysis of gene expression data: current tools, limitations, and open problems. Bioinformatics. 21 (18), 3587-3595 (2005).
  16. Huang da, W., Sherman, B. T., Lempicki, R. A. Bioinformatics enrichment tools: paths toward the comprehensive functional analysis of large gene lists. Nucleic Acids Res. 37 (1), 1-13 (2009).
  17. Shaye, D. D., Greenwald, I. OrthoList: a compendium of C. elegans genes with human orthologs. PLoS One. 6 (5), e20085 (2011).
  18. Consortium, C. e. S. Genome sequence of the nematode C. elegans: a platform for investigating biology. Science. 282 (5396), 2012-2018 (1998).
  19. Agarwal, A., et al. Comparison and calibration of transcriptome data from RNA-Seq and tiling arrays. BMC Genomics. 11, 383 (2010).
  20. Mortazavi, A., et al. Scaffolding a Caenorhabditis nematode genome with RNA-seq. Genome Res. 20 (12), 1740-1747 (2010).
  21. Bohnert, R., Ratsch, G. rQuant.web: a tool for RNA-Seq-based transcript quantitation. Nucleic Acids Res. 38, W348-W351 (2010).
  22. Lamm, A. T., Stadler, M. R., Zhang, H., Gent, J. I., Fire, A. Z. Multimodal RNA-seq using single-strand, double-strand, and CircLigase-based capture yields a refined and extended description of the C. elegans transcriptome. Genome Res. 21 (2), 265-275 (2011).
  23. Amrit, F. R., Ratnappan, R., Keith, S. A., Ghazi, A. The C. elegans lifespan assay toolkit. Methods. 68 (3), 465-475 (2014).
  24. Hsin, H., Kenyon, C. Signals from the reproductive system regulate the lifespan of C. elegans. Nature. 399 (6734), 362-366 (1999).
  25. Alper, S., et al. The Caenorhabditis elegans germ line regulates distinct signaling pathways to control lifespan and innate immunity. J Biol Chem. 285 (3), 1822-1828 (2010).
  26. Steinbaugh, M. J., et al. Lipid-mediated regulation of SKN-1/Nrf in response to germ cell absence. Elife. 4, (2015).
  27. Lapierre, L. R., Gelino, S., Melendez, A., Hansen, M. Autophagy and lipid metabolism coordinately modulate life span in germline-less. C. elegans. Curr Biol. 21 (18), 1507-1514 (2011).
  28. Rourke, E. J., Soukas, A. A., Carr, C. E., Ruvkun, G. C. elegans major fats are stored in vesicles distinct from lysosome-related organelles. Cell Metab. 10 (5), 430-435 (2009).
  29. Ghazi, A. Transcriptional networks that mediate signals from reproductive tissues to influence lifespan. Genesis. 51 (1), 1-15 (2013).
  30. Ghazi, A., Henis-Korenblit, S., Kenyon, C. A transcription elongation factor that links signals from the reproductive system to lifespan extension in Caenorhabditis elegans. PLoS Genet. 5 (9), e1000639 (2009).
  31. Amrit, F. R., et al. DAF-16 and TCER-1 Facilitate Adaptation to Germline Loss by Restoring Lipid Homeostasis and Repressing Reproductive Physiology in C. elegans. PLoS Genet. 12 (2), e1005788 (2016).
  32. Wang, M. C., O’Rourke, E. J., Ruvkun, G. Fat metabolism links germline stem cells and longevity in C. elegans. Science. 322 (5903), 957-960 (2008).
  33. McCormick, M., Chen, K., Ramaswamy, P., Kenyon, C. New genes that extend Caenorhabditis elegans’ lifespan in response to reproductive signals. Aging Cell. 11 (2), 192-202 (2012).
  34. Kartashov, A. V., Barski, A. BioWardrobe: an integrated platform for analysis of epigenomics and transcriptomics data. Genome Biol. 16, 158 (2015).
  35. Goncalves, A., Tikhonov, A., Brazma, A., Kapushesky, M. A pipeline for RNA-seq data processing and quality assessment. Bioinformatics. 27 (6), 867-869 (2011).

Play Video

Cite This Article
Amrit, F. R. G., Ghazi, A. Transcriptomic Analysis of C. elegans RNA Sequencing Data Through the Tuxedo Suite on the Galaxy Project. J. Vis. Exp. (122), e55473, doi:10.3791/55473 (2017).

View Video