Summary

À l’aide de l’analyse phylogénétique pour étudier l’origine de gènes eucaryotes

Published: August 14, 2018
doi:

Summary

On décrit une méthode de construction d’un arbre phylogénétique basé sur l’homologie de séquence de bonbons des eucaryotes et des SemiSWEETs de procaryotes. L’analyse phylogénétique est un outil utile pour expliquer le degré de parenté évolutive entre les gènes ou les protéines homologues de groupes d’organismes différents.

Abstract

L’analyse phylogénétique utilise des nucléotides ou de séquences d’acides aminés ou d’autres paramètres, tels que les séquences du domaine et de la structure tridimensionnelle, pour construire un arbre pour montrer la relation évolutive entre les différents taxons (unités de classification) à moléculaire niveau. L’analyse phylogénétique permet également d’enquêter sur les relations de domaine au sein d’un taxon individuel, particulièrement pour les organismes qui ont fait l’objet d’importants changement dans la morphologie et la physiologie, mais pour que les chercheurs n’ont pas les preuves fossiles due à la longue histoire évolutive des organismes ou la rareté de la fossilisation.

Dans ce texte, un protocole détaillé est décrit selon la méthode phylogénétique, notamment l’alignement de séquences d’acides aminés en utilisant Clustal Omega et construction d’arbre phylogénétique ultérieure à l’aide de deux probabilité maximale (ML) de moléculaire génétique évolutive Analyse (MEGA) et Inférence bayésienne via MrBayes. Pour étudier l’origine des gènes eucaryotiques Sucres va finalement être exporté des transporteurs (SWEET), 228 sucreries y compris 35 protéines douces d’eucaryotes unicellulaires et 57 mi-doux de procaryotes ont été analysés. Fait intéressant, les SemiSWEETs ont été trouvés chez les procaryotes, mais sucreries trouvées chez les eucaryotes. Deux arbres phylogénétiques construits à l’aide de méthodes théoriquement distinctes ont toujours suggéré que le premier gène de doux eucaryote pourrait provient de la fusion d’un gène bactérien mi-doux et un gène mi-doux d’archaea. Il est à noter qu’on doit être prudent pour tirer une conclusion fondée uniquement sur l’analyse phylogénétique, bien qu’il soit utile d’expliquer la relation sous-jacente entre taxons différents, ce qui est difficile voire impossible de discerner par le biais de moyens expérimentaux .

Introduction

Séquences d’ADN ou d’ARN transportent l’information génétique pour les phénotypes sous-jacent qui peut être analysé par le biais de méthodes physiologiques et biochimiques ou observés par le biais de preuves morphologiques et fossiles. Dans un sens, l’information génétique est plus fiable qu’évaluation externes phénotypes parce que l’ancien est la base de ce dernier. Dans l’étude de l’évolution, les preuves fossiles est très directe et convaincante. Cependant, beaucoup d’organismes, tels que les micro-organismes, ont peu de chance de former un fossile au cours des âges géologiques depuis longtemps. Par conséquent, informations moléculaires comme des séquences de nucléotides et les séquences d’acides aminés provenant des organismes existants liés sont utiles pour explorer les relations évolutives1. Dans la présente étude, une simple introduction de notions phylogénétique et un protocole facile à apprendre a été fournie pour les nouveaux arrivants qui ont besoin de construire un arbre phylogénétique de leur propre chef.

Peuvent servir pour déduire les relations phylogénétiques entre les gènes homologues, organites ou même les organismes2fois (nucléotides) de l’ADN et les séquences de protéines (acides aminés). Séquences d’ADN sont plus susceptibles d’être affectés par des changements au cours de l’évolution. En revanche, les séquences d’acides aminés sont beaucoup plus stables étant donné que les mutations synonymes dans des séquences de nucléotides ne causent pas de mutations dans les séquences d’acides aminés. Ainsi, des séquences d’ADN sont utiles pour la comparaison des gènes homologues des organismes étroitement liés, alors que les séquences d’acides aminés sont appropriés pour des gènes homologues d’organismes lointainement apparentés3.

Une analyse phylogénétique commence par l’alignement des acides aminés ou de séquences de nucléotides4 provient d’un génome annoté séquençage5 de la base de données listées dans format FASTA, c.-à-d., protéine putative ou exprimée séquences, séquences d’ARN , ou des séquences d’ADN. Il est à noter qu’il est essentiel de recueillir des séquences de haute qualité pour l’analyse, et des séquences homologues seulement peuvent être utilisés pour analyser les relations phylogénétiques. Nombreuses plates-formes comme Clustal W, Clustal X, Muscle, T-café, MAFFT, peut être utilisé pour l’alignement de la séquence. Le plus couramment utilisé est Clustal Omega6,7 (http://www.ebi.ac.uk/Tools/msa/clustalo/), qui peuvent être utilisés en ligne ou peut être téléchargé gratuitement gratuitement. L’outil d’alignement possède de nombreux paramètres que l’utilisateur peut ajuster avant de commencer l’alignement, mais les paramètres par défaut fonctionnent bien dans la plupart des cas. Une fois le processus terminé, les séquences alignées doivent être enregistrés dans un format adapté à l’étape suivante. Ils devraient ensuite être édités ou taillés à l’aide d’un logiciel de retouche, comme BioEdit, car construction d’arbres phylogénétiques de MEGA requiert les séquences de longueur égale (y compris les abréviations d’acides aminés et des traits d’Union. Dans la séquence alignée, n’importe quelle position sans nucléotides ou d’acides aminés est représentée par un trait d’Union «- »). En règle générale, tous les saillie acides aminés ou de nucléotides aux deux extrémités de l’alignement doivent être retiré. En outre, les colonnes contenant des séquences mal alignés dans l’alignement peuvent être supprimés car ils véhiculent des informations précieuses peu et peuvent donner parfois confuses ou fausses informations3. Les colonnes contenant un ou plusieurs traits d’Union peuvent être supprimés en ce moment ou dans l’ultérieurement de la construction de l’arbre. Alternativement, ils peuvent être utilisés pour le calcul phylogénétique. Lorsque l’alignement de séquences et la coupe est terminée, les séquences alignées doivent être enregistrés au format FASTA ou le format désiré, pour une utilisation ultérieure.

Nombreuses plates-formes logicielles fournissent les fonctions de construction arbre à l’aide des algorithmes ou des méthodes différentes. En général, les méthodes peuvent être classés comme méthodes de matrice de distance ou méthodes de données discrètes. Méthodes de matrice de distance sont simples et rapides pour calculer, tandis que les méthodes de données discrètes sont compliqués et fastidieux. Pour les taxons très proches avec un haut degré de partage de l’identité de séquence d’acides aminés ou de nucléotides, une méthode de matrice de distance (Neighbor Joining : NJ ; Méthode de groupe paire non pondérée avec la moyenne arithmétique : UPGMA) est appropriée ; pour les taxons lointainement apparentés, une méthode de données discrètes (Maximum de vraisemblance : ML ; Parcimonie : MP ; Inférence bayésienne) est optimale3,,8. Dans cette étude, les méthodes de ML dans MEGA (6.0.6) et Inférence bayésienne (MrBayes 3.2) ont servi à construire des arbres phylogénétiques9. Idéalement, lorsque le bon modèle et les paramètres sont utilisés, les résultats provenant de différentes méthodes peuvent être compatibles, et ils sont donc plus fiables et plus convaincante.

Pour un arbre phylogénétique de ML, construit à l’aide de MEGA10, le fichier de séquence alignés au format FASTA doit être téléchargé dans le programme. La première étape consiste ensuite à sélectionner le modèle de substitution optimal pour les données téléchargées. Tous les modèles de substitution disponibles sont comparées basé sur les séquences téléchargées, et leurs notes finales seront montrés dans un tableau de résultats. Sélectionnez le modèle le plus petit score de critère BIC (Bayesian Information) (citées en premier dans la table), définir les paramètres de ML selon le modèle recommandé et démarrer le calcul. Le temps de calcul varie de plusieurs minutes à plusieurs jours, en fonction de la complexité des données chargées (longueur des séquences et du nombre de taxons) et les performances de l’ordinateur sur lequel les programmes sont exécutés. Une fois le calcul terminé, un arbre phylogénétique s’affichera dans une nouvelle fenêtre. Enregistrez le fichier sous « FileName.mat ». Après avoir configuré les paramètres pour spécifier l’apparence de l’arbre, sauver une fois de plus. En utilisant cette méthode, MEGA peut générer des chiffres de publication grade arbre phylogénétique.

Pour la construction d’arbre avec MrBayes11, la première étape consiste à transformer la séquence alignée, ce qui est inscrit habituellement au format FASTA, en format de nexus (.nex comme type de fichier). Comment transformer des fichiers FASTA format nexus peut être traitée en MEGA. Ensuite, la séquence alignée sous forme de lien peut être téléchargée en MrBayes. Lorsque le fichier est téléchargé avec succès, spécifiez les paramètres détaillés pour le calcul de l’arbre. Ces paramètres incluent des détails tels que le modèle de substitution d’acides aminés, les taux de variation, nombre de chaîne de Markov chain Monte Carlo (MCMC) couplage, nombre de ngen, moyenne écart-type de répartition des fréquences et ainsi de suite. Après que ces paramètres ont été spécifiés, démarrer le calcul. En fin de compte, deux figures d’arbre en code ASC II, une montrant crédibilité de clade et les autres longueurs de branche montrant, s’affichera sur l’écran.

Le fruit de l’arbre sera automatiquement enregistré comme « FileName.nex.con ». Ce fichier d’arbre peut être ouverts et modifié par FigTree, et le chiffre affiché dans FigTree peut être modifié plus loin pour le rendre plus adapté pour la publication.

Dans cette étude, 228 protéines sucrées, dont 35 bonbons d’eucaryotes unicellulaires et 57 SemiSWEETs de procaryotes, ont été analysés à titre d’exemple. Les bonbons et les SemiSWEETs ont été caractérisées comme le glucose, le fructose ou transporteurs de saccharose à travers les membranes12,13. L’analyse phylogénétique suggère que les deux domaines de MtN3/salive contenant des bonbons pourraient provenir d’une fusion évolutive d’un amer bactérienne et de l’ Archéen14.

Protocol

1. alignement de la séquence Collecter les séquences d’acides aminés de SWEET eucaryote et procaryote amer dans des documents distincts et inscrivez-les au format FASTA. Télécharger des séquences du National Center pour Biotechnology Information (NCBI), laboratoire européen de biologie moléculaire (EMBL) et la Banque de données génétiques des bases de données de Japon (DDBJ) en recherche de similitude avec l’outil de base Local alignement Search Tool (BLAST). Dans les…

Representative Results

Les arbres phylogénétiques montrent que tous les domaines de premier MtN3/salive des séquences douces 35 groupés comme un clade et des domaines de deuxième MtN3/salive des séquences douces en cluster comme un autre clade. En outre, l’alignement les bonbons et les SemiSWEETs révèle que certains SemiSWEETs de α-protéobactéries alignement sur le premier domaine MtN3/salive des séquences douces, tandis que la deuxième MtN3/salive SemiSWEETs de méthanobactéries (archaea) domai…

Discussion

Il devient de plus en plus populaire dans la recherche biologique pour faire un arbre phylogénétique basé sur les séquences de nucléotides ou d’acides aminés séquences8. Généralement, il y a trois étapes critiques de la pratique notamment l’alignement de séquences, évaluation des séquences alignées avec la bonne méthode ou algorithme et la visualisation du calcul résultat comme un arbre phylogénétique. Dans l’étude présentée, trois séries d’alignement de séquences on…

Offenlegungen

The authors have nothing to disclose.

Acknowledgements

Ce travail a été soutenu par la Fondation nationale des sciences naturelles de Chine (31371596), le centre de recherche de Bio-technologie, Université de Chine Trois Gorges (2016KBC04) et la Fondation des sciences naturelles de la Province de Jiangsu, Chine (BK20151424).

Materials

Adobe Illustration a graphical tool developed by Adobe Systems Software Ireland Ltd. Copyright © 2017
BioEdit a biological sequence alignment editor written for Windows 95/98/NT/2000/XP/7. Copyright © Tom Hall
Clustal Omega a package for making multiple sequence alignments of amino acid or nucleotide sequences.  http://www.clustal.org/
CorelDRAW a graphic design software. Copyright © 2017 Corel Corporation
FigTree a graphical viewer of phylogenetic trees designed by the University of Edinburgh
MEGA MolecularEvolutionary Genetics Analysis version6.0 http://www.megasoftware.net/home
MrBayes an Bayesian phylogenetic inference tool
NVIDIA a company designs graphics processing units (GPUs) for the gaming and professional markets. Corporation Copyright © 2017
PAUP Phylogenetic Analysis Using Parsimony. David Swofford's program implements the maximum likelihood method under a number of nucleotide models.
Photoshop a raster graphics editor developed and published by Adobe Systems Software Ireland Ltd. Copyright © 2017
RHYTHM a knowledge based prediction of hekix contacts. Charité Berlin – Protein Formatics Group – Copyright 2007-2009
TMHMM a tool for prediction of transmembrane helices in proteins. http://www.cbs.dtu.dk/services/TMHMM/
Compter 4GB memory, Core 2 or above CPU. Windows 7, Windows 10

Referenzen

  1. Nei, M., Kumar, S. . Molecular Evolution and Phylogenetics. , (2000).
  2. Foth, B. J. Phylogenetic analysis to uncover organellar origins of nuclear-encoded genes. Methods Mol Biol. 390, 467-488 (2007).
  3. Baldauf, S. L. Phylogeny for the faint of heart: a tutorial. Trends Genet. 19, 345-351 (2003).
  4. Feng, D. F., Doolittle, R. F. Progressive sequence alignment as a prerequisite to correct phylogenetic trees. J Mol Evol. 25, 351-360 (1987).
  5. Persson, B. Bioinformatics in protein analysis. EXS. 88, 215-231 (2000).
  6. Sievers, F., et al. Fast, scalable generation of high-quality protein multiple sequence alignments using Clustal Omega. Mol Syst Biol. 7, 539 (2011).
  7. Sievers, F., Higgins, D. G. Clustal omega. Curr Protoc Bioinformatics. 48, 1-16 (2014).
  8. Yang, Z., Rannala, B. Molecular phylogenetics: principles and practice. Nat Rev Genet. 13, 303-314 (2012).
  9. Hall, B. G. Comparison of the accuracies of several phylogenetic methods using protein and DNA sequences. Mol Biol Evol. 22, 792-802 (2005).
  10. Tamura, K., Stecher, G., Peterson, D., Filipski, A., Kumar, S. MEGA6: Molecular Evolutionary Genetics Analysis version 6.0. Mol Biol Evol. 30, 2725-2729 (2013).
  11. Ronquist, F., et al. MrBayes 3.2: efficient Bayesian phylogenetic inference and model choice across a large model space. Syst Biol. 61, 539-542 (2012).
  12. Chen, L. Q., et al. Sugar transporters for intercellular exchange and nutrition of pathogens. Nature. 468, 527-532 (2010).
  13. Xuan, Y., et al. Functional role of oligomerization for bacterial and plant SWEET sugar transporter family. Proc Natl Acad Sci USA. 110, 3685-3694 (2013).
  14. Hu, Y., et al. Phylogenetic evidence for a fusion of archaeal and bacterial SemiSWEETs to form eukaryotic SWEETs and identification of SWEET hexose transporters in the amphibian chytrid pathogen Batrachochytrium dendrobatidis. FASEB J. 30, 3644-3654 (2016).
  15. Holder, M. T., Zwickl, D. J., Dessimoz, C. Evaluating the robustness of phylogenetic methods to among-site variability in substitution processes. Philos Trans R Soc Lond B Biol Sci. 363, 4013-4021 (2008).
  16. Alfaro, M. E., Holder, M. T. The Posterior and the Prior in Bayesian Phylogenetics. Annu Rev Ecol Evol Syst. 37, 19-42 (2006).
  17. Suchard, M., Rambaut, A. Many-core algorithms for statistical phylogenetics. Bioinformatics. 25, 1370-1376 (2009).
  18. Zierke, S., Bakos, J. FPGA acceleration of the phylogenetic likelihood function for Bayesian MCMC inference methods. BMC Bioinformatics. 11, 184 (2010).

Play Video

Diesen Artikel zitieren
Zhang, D., Kan, X., Huss, S. E., Jiang, L., Chen, L., Hu, Y. Using Phylogenetic Analysis to Investigate Eukaryotic Gene Origin. J. Vis. Exp. (138), e56684, doi:10.3791/56684 (2018).

View Video