Summary

Met behulp van fylogenetische analyse te onderzoeken van eukaryotische Gene oorsprong

Published: August 14, 2018
doi:

Summary

Een methode van de bouw van een fylogenetische boom op basis van volgorde homologie van snoepjes van eukaryoten en SemiSWEETs van prokaryoten wordt beschreven. Fylogenetische analyse is een nuttig instrument voor het verklaren van de evolutionaire verwantschap tussen homologe proteïnen of genen uit verschillende organisme groepen.

Abstract

Fylogenetische analyse nucleotide of aminozuur sequenties of andere parameters, zoals domein sequenties en driedimensionale structuur, gebruikt voor de bouw van een boom om te laten zien van de evolutionaire relatie tussen verschillende taxa (classificatie eenheden) op de moleculaire niveau. Fylogenetische analyse kan ook worden gebruikt om te onderzoeken domein verhoudingen binnen een afzonderlijke taxon, met name voor organismen die ondergaan hebben aanzienlijke wijzigen in de morfologie en fysiologie, maar voor welke onderzoekers gebrek aan fossiele bewijsmateriaal wijten aan de organismen lange evolutionaire geschiedenis of schaarste van fossilization.

In deze tekst wordt een gedetailleerd protocol beschreven volgens de fylogenetische methode, met inbegrip van aminozuur sequentie alignering gebruiken Clustal Omega, en de bouw van de latere fylogenetische boom met behulp van beide Maximum waarschijnlijkheid (ML) van moleculaire en evolutionaire genetica Analyse (MEGA) en Bayesian gevolgtrekking via MrBayes. Om te onderzoeken de oorsprong van eukaryotische Suikers zal uiteindelijk worden geëxporteerd vervoerders (zoet) genen, werden 228 snoepjes met inbegrip van 35 zoete eiwitten van eencellige eukaryoten en 57 SemiSWEET eiwitten van prokaryoten geanalyseerd. Interessant, SemiSWEETs werden gevonden in prokaryoten, maar snoep werden gevonden in eukaryoten. Twee fylogenetische bomen gebouwd met behulp van theoretisch verschillende methoden hebben consequent voorgesteld dat het eerste eukaryotische zoete gen vloeien uit de fusie van een bacteriële SemiSWEET gen en een archaeële SemiSWEET gen voort kan. Het is vermeldenswaard dat men moet voorzichtig zijn om te trekken van een conclusie alleen gebaseerd op fylogenetische analyse, hoewel het nuttig is om uit te leggen van de onderliggende relatie tussen verschillende taxa, die is moeilijk of zelfs onmogelijk te onderscheiden door middel van experimentele middelen .

Introduction

DNA of RNA-sequenties dragen genetische informatie voor onderliggende fenotypen die kunnen worden geanalyseerd door middel van fysiologische en biochemische methoden of waargenomen door morfologische en fossiele bewijsmateriaal. In een zin is genetische informatie betrouwbaarder dan de evaluatie van externe fenotypen, omdat de eerstgenoemde de basis voor de laatste is. In de studie van het evolutionaire is fossiele bewijsmateriaal zeer direct en overtuigend. Veel organismen, zoals micro-organismen, hebben echter weinig kans om te vormen van een fossiele tijdens lange geologische leeftijden. Daarom, moleculaire informatie zoals nucleotidesequenties en aminozuur-sequenties van verwante extant organismen zijn van waarde voor het verkennen van de evolutionaire relaties1. In de huidige studie, was een eenvoudige inleiding van fylogenetische basiskennis en een easy-to-learn protocol voorzien door nieuwkomers die moeten opbouwen van een fylogenetische boom op hun eigen.

Zowel DNA (nucleotide) en eiwit (aminozuur) sequenties kunnen afleiden van de fylogenetische relaties tussen homologe genen, organellen of zelfs organismen2worden gebruikt. DNA-sequenties zijn meer kans om te worden beïnvloed door veranderingen tijdens de evolutie. Aminozuur sequenties zijn daarentegen veel stabieler, gezien het feit dat synoniem mutaties in nucleotidesequenties geen mutaties in aminozuur sequenties veroorzaken. Dientengevolge, zijn DNA-sequenties nuttig voor vergelijking van homologe genen van nauw verwante organismen, terwijl aminozuur sequenties geschikt voor homologe genen van verte verwante organismen3 zijn.

Een fylogenetische analyse begint met de uitlijning van aminozuur of nucleotide sequences4 ontvangen van een geannoteerde genoom sequencing database5 vermeld in FASTA formaat, dat wil zeggen, vermeende of uitgedrukt proteïne sequenties, RNA-sequenties , of DNA-sequenties. Het is vermeldenswaard dat het is van cruciaal belang voor het verzamelen van kwalitatief hoogwaardige sequenties voor de analyse, en alleen homologe reeksen kunnen worden gebruikt voor het analyseren van verwantschappen. Veel verschillende platforms zoals Clustal W, Clustal X, spier, T-coffee, MAFFT, kan worden gebruikt voor de sequentie alignering. De meest gebruikte Clustal Omega6,7 (http://www.ebi.ac.uk/Tools/msa/clustalo/), die kunnen online worden gebruikt of kan gratis gedownload worden is kosteloos. De uitlijning tool heeft veel parameters die de gebruiker kan aanpassen voordat u de uitlijning, maar de standaardparameters werken goed in de meeste gevallen. Nadat het proces voltooid is, moeten de sequenties die zijn uitgelijnd worden opgeslagen in de juiste indeling voor de volgende stap. Ze moeten vervolgens worden bewerkt of ingekort met behulp van een software voor videobewerking, zoals BioEdit, omdat de fylogenetische boom constructie door MEGA vergt de sequenties van gelijke lengte (met inbegrip van zowel aminozuur afkortingen en afbreekstreepjes. In de gebonden reeks, elke positie zonder een aminozuur of nucleotide wordt vertegenwoordigd door een koppelteken “-“). In het algemeen, alle uitstekende aminozuren of nucleotiden aan weerszijden van de uitlijning moet worden verwijderd. Kolommen met slecht uitgelijnde sequenties in de uitlijning kunnen bovendien worden verwijderd omdat ze weinig waardevolle informatie overbrengen, en soms verwarrend of valse informatie3kunnen geven. Op dit moment of in de latere fase van de boom bouw, kunnen de kolommen met een of meer afbreekstreepjes worden verwijderd. Als alternatief, ze kunnen worden gebruikt voor fylogenetische berekening. Wanneer de sequentie alignering en trimmen is voltooid, moeten de sequenties die zijn uitgelijnd worden opgeslagen in FASTA, en het gewenste formaat, voor later gebruik.

Veel softwareplatformen bieden boom bouw functies met behulp van verschillende methoden of algoritmen. In het algemeen, kunnen de methoden worden geclassificeerd als afstand matrix methoden of discrete gegevens methoden. Afstand matrix methoden zijn eenvoudig en snel te berekenen, terwijl de afzonderlijke methoden zijn ingewikkeld en tijdrovend. Voor zeer nauw verwante taxa met een hoge mate van delen van aminozuur of nucleotide sequentie identiteit, een afstand matrix methode (Neighbor toetreden: NJ; Ongewogen paar methode met rekenkundig gemiddelde Group: UPGMA) van toepassing is; voor zijdelings verwante taxa, een discrete data, methode (Maximum Likelihood: ML; Maximale spaarzaamheid: MP; Bayesian gevolgtrekking) is optimale3,8. In deze studie werden de ML-methoden van MEGA (6.0.6) en Bayesian gevolgtrekking (MrBayes 3.2) toegepast voor de bouw van de fylogenetische bomen9. Ideaal, wanneer het juiste model en de parameters worden gebruikt, de resultaten afgeleid van verschillende methoden kunnen worden consistent, en ze zijn dus betrouwbaarder en overtuigend.

Voor een ML fylogenetische boom gebouwd met behulp van MEGA10, moet het bestand van de gebonden reeks in FASTA indeling worden geüpload in het programma. De eerste stap is dan om te selecteren van het model van de optimale vervanging voor de geüploade gegevens. Alle beschikbare vervanging modellen worden vergeleken op basis van de geüploade sequenties, en hun definitieve scores worden getoond in een tabel van de resultaten. Selecteer het model met de kleinste Bayesian informatie criterium (BIC) score (als eerste vermeld in de tabel), ML parameters volgens de aanbevolen model instellen en beginnen met de berekening. De rekentijd varieert van enkele minuten tot enkele dagen, afhankelijk van de complexiteit van de geladen gegevens (lengte van de sequenties en aantal taxa) en de prestaties van de computer waarop de programma’s worden uitgevoerd. Wanneer de berekening is voltooid, wordt een fylogenetische boom getoond in een nieuw venster. Sla het bestand op als “FileName.mat”. Na het instellen van parameters om op te geven van het uiterlijk van de boom, sla nogmaals. Met deze methode, kunt MEGA genereren publicatie rang fylogenetische boom cijfers.

Voor de bouw van de boom met MrBayes11is de eerste stap om de uitgelijnde reeks, die meestal is vermeld in FASTA formaat, transformeren naar nexus-indeling (.nex als het bestandstype). FASTA bestanden omzetten naar nexus-indeling kan worden verwerkt in de MEGA. De volgorde van de uitgelijnd in nexus formaat kan vervolgens worden geüpload in MrBayes. Wanneer het bestand is geüpload, geeft gedetailleerde parameters voor de berekening van de boom. Deze parameters omvatten gegevens zoals aminozuur vervanging model, variatie tarieven, ketting nummer voor Markov chain Monte Carlo (MCMC), koppeling, ngen nummer, gemiddelde standaardafwijking van frequenties van het split, enzovoort. Nadat deze parameters zijn opgegeven, start de berekening. Op het einde, wordt twee cijfers van de boom in de code van de ASC II, één weergegeven: clade geloofwaardigheid en de andere weergegeven: tak lengtes, getoond op het scherm.

Het resultaat van de boom zal automatisch worden opgeslagen als “FileName.nex.con”. Deze boom-bestand kan worden geopend en bewerkt door FigTree, en de figuur weergegeven in FigTree verder om het te maken meer geschikt voor publicatie kan worden gewijzigd.

In deze studie werden 228 zoete eiwitten, met inbegrip van 35 snoep van eencellige eukaryoten en 57 SemiSWEETs van prokaryoten, geanalyseerd als voorbeeld. Zowel de snoep en SemiSWEETs werden gekenmerkt als glucose, fructose of sacharose vervoerders over membranen12,13. Fylogenetische analyse blijkt dat de twee MtN3/speeksel domeinen met snoep op een evolutionaire samensmelting van een bacteriële SemiSWEET en een archaeon14kunnen worden ontleend.

Protocol

1. sequentie alignering Aminozuur sequenties van eukaryotische SWEET en prokaryote SemiSWEET in afzonderlijke documenten verzamelen en hen een lijst maken in FASTA formaat. Download sequenties van het National Center voor biotechnologie informatie (NCBI), Europees laboratorium voor moleculaire biologie (EMBL) en de DNA-databank van Japan (DDBJ) databases door gelijkaardigheidsonderzoek met het gereedschap Basic lokale Alignment Search Tool (BLAST). In de voorbeeldbestanden, het verza…

Representative Results

Fylogenetische bomen vertonen dat alle van de eerste MtN3/speeksel domeinen van de 35 zoete sequenties geclusterd als een clade en de tweede MtN3/speeksel domeinen van de zoete sequences geclusterd als een ander clade. Bovendien, blijkt uitlijning van de snoep en SemiSWEETs dat sommige SemiSWEETs van α-de Proteobacteria uitgelijnd met het eerste MtN3/speeksel-domein van de zoete sequenties, overwegende dat SemiSWEETs van Methanobacteria (archaea) afgestemd op de tweede MtN3/speeksel dome…

Discussion

Het wordt steeds populairder in biologisch onderzoek om een fylogenetische boom op basis van nucleotide of aminozuur sequenties8. In het algemeen zijn er drie kritische fasen van de praktijk, met inbegrip van de sequentie alignering, evaluatie van de sequenties die zijn uitgelijnd met de juiste methode of algoritme en visualisatie van het rekenkundige resultaat als een fylogenetische boom. In de gepresenteerde studie, drie rondes van sequentie alignering werden uitgevoerd: eerst de zoete proteïne…

Disclosures

The authors have nothing to disclose.

Acknowledgements

Dit werk werd gesteund door de nationale Natural Science Foundation van China (31371596), het onderzoekscentrum van de Bio-technologie, China drie kloven University (2016KBC04) en de Stichting van de natuurwetenschappen van de oostelijke provincie Jiangsu, China (BK20151424).

Materials

Adobe Illustration a graphical tool developed by Adobe Systems Software Ireland Ltd. Copyright © 2017
BioEdit a biological sequence alignment editor written for Windows 95/98/NT/2000/XP/7. Copyright © Tom Hall
Clustal Omega a package for making multiple sequence alignments of amino acid or nucleotide sequences.  http://www.clustal.org/
CorelDRAW a graphic design software. Copyright © 2017 Corel Corporation
FigTree a graphical viewer of phylogenetic trees designed by the University of Edinburgh
MEGA MolecularEvolutionary Genetics Analysis version6.0 http://www.megasoftware.net/home
MrBayes an Bayesian phylogenetic inference tool
NVIDIA a company designs graphics processing units (GPUs) for the gaming and professional markets. Corporation Copyright © 2017
PAUP Phylogenetic Analysis Using Parsimony. David Swofford's program implements the maximum likelihood method under a number of nucleotide models.
Photoshop a raster graphics editor developed and published by Adobe Systems Software Ireland Ltd. Copyright © 2017
RHYTHM a knowledge based prediction of hekix contacts. Charité Berlin – Protein Formatics Group – Copyright 2007-2009
TMHMM a tool for prediction of transmembrane helices in proteins. http://www.cbs.dtu.dk/services/TMHMM/
Compter 4GB memory, Core 2 or above CPU. Windows 7, Windows 10

References

  1. Nei, M., Kumar, S. . Molecular Evolution and Phylogenetics. , (2000).
  2. Foth, B. J. Phylogenetic analysis to uncover organellar origins of nuclear-encoded genes. Methods Mol Biol. 390, 467-488 (2007).
  3. Baldauf, S. L. Phylogeny for the faint of heart: a tutorial. Trends Genet. 19, 345-351 (2003).
  4. Feng, D. F., Doolittle, R. F. Progressive sequence alignment as a prerequisite to correct phylogenetic trees. J Mol Evol. 25, 351-360 (1987).
  5. Persson, B. Bioinformatics in protein analysis. EXS. 88, 215-231 (2000).
  6. Sievers, F., et al. Fast, scalable generation of high-quality protein multiple sequence alignments using Clustal Omega. Mol Syst Biol. 7, 539 (2011).
  7. Sievers, F., Higgins, D. G. Clustal omega. Curr Protoc Bioinformatics. 48, 1-16 (2014).
  8. Yang, Z., Rannala, B. Molecular phylogenetics: principles and practice. Nat Rev Genet. 13, 303-314 (2012).
  9. Hall, B. G. Comparison of the accuracies of several phylogenetic methods using protein and DNA sequences. Mol Biol Evol. 22, 792-802 (2005).
  10. Tamura, K., Stecher, G., Peterson, D., Filipski, A., Kumar, S. MEGA6: Molecular Evolutionary Genetics Analysis version 6.0. Mol Biol Evol. 30, 2725-2729 (2013).
  11. Ronquist, F., et al. MrBayes 3.2: efficient Bayesian phylogenetic inference and model choice across a large model space. Syst Biol. 61, 539-542 (2012).
  12. Chen, L. Q., et al. Sugar transporters for intercellular exchange and nutrition of pathogens. Nature. 468, 527-532 (2010).
  13. Xuan, Y., et al. Functional role of oligomerization for bacterial and plant SWEET sugar transporter family. Proc Natl Acad Sci USA. 110, 3685-3694 (2013).
  14. Hu, Y., et al. Phylogenetic evidence for a fusion of archaeal and bacterial SemiSWEETs to form eukaryotic SWEETs and identification of SWEET hexose transporters in the amphibian chytrid pathogen Batrachochytrium dendrobatidis. FASEB J. 30, 3644-3654 (2016).
  15. Holder, M. T., Zwickl, D. J., Dessimoz, C. Evaluating the robustness of phylogenetic methods to among-site variability in substitution processes. Philos Trans R Soc Lond B Biol Sci. 363, 4013-4021 (2008).
  16. Alfaro, M. E., Holder, M. T. The Posterior and the Prior in Bayesian Phylogenetics. Annu Rev Ecol Evol Syst. 37, 19-42 (2006).
  17. Suchard, M., Rambaut, A. Many-core algorithms for statistical phylogenetics. Bioinformatics. 25, 1370-1376 (2009).
  18. Zierke, S., Bakos, J. FPGA acceleration of the phylogenetic likelihood function for Bayesian MCMC inference methods. BMC Bioinformatics. 11, 184 (2010).

Play Video

Cite This Article
Zhang, D., Kan, X., Huss, S. E., Jiang, L., Chen, L., Hu, Y. Using Phylogenetic Analysis to Investigate Eukaryotic Gene Origin. J. Vis. Exp. (138), e56684, doi:10.3791/56684 (2018).

View Video