Summary

Utilizando el análisis filogenético para investigar origen de genes eucariotas

Published: August 14, 2018
doi:

Summary

Se describe un método de construir un árbol filogenético basado en la homología de la secuencia de dulces de eucariotas y SemiSWEETs de procariotas. El análisis filogenético es una herramienta útil para explicar la relación evolutiva entre genes o proteínas homólogas de grupos de organismo diferente.

Abstract

El análisis filogenético utiliza nucleótido o aminoácido secuencias u otros parámetros, tales como secuencias de dominio y estructura tridimensional, para construir un árbol para mostrar la relación evolutiva entre diferentes taxones (unidades de clasificación) en el molecular nivel. El análisis filogenético puede utilizarse también para investigar las relaciones de dominio dentro de un taxón individual, particularmente para los organismos que han sufrido importantes cambian en morfología y fisiología, pero para que los investigadores carecen de evidencia fósil debido a la organismos larga historia evolutiva o escasez de fosilización.

En este texto, se describe un protocolo detallado para el método filogenético incluyendo alineamiento de secuencias de aminoácidos usando Clustal Omega y construcción subsecuente árbol filogenético usando ambos máxima probabilidad (ML) de la genética evolutiva Molecular Análisis (MEGA) y la inferencia bayesiana través de MrBayes. Para investigar el origen de genes eucarióticos Azúcares será eventualmente ser exportado transportadores (dulce), se analizaron 228 dulces incluyendo 35 dulce proteínas de eucariotas unicelulares y 57 semidulces proteínas de procariotes. Curiosamente, SemiSWEETs se encuentra en procariotas, pero dulces se encuentran en eucariotas. Dos árboles filogenéticos construidos mediante métodos teóricamente distintos han sugerido consistentemente que el primer eucariota gen dulce podría provienen de la fusión de un gen bacteriano semidulce y un gen de archaeal semidulce. Cabe señalar que uno debe ser cauteloso al sacar una conclusión basada solo en el análisis filogenético, aunque es útil explicar la relación subyacente entre diferentes taxones, que es difícil o incluso imposible de discernir a través de medios experimentales .

Introduction

Secuencias de ADN o ARN llevan la información genética de fenotipos subyacentes que pueden ser analizados mediante métodos fisiológicos y bioquímicos u observada a través de pruebas morfológicas y fósiles. En cierto sentido, la información genética es más confiable que evaluar fenotipos externos porque el primero es la base para el último. En el estudio evolutivo, la evidencia fósil es muy directa y convincente. Sin embargo, muchos organismos, tales como microorganismos, tienen pocas posibilidades para formar un fósil durante edades del tiempo geológicas. Por lo tanto, información molecular como secuencias del nucleotide y del aminoácido secuencias de organismos existentes relacionados son de valor para explorar relaciones evolutivas1. En el presente estudio, una simple introducción de un protocolo fácil de aprender y conocimientos filogenéticos básicos fue proporcionada para los recién llegados que necesitan para construir un árbol filogenético por cuenta propia.

ADN (nucleótidos) y secuencias de la proteína (aminoácidos) pueden utilizarse para inferir relaciones filogenéticas entre genes homólogos, organelos o incluso organismos2. Secuencias de ADN son más propensos a ser afectados por los cambios durante la evolución. Por el contrario, secuencias de aminoácidos son mucho más estables ya que sinónimo de mutaciones en secuencias de nucleótidos no causan mutaciones en secuencias de aminoácidos. Como resultado, las secuencias de ADN son útiles para la comparación de genes homólogos de organismos estrechamente relacionados, mientras que secuencias de aminoácidos son apropiadas para los genes homólogos de organismos distante relacionados3.

Un análisis filogenético se inicia con la alineación de aminoácidos o nucleótidos secuencias4 Obtenido de un genoma anotado secuenciación base de datos5 listados en formato FASTA, es decir, expresa o supuesta proteína secuencias, secuencias de ARN , o secuencias de ADN. Cabe destacar que es fundamental reunir secuencias de alta calidad para el análisis y secuencias homólogas sólo pueden utilizarse para analizar las relaciones filogenéticas. Muchas plataformas diferentes como Clustal W, Clustal X, músculo, T-coffee, MAFFT, puede ser utilizado para alineamiento de secuencias. El más ampliamente utilizado es Clustal Omega6,7 (http://www.ebi.ac.uk/Tools/msa/clustalo/), que puede ser utilizado en línea o puede descargarse gratis de forma gratuita. La herramienta de alineación tiene muchos parámetros que el usuario puede ajustar antes de comenzar la alineación, pero los parámetros predeterminados funcionan bien en la mayoría de los casos. Una vez finalizado el proceso, las secuencias alineadas se guardará en el formato correcto para el siguiente paso. Que entonces deben ser editados o recortan utilizando un software de edición, como BioEdit, porque la construcción del árbol filogenético por MEGA requiere las secuencias de igual longitud (incluyendo las abreviaturas del aminoácido y guiones. En la secuencia alineada, cualquier posición sin aminoácidos o nucleótidos es representado por un guión “-“). En general, todos los que sobresalen los aminoácidos o nucleótidos en los extremos de la alineación se deben retirar. Además, se pueden eliminar columnas que contienen secuencias mal alineadas en la alineación porque transmiten poca información valiosa y a veces puede dar información confusa o falsa3. En este momento o en la posterior etapa de construcción de árbol se pueden eliminar las columnas que contienen uno o más guiones. Alternativamente, puede utilizarse para cómputo filogenética. Cuando termine el alineamiento de secuencias y el ajuste, las secuencias alineadas se guardará en formato FASTA, o en el formato deseado, para su uso posterior.

Muchas plataformas de software proporcionan funciones de construcción de árbol utilizando diferentes métodos o algoritmos. En general, los métodos se pueden clasificar como métodos de matriz de distancia o métodos de datos discretos. Métodos de matriz de distancia son sencillos y rápidos de calcular, mientras que los métodos de datos discretos son complicados y lentos. Para taxa estrechamente relacionados con un alto grado de intercambio de identidad de secuencia de aminoácidos o nucleótidos, un método de la matriz de distancia (Neighbor Joining: NJ; Método de grupo par no ponderado con la media aritmética: UPGMA) es apropiado; para taxa lejanamente relacionados, un método de datos discretos (máxima verosimilitud: ML; Máxima parsimonia: MP; Inferencia bayesiana) es optimo3,8. En este estudio, se aplicaron los métodos de ML en MEGA (6.0.6) y la inferencia bayesiana (MrBayes 3.2) para construir árboles filogenéticos9. Idealmente, cuando el modelo correcto y los parámetros se utilizan, los resultados derivados de métodos pueden ser consistentes, y son así más fiable y convincente.

Un árbol filogenético de ML construidos con MEGA10, debe cargarse en el archivo de alineación de la secuencia en formato FASTA en el programa. Entonces el primer paso es seleccionar el modelo de sustitución óptima de los datos cargados. Todos los modelos de sustitución disponible se comparan en base a las secuencias subidas, y sus puntuaciones finales se mostrarán en una tabla de resultados. Seleccione el modelo con el menor puntaje de criterio de información Bayesiano (BIC) (aparece primero en la tabla), ajustar parámetros de ML según el modelo recomendado y comenzar el cómputo. El tiempo de cálculo varía desde varios minutos a varios días, dependiendo de la complejidad de los datos cargados (longitud de las secuencias y el número de taxones) y el rendimiento de la computadora en la cual se ejecutan los programas. Cuando haya terminado el cómputo, un árbol filogenético se mostrará en una ventana nueva. Guarde el archivo como “FileName.mat”. Tras la configuración de parámetros para especificar el aspecto del árbol, excepto una vez más. Usando este método, MEGA puede generar cifras de publicación grado árbol filogenético.

Para la construcción del árbol con MrBayes11, el primer paso es transformar la secuencia alineada, que generalmente aparece en formato FASTA, en formato nexus (.nex como el tipo de archivo). Transformar archivos FASTA en formato nexus puede ser procesado en MEGA. A continuación, la secuencia alineada en formato nexus puede cargarse en MrBayes. Cuando el archivo es cargado con éxito, especificar parámetros detallados para el cómputo del árbol. Estos parámetros incluyen detalles como el modelo de sustitución de aminoácido, tasas de variación, número de cadena de cadena de Markov Monte Carlo (MCMC), enganche, número de ngen, promedio desviación estándar de división de frecuencias y así sucesivamente. Después de han sido especificados estos parámetros, iniciar el cómputo. Al final, dos figuras de árbol en código ASC II, un mostrando clade credibilidad y las otras longitudes de rama de mostrar, aparecerá en la pantalla.

El resultado del árbol se guardará automáticamente como “FileName.nex.con”. Este archivo de árbol puede ser abierto y editado por FigTree, y la cifra que se muestra en FigTree puede modificarse para que sea más conveniente para su publicación.

En este estudio, se analizaron 228 proteínas dulces, incluyendo 35 dulces de eucariotas unicelulares y 57 SemiSWEETs de procariotas, por ejemplo. Los dulces y SemiSWEETs fueron caracterizados como glucosa, fructosa o sacarosa transportistas a través de las membranas12,13. Análisis filogenético sugiere que los dos dominios MtN3/saliva que contiene dulces podrían ser derivados de una fusión evolutiva de un SemiSWEET bacteriana y de un archaeon14.

Protocol

1. alineación de la secuencia Recoge secuencias de aminoácidos de dulce eucariótico y procariótico SemiSWEET en documentos separados y lista en formato FASTA. Descargar secuencias del centro nacional para información biotecnológica (NCBI), laboratorio de Biología Molecular europeo (EMBL) y el Banco de datos de ADN de bases de datos de Japón (DDBJ) por la búsqueda de similitud con la herramienta básica Local herramienta alineación de la búsqueda (BLAST). En los archivos de…

Representative Results

Árboles filogenéticos muestran que todos los dominios MtN3/saliva primera de las secuencias dulce 35 agrupan como un clado y los dominios MtN3/saliva segundo de las dulces secuencias agrupadas como otro clado. Además, resultados de alineación de los dulces y SemiSWEETs muestran que algunos SemiSWEETs de α-proteobacterias alineación con el primer dominio MtN3/saliva de las secuencias del dulce, mientras que SemiSWEETs de Methanobacteria (archaea) alineación con la segunda MtN3/saliv…

Discussion

Es cada vez más popular en la investigación biológica para hacer un árbol filogenético basado en nucleótido o aminoácido secuencias8. Generalmente, hay tres etapas críticas de la práctica incluyendo la alineación de la secuencia, evaluación de las secuencias alineadas con el método apropiado o algoritmo y visualización de los resultados computacionales como un árbol filogenético. En el estudio presentado, se llevaron a cabo tres rondas de la alineación de la secuencia: en primer lu…

Disclosures

The authors have nothing to disclose.

Acknowledgements

Este trabajo fue apoyado por la Fundación Nacional de Ciencias naturales de China (31371596), el centro de investigación de biotecnología, Universidad de China tres gargantas (2016KBC04) y la Fundación de Ciencias naturales de la provincia de Jiangsu, China (BK20151424).

Materials

Adobe Illustration a graphical tool developed by Adobe Systems Software Ireland Ltd. Copyright © 2017
BioEdit a biological sequence alignment editor written for Windows 95/98/NT/2000/XP/7. Copyright © Tom Hall
Clustal Omega a package for making multiple sequence alignments of amino acid or nucleotide sequences.  http://www.clustal.org/
CorelDRAW a graphic design software. Copyright © 2017 Corel Corporation
FigTree a graphical viewer of phylogenetic trees designed by the University of Edinburgh
MEGA MolecularEvolutionary Genetics Analysis version6.0 http://www.megasoftware.net/home
MrBayes an Bayesian phylogenetic inference tool
NVIDIA a company designs graphics processing units (GPUs) for the gaming and professional markets. Corporation Copyright © 2017
PAUP Phylogenetic Analysis Using Parsimony. David Swofford's program implements the maximum likelihood method under a number of nucleotide models.
Photoshop a raster graphics editor developed and published by Adobe Systems Software Ireland Ltd. Copyright © 2017
RHYTHM a knowledge based prediction of hekix contacts. Charité Berlin – Protein Formatics Group – Copyright 2007-2009
TMHMM a tool for prediction of transmembrane helices in proteins. http://www.cbs.dtu.dk/services/TMHMM/
Compter 4GB memory, Core 2 or above CPU. Windows 7, Windows 10

References

  1. Nei, M., Kumar, S. . Molecular Evolution and Phylogenetics. , (2000).
  2. Foth, B. J. Phylogenetic analysis to uncover organellar origins of nuclear-encoded genes. Methods Mol Biol. 390, 467-488 (2007).
  3. Baldauf, S. L. Phylogeny for the faint of heart: a tutorial. Trends Genet. 19, 345-351 (2003).
  4. Feng, D. F., Doolittle, R. F. Progressive sequence alignment as a prerequisite to correct phylogenetic trees. J Mol Evol. 25, 351-360 (1987).
  5. Persson, B. Bioinformatics in protein analysis. EXS. 88, 215-231 (2000).
  6. Sievers, F., et al. Fast, scalable generation of high-quality protein multiple sequence alignments using Clustal Omega. Mol Syst Biol. 7, 539 (2011).
  7. Sievers, F., Higgins, D. G. Clustal omega. Curr Protoc Bioinformatics. 48, 1-16 (2014).
  8. Yang, Z., Rannala, B. Molecular phylogenetics: principles and practice. Nat Rev Genet. 13, 303-314 (2012).
  9. Hall, B. G. Comparison of the accuracies of several phylogenetic methods using protein and DNA sequences. Mol Biol Evol. 22, 792-802 (2005).
  10. Tamura, K., Stecher, G., Peterson, D., Filipski, A., Kumar, S. MEGA6: Molecular Evolutionary Genetics Analysis version 6.0. Mol Biol Evol. 30, 2725-2729 (2013).
  11. Ronquist, F., et al. MrBayes 3.2: efficient Bayesian phylogenetic inference and model choice across a large model space. Syst Biol. 61, 539-542 (2012).
  12. Chen, L. Q., et al. Sugar transporters for intercellular exchange and nutrition of pathogens. Nature. 468, 527-532 (2010).
  13. Xuan, Y., et al. Functional role of oligomerization for bacterial and plant SWEET sugar transporter family. Proc Natl Acad Sci USA. 110, 3685-3694 (2013).
  14. Hu, Y., et al. Phylogenetic evidence for a fusion of archaeal and bacterial SemiSWEETs to form eukaryotic SWEETs and identification of SWEET hexose transporters in the amphibian chytrid pathogen Batrachochytrium dendrobatidis. FASEB J. 30, 3644-3654 (2016).
  15. Holder, M. T., Zwickl, D. J., Dessimoz, C. Evaluating the robustness of phylogenetic methods to among-site variability in substitution processes. Philos Trans R Soc Lond B Biol Sci. 363, 4013-4021 (2008).
  16. Alfaro, M. E., Holder, M. T. The Posterior and the Prior in Bayesian Phylogenetics. Annu Rev Ecol Evol Syst. 37, 19-42 (2006).
  17. Suchard, M., Rambaut, A. Many-core algorithms for statistical phylogenetics. Bioinformatics. 25, 1370-1376 (2009).
  18. Zierke, S., Bakos, J. FPGA acceleration of the phylogenetic likelihood function for Bayesian MCMC inference methods. BMC Bioinformatics. 11, 184 (2010).

Play Video

Cite This Article
Zhang, D., Kan, X., Huss, S. E., Jiang, L., Chen, L., Hu, Y. Using Phylogenetic Analysis to Investigate Eukaryotic Gene Origin. J. Vis. Exp. (138), e56684, doi:10.3791/56684 (2018).

View Video