El objetivo de este protocolo es desarrollar una referencia para proteínas divergentes en un grupo que carece de criterios coherentes para la nomenclatura y clasificación. Esta referencia facilitará el análisis y la discusión del grupo como un todo y puede ser utilizada además de nombres establecidos.
Relacionados con proteínas que han sido estudiadas en diferentes laboratorios utilizando diferentes organismos pueden carecer de un sistema uniforme de nomenclatura y clasificación, lo que hace difícil discutir el grupo como un todo y poner nuevas secuencias en el contexto adecuado. Desarrollar una referencia que da prioridad a las características de secuencia importante relacionados con la estructura o actividad puede utilizarse además de nombres establecidos para agregar cierta coherencia a un grupo diverso de proteínas. Este papel utiliza la superfamilia cisteína estabiliza hélice de la alfa (CS-αβ) como ejemplo para mostrar cómo una referencia generada en software de hoja de cálculo puede aclarar las relaciones entre las proteínas existentes en la superfamilia, así como facilitar la incorporación de nuevos secuencias. También muestra cómo la referencia puede ayudar a refinar las alineaciones de la secuencia generadas en el software utilizado, que afecta la validez de los análisis filogenéticos. El uso de una referencia probablemente sea más útil para los grupos de proteínas que incluyen secuencias altamente divergentes de una amplia gama de taxa, con características que no son adecuadamente capturados por los análisis moleculares.
Nombre de la proteína debe reflejan características y relación con otras proteínas. Desafortunadamente, los nombres se asignan generalmente en el momento del descubrimiento y, como la investigación continúa, puede cambiar la comprensión de un contexto más amplio. Esto puede conducir a varios nombres si una proteína fue identificada independientemente por más de un laboratorio, cambios de nomenclatura o en las características probablemente definitivo al asignar el nombre y el nombre no más suficientemente diferenciando la proteína de los demás.
Defensinas invertebrados proporcionan un buen ejemplo de la degeneración en la nomenclatura y clasificación. Los primeros invertebrados defensinas se informaron de los insectos, y el nombre “insectos Defensina” fue propuesto en base a la homología percibida a mamíferos defensinas1,2. La Defensina del término todavía se utiliza, aunque es claro defensinas invertebrados y mamíferos no comparten un ancestro común3,4. Dependiendo de la especie, un invertebrado “Defensina” puede tener seis u ocho cisteínas (que forman tres o cuatro enlaces disulfuro) y una variedad de actividad antimicrobiana. Para complicar la situación, las proteínas con las mismas características como defensinas no se llaman siempre “defensinas”, como el recientemente identificado cremycins de Caenorhabditis remanei5. Además, son más probables ser evolutivamente relacionados con vertebrados β-defensinas que a otros invertebrados defensinas6defensinas grandes invertebrados. A pesar de ello, los investigadores dependen a veces el nombre “Defensina” al determinar que secuencias deben incluirse en el análisis.
Estudios estructurales revelaron la similitud entre insectos defensinas y toxinas de escorpión7, y el doblez del CS-αβ fue establecido como la característica definitoria de la estructural de defensinas insectos8. Este pliegue define la superfamilia de (CS-αβ) similar a la toxina de escorpión en la clasificación estructural de las proteínas (SCOP) base de datos9, que actualmente incluye cinco familias: insectos defensinas, las toxinas de escorpión de cadena corta, toxinas de escorpión de cadena larga, MGD-1 (a partir de un molusco) y defensinas de plantas. Esta superfamilia es sinónimo con el recientemente descrito cis-defensinas4 y Superfamilia 3.30.30.10 en la Gene Cateterismo 3D base de datos10,11. Estudios de una variedad de taxones invertebrados, plantas y hongos mostrar que los nombres de las proteínas que contienen este redil no están claramente relacionados con número de cisteína o patrón de la vinculación, actividad antimicrobiana o historia evolutiva12.
La falta de coherencia y criterios claros hacen difícil de nombrar y clasificar secuencias identificados recientemente en esta superfamilia. Un obstáculo importante para la comparación de proteínas en esta superfamilia es que cisteínas están numeradas con respecto a cada secuencia individual (la primera cisteína en cada secuencia es C1), sin posibilidad para tener en cuenta la función estructural. Esto significa que se pueden comparar solamente las secuencias con el mismo número de cisteínas. Hay poca conservación de secuencia que no sea de las cisteínas forman el pliegue CS-αβ, que dificulta el análisis filogenéticos y alineaciones. Mediante el desarrollo de un sistema de numeración que prioriza las características estructurales, secuencias de la superfamilia más fácilmente comparables y alineadas. Características conservadas, como los definen los subgrupos, se pueden visualizar rápidamente, y nuevas secuencias se pueden colocar más fácilmente en el contexto adecuado.
Este papel utiliza un software de hoja de cálculo (por ejemplo, Excel) para generar una referencia del sistema para la superfamilia CS-αβ de numeración. Muestra cómo esto aclara las comparaciones entre secuencias y lo aplica a nuevas secuencias de CS-αβ identificadas de tardígrados. Usando la superfamilia CS-αβ como ejemplo, el protocolo fue escrito para proporcionar orientación al utilizar secuencias de interés; sin embargo, no se pretende ser específico a esta superfamilia o a secuencias ricas en cisteína. Este método probablemente sea más útil para los grupos de proteínas que se han investigado independientemente en taxones divergentes o tienen poca homología de secuencia general, con características discretas que no puede ser reconocido fácilmente por el software de análisis molecular. Este método requiere algunas decisiones a priori acerca de características importantes, por lo que será de utilidad limitada si no hay características importantes han sido identificadas. El objetivo principal es mostrar cómo se puede lograr una simple visualización de las relaciones de secuencia. Esto puede usarse entonces para informar a alineamiento de secuencias y análisis, pero si la alineación y el análisis son los objetivos primarios, un método de código de barras sería una alternativa adecuada que tiene más capacidad para automatización13. El método actual muestra las características de cada péptido en una forma lineal, por lo que no será útil para la visualización directa de la estructura 3D.
Los criterios para nombrar una proteína dentro de un grupo deben ser claros, pero esto no es siempre el caso. Secuencias que tienen la CS-αβ doble han sido estudiadas en muchos laboratorios usando una variedad de organismos, dando lugar a diferentes sistemas de nomenclatura, así como diferentes niveles de caracterización. Intentar imponer una nueva nomenclatura no es razonable y daría lugar a una gran confusión cuando se consulta la literatura anterior. Una referencia del sistema de numeración puede utilizarse ad…
The authors have nothing to disclose.
Péptido antimicrobiano tardigrade continua investigación es apoyada por fondos intramuros de la oficina de investigación de la Universidad de Midwestern y programas patrocinados (ORSP). La ORSP no tuvo ningún papel en el diseño del estudio, recopilación de datos, análisis, interpretación o preparación del manuscrito.
BLAST webpage | https://blast.ncbi.nlm.nih.gov/Blast.cgi | ||
EditSeq (Lasergene suite) | DNASTAR | https://www.dnastar.com/t-allproducts.aspx | |
Excel 2013 | Microsoft | ||
FigTree | http://tree.bio.ed.ac.uk/software/figtree/ | ||
MEGA | www.megasoftware.net | ||
MrBayes | http://mrbayes.sourceforge.net/ | ||
SCOP database | http://scop.mrc-lmb.cam.ac.uk/scop/ |