Synthetic protein sequences based on consensus motifs typically ignore co-evolving residues, that imply interpositional dependencies (IPDs). IPDs can be essential to activity, and designs that disregard them may result in suboptimal results. This protocol uses StickWRLD to identify IPDs and help inform rational protein design, resulting in more efficient results.
Alineaciones de proteínas se utilizan comúnmente para evaluar la similitud de los residuos de proteínas, y la secuencia de consenso derivada utilizan para la identificación de las unidades funcionales (por ejemplo, dominios). Los modelos tradicionales de creación de consenso no dan cuenta de las dependencias interposicionales – funcionalmente covariación requerido de residuos que tienden a aparecer de manera simultánea durante la evolución y en todo el árbol filogenética. Estas relaciones pueden revelar pistas importantes sobre los procesos de plegamiento de proteínas, termoestabilidad, y la formación de sitios funcionales, que a su vez se pueden utilizar para informar a la ingeniería de proteínas sintéticas. Por desgracia, estas relaciones esencialmente forman sub-motivos que no puede ser predicho por simple "regla de la mayoría" o modelos de consenso incluso basados en HMM, y el resultado puede ser un "consenso" biológicamente no válido que no sólo no se ve en la naturaleza, pero es menos viable que cualquier proteína existente. Hemos desarrollado un una visualherramienta alytics, StickWRLD, lo que crea una representación interactiva 3D de una alineación de proteínas y claramente muestra covarying residuos. El usuario tiene la capacidad de desplazarse y hacer zoom, así como dinámicamente cambiar el umbral estadístico subyacente a la identificación de los covariantes. StickWRLD previamente ha sido utilizado con éxito para identificar los residuos covarying funcionalmente necesarios-en proteínas tales como la adenilato quinasa y en las secuencias de ADN, tales como sitios diana de la endonucleasa.
Alineaciones de proteínas han sido utilizados para evaluar la similitud de los residuos en una familia de proteínas. Con frecuencia las características más interesantes de una proteína (por ejemplo, los sitios de unión catalíticos u otros) son el resultado de plegamiento de proteínas trayendo regiones distales de la secuencia lineal en contacto, y como resultado de estas regiones aparentemente no relacionados en la alineación tienden a evolucionar y cambiar en de manera coordinada. En otros casos, la función de una proteína puede ser dependiente de su firma electrostática, y las mutaciones que afectan a la electrónica dipolo son compensadas por cambios en residuos cargados distantes. Efectos alostéricos también pueden inducir a largo plazo dependencias secuenciales y espaciales entre las identidades de residuos. Independientemente de su origen, estas covariaciones funcionalmente necesarios, de residuos – dependencias inter-posicionales (IPDS) – no pueden ser obvios con el examen visual de la alineación (Figura 1). Identificación de IPDs – así como deque los residuos específicos dentro de esas posiciones tienden a covariar como unidad – puede revelar pistas importantes sobre los procesos de plegamiento de proteínas y la formación de sitios funcionales. Esta información puede ser utilizada para optimizar (ingeniería) proteínas sintéticas en términos de termoestabilidad y actividad. Durante mucho tiempo se ha sabido que no todas las mutaciones puntuales hacia el consenso proporcionan una estabilidad mejorada o actividad. Más recientemente, las proteínas diseñadas para tomar ventaja de IPDs conocidos en su secuencia se ha demostrado que resultará en una mayor actividad que la misma proteína diseñada estrictamente de consenso 1,2 (manuscrito en preparación), similar a la idea de la estabilización de 3 mutaciones puntuales.
Por desgracia, los modelos tradicionales de creación de consenso (por ejemplo, gobierno de la mayoría) sólo capturan IPDs por accidente. Métodos de consenso y Matrix posición de anotar específico ignoran IPDs y sólo "correctamente" los incluyen en los modelos, cuando los residuos dependientestambién son los residuos más populares para esas posiciones en la familia. Modelos de cadena de Markov pueden capturar IPDs cuando están secuencialmente proximal, pero su implementación típica ignora todo excepto vecinos secuenciales inmediatos, e incluso en su mejor momento, los cálculos Hidden Markov Model (ver Figura 2) se vuelven intratables cuando dependencias están separados en la secuencia de más de una docena de posiciones 4. Desde estas IPDs esencialmente forman "sub-motivos" que no puede ser predicho por simple "regla de la mayoría" o modelos de consenso incluso basados en HMM-5,6 el resultado puede ser un "consenso" biológicamente inválida que no es sólo no se ve en la naturaleza, pero es menos viables que cualquier proteína existente. Los sistemas basados en Markov Random Fields, como GREMLIN 7, intentan superar estos problemas. Además mientras que las técnicas biológicas / bioquímicas sofisticadas, tales como 3,8 recombinación no contiguo se pueden utilizar para ideelementos de proteínas esenciales ntify por región, requieren mucho tiempo y trabajo de banco para un solo par de bases de precisión a alcanzar.
StickWRLD 9 es un programa basado en Python que crea una representación interactiva 3D de una alineación de proteína que hace IPDs clara y fácil de entender. Cada posición en la alineación se representa como una columna en la pantalla, donde cada columna se compone de una pila de esferas, uno para cada uno de los 20 aminoácidos que podrían estar presentes en esa posición dentro de la alineación. El tamaño de la esfera depende de la frecuencia de ocurrencia del aminoácido, de tal manera que el usuario puede recoger inmediatamente el residuo consenso o la distribución relativa de los aminoácidos dentro de esa posición con sólo mirar el tamaño de las esferas. Las columnas que representan a cada posición se envuelven alrededor de un cilindro. Esto le da a cada esfera que representa un posible aminoácido en cada posición en la alineación, una "línea de visión" claraa cualquier otra posibilidad de aminoácido en cada otra posición. Antes de visualización, StickWRLD calcula la fuerza de la correlación entre todas las combinaciones posibles de residuos para identificar la IPDs 9. Para representar IPDs, las líneas se dibujan entre los residuos que se coevolving en un mayor o menor de lo que se esperaría si los residuos presentes en las posiciones eran independientes (IPDs).
Esto no sólo muestra la visualización que las posiciones de secuencia interactúan evolutivamente, pero como las líneas de borde IPD se dibujan entre las esferas de aminoácidos en cada columna, el usuario puede determinar rápidamente qué aminoácidos específicos tienden a ser coevolving en cada posición. El usuario tiene la capacidad de rotar y explorar la estructura IPD visualizado, así como dinámicamente cambiar los umbrales estadísticos que controlan la visualización de correlaciones, haciendo StickWRLD una herramienta poderosa para el descubrimiento IPDs.
Aplicaciones como GREMLIN 7 similarly mostrar compleja información relacional entre los residuos – pero estas relaciones se calculan a través de modelos de Markov más tradicionales, que no están diseñados para determinar las relaciones condicionales. Como tales, estos son capaces de ser visualizado como proyecciones 2D. Por el contrario, StickWRLD puede calcular y mostrar las dependencias condicionales de múltiples nodos, que pueden ser ofuscado si representa como un gráfico 2D (un fenómeno conocido como oclusión borde).
Vista de StickWRLD 3D también tiene varias otras ventajas. Al permitir a los usuarios manipular los visuales – características que pueden ser ofuscado o poco intuitivos en una representación 2D se puede observar más fácilmente en el cilindro 3D de StickWRLD – paneo, rotación y zoom. StickWRLD es esencialmente una herramienta visual de análisis, aprovechando el poder de la capacidad de reconocimiento de patrones del cerebro humano a ver patrones y tendencias, y la posibilidad de explorar los datos desde diversas perspectivas se presta a ello.
StickWRLD ha sido utilizado con éxito para identificar tales IPDs en el dominio de la tapa adenilato quinasa 16, así como bases de ADN asociadas en terminadores Rho-dependiente 9, y una novela especificidad empalme de sitio en Arqueales tRNA endonucleasa intrón 6 sitios diana. Estos IPDs no eran detectables a través de un examen directo de las alineaciones.
StickWRLD muestra cada posición de una alineación como una columna de 20 "esferas", donde cada esfera representa uno de los residuos de aminoácidos 20 y el tamaño de la esfera indica la frecuencia de ocurrencia de ese residuo en particular dentro de esa columna (Figura 4). Las columnas se disponen en un cilindro, con líneas de borde que conecta los residuos en diferentes columnas (que indica una IPD). Estas líneas de borde solamente se dibujan si los residuos correspondientes se covarying a una frecuencia superando tanto el valor p (significado) y (- esperados observados) residuales umbrales.
La detección de co-produciendo residuos interdependientes, o IPDs, en las regiones distales de una secuencia de ADN o de proteínas alineación es difícil el uso de herramientas de alineación de secuencia estándar de 6. Si bien estas herramientas generan un consenso, o motivo, la secuencia, este consenso es en muchos casos un simple promedio de mayoría regla y no expresa las relaciones de covariación que pueden formar una o más sub-motivos – grupos de residuos que tienden a co-evolucionan. Incluso los modelos HMM, que son capaces de detectar las dependencias vecinas, no puede con precisión modelo motivos de secuencia con IPDs distales 5. El resultado es que el consenso calculada puede de hecho ser una secuencia "sintético" no encontrado en la naturaleza – y las proteínas de ingeniería basados en tales consenso computacional no puede, de hecho, ser óptima. De hecho, el HMM para ADK Pfam sugiere que una proteína quimérica que contiene medio del motivo de tetracisteína, y la mitad de la H, S, D, T motivo, es funcionalmente igual de aceptablescomo cualquier ADK realmente existente. Este no es el caso, ya que tales quimeras (y muchos otros blendings de estos motivos) son catalíticamente muertos 4,19.
Al buscar correlaciones, es crítico que se puede modificar el umbral residual para permitir el descubrimiento de correlaciones pertinentes estableciendo el umbral por encima del nivel en el que los bordes se ven y luego rampa gradualmente el umbral hacia abajo. Esto asegura que sólo los bordes más significativos se consideran inicialmente.
Un enfoque alternativo es comenzar con el umbral fijado residual extremadamente bajo. Esto da como resultado la visualización de todos los bordes significativos. Desde aquí el umbral residual lentamente se puede aumentar, permitiendo bordes para abandonan hasta que los patrones emergen. Si bien este enfoque es menos útil cuando se busca la inclusión de los nodos específicos (por ejemplo, aplicación de los conocimientos de dominio), que permite el descubrimiento de relaciones inesperadas usando StickWRLD como un visherramienta analítica ual para descubrir patrones emergentes en la visualización de datos.
StickWRLD está limitada principalmente por la memoria disponible del sistema en el que se ejecuta, así como la resolución del dispositivo de visualización. Aunque no hay límite teórico para el número de puntos de datos StickWRLD puede examinar, y secuencias de hasta 20.000 posiciones han sido probados, en la práctica StickWRLD realiza mejor con secuencias de hasta alrededor de 1000 posiciones.
La principal ventaja de StickWRLD reside en su capacidad para identificar grupos de residuos que covarían uno con el otro. Esta es una ventaja significativa sobre el enfoque tradicional de la secuencia de consenso estadístico, que es un promedio estadístico simple y no toma en cuenta la coevolución. Si bien en algunos casos los residuos covarying pueden simplemente ser un artefacto de la filogenia, incluso estos residuos han resistido la "prueba de la selección", y como tal, no es probable que en detrimento de la functionadad de cualquier proteína diseñada para incluirlos.
Durante el uso de StickWRLD para identificar IPDs en una secuencia de ADN o proteína canónica consenso / motivo antes de variantes de ingeniería sintéticos reducirá el potencial de error y apoyar la optimización rápida de la función, hay que señalar que StickWRLD se puede utilizar como una herramienta de identificación de correlación generalizada y no se limita exclusivamente a los datos de proteínas. StickWRLD se puede utilizar para descubrir visualmente la co-ocurrencia de cualquier variable en cualquier conjunto de datos correctamente codificada.
The authors have nothing to disclose.
StickWRLD was made possible in part through funding provided to Dr. Ray by the Research Institute at Nationwide Children’s Hospital, and by NSF grant DBI-1262457.
Mac or Ubuntu OS computer | Various | NA | Any Mac or linux (e.g. Ubuntu) computer capable of running python & associated shell scripts |
Python programming language | python.org | NA | Python version 2.7.6 or greater recommended |
wxPython library | wxpython.org | NA | Latest version recommended |
SciPy library | scipy.org | NA | Latest version recommended |
PyOpenGL library | pyopengl.sourceforge.net | NA | Latest version recommended |
StickWRLD Python scripts | NCH BCCM | NA | Available from http://www.stickwrld.org |
fasta2stick.sh file converter | NCH BCCM | NA | Available from http://www.stickwrld.org |
Protein and/or DNA sequence data | NA | NA | Samples available at http://www.stickwrld.org |