Secuenciación profunda de las poblaciones de levaduras seleccionadas para las interacciones 2-híbrido de levadura positivos potencialmente produce una gran cantidad de información sobre la interacción de las proteínas de socio. Aquí, describimos el funcionamiento de herramientas bioinformáticas específico y personalizado software actualizado para analizar los datos de la secuencia de estas pantallas.
Hemos adaptado el ensayo 2-híbrido de levadura para descubrir al mismo tiempo decenas de interacciones proteína transitorios y estáticos dentro de una sola pantalla utilizando la secuencia de la DNA de alto rendimiento corto-leer. Los conjuntos de datos de secuencia resultante pueden no sólo rastrear qué genes en una población que se enriquecieron durante la selección para las interacciones 2-híbrido de levadura positivos, sino también da información detallada sobre los subdominios correspondientes de proteínas suficientes para la interacción. Aquí, describimos un conjunto completo de programas de software autónomo que permite no expertos para bioinformática y estadísticas pasos para procesar y analizar archivos de fastq de secuencia de ADN de un ensayo de 2 híbrido de levadura lote. Los pasos del proceso de estos programas incluyen: 1) mapeo y cuenta Lee de la secuencia correspondiente a cada proteína candidata codificada dentro de una biblioteca de presa 2 híbrido de levadura; 2) un programa de análisis estadístico que evalúa los perfiles de enriquecimiento; y 3) herramientas para examinar la estructura traslacional y la posición dentro de la región de la codificación de cada plásmido enriquecido que codifica las proteínas interacción de interés.
Un método para descubrir las interacciones entre proteínas es la levadura 2-híbrido (Y2H), que hazañas de ingeniería las células de levadura que crecen sólo cuando una proteína de interés se une a un fragmento de una interacción socio1. Detección de múltiples interacciones de Y2H ahora es posible con la ayuda de secuenciación masiva en paralelo alto rendimiento. Varios formatos han sido descritos2,3,4,5 incluyendo uno que desarrollado donde las poblaciones se cultivan en lotes bajo las condiciones que seleccione para la levadura que contiene plásmidos que producen un positivos de interacción Y2H6. El flujo de trabajo desarrollado, denominado DEEPN (enriquecimiento dinámico para la evaluación de redes de proteínas), identifica la interactomes diferencial de las mismas bibliotecas de presa para identificar proteínas que interactúan con una proteína (o dominio) vs. otra proteína o un dominio mutante conformationally distinto. Uno de los pasos principales de este flujo de trabajo es adecuado procesamiento y análisis de los datos de secuenciación de ADN. Alguna información puede ser obtenida simplemente contando el número de lecturas para cada gen antes y después de la selección de Y2H interacciones de manera análoga a un experimento de RNA-seq. Sin embargo, se puede extraer información mucho más detallada de estos conjuntos de datos con información sobre el subdominio de una determinada proteína que es capaz de producir una interacción Y2H. Además, considerando el enfoque DEEPN es valiosa, analizando muchas repeticiones de la muestra puede ser engorroso y costoso. Este problema se alivia mediante el uso de un modelo estadístico que fue desarrollado específicamente para conjuntos de datos DEEPN donde el número de repeticiones es limitado6. Realizar procesamiento y análisis de datos de secuenciación de ADN confiable, completo, robusto y accesible para investigadores sin conocimientos de bioinformática, hemos desarrollado una suite de programas que cubren todos los pasos del análisis.
Esta suite de programas de software independiente que se ejecutan en computadoras de escritorio incluye MAPster DEEPN y Stat_Maker. MAPster es una interfaz gráfica de usuario que permite a que cada fichero fastq en cola para el mapeo del genoma mediante el programa de HISAT27, produciendo un archivo .sam estándar para su uso en aplicaciones posteriores. DEEPN tiene varios módulos. Asigna y cuenta Lee correspondiente al gen particular similar a una cuantificación del tipo RNA-seq con el módulo ‘Gene cuenta’. También extrae las secuencias correspondientes a la unión entre el dominio transcripcional Gal4 y la secuencia de la presa y recoge la posición de las uniones para permitir su inspección por parte de cuadros comparativos y gráficos (con el módulo ‘Junction_Make’) El módulo ‘Blast_Query’ permite fácil inspección, cuantificación y comparación de las secuencias de Unión Unión Gal4. Stat_Maker evalúa la Lee por datos de enriquecimiento gene estadísticamente como una forma de priorizar probable Y2H hits. Aquí, describimos cómo usar estos programas de software y analizar completamente la secuencia de la DNA datos de un Y2H DEEPN experimentan. DEEPN están disponibles para su ejecución en sistemas PC, Mac y Linux. Otros programas, como el programa de mapeo MAPster y el módulo de estadísticas DEEPN Stat_Maker confían en subprogramas que se ejecutan en Unix y sólo están disponibles en sistemas Mac y linux.
La suite de software que se describe aquí permite procesar y analizar datos de secuenciación de ADN de alto rendimiento de un experimento DEEPN completamente. El primer programa utilizado es MAPster, que se la Lee de la secuencia de ADN en archivos estándar fastq y su posición en una referencia de ADN para procesar aguas abajo por un montón de programas informáticos, incluyendo el software DEEPN los mapas. La utilidad de la interfaz MAPster y su capacidad para múltiples puestos de trabajo, combinar archivos de ent…
The authors have nothing to disclose.
Este trabajo fue financiado por National Institutes of Health: NIH R21 EB021870-01A1 y beca de proyecto de investigación NSF: 1517110.
Mapster | https://github.com/emptyewer/MAPster/releases | ||
DEEPN software | https://github.com/emptyewer/DEEPN/releases | ||
Statmaker | https://github.com/emptyewer/DEEPN/releases | ||
Minimum computer system | Apple | Mac Intel Core i5 or better | |
– | 4 Gb RAM or better | ||
– | 500 Gb Disk spce or better | ||
– | OS 10.10 or higher | ||
Dell | Intel i5-7400 or better | ||
– | 4 Gb RAM or better | ||
– | 500 Gb Disk spce or better | ||
– | Windows 7 or higher |