Summary

Análisis informático de datos de la secuencia de lote levadura híbrida 2 pantallas

Published: June 28, 2018
doi:

Summary

Secuenciación profunda de las poblaciones de levaduras seleccionadas para las interacciones 2-híbrido de levadura positivos potencialmente produce una gran cantidad de información sobre la interacción de las proteínas de socio. Aquí, describimos el funcionamiento de herramientas bioinformáticas específico y personalizado software actualizado para analizar los datos de la secuencia de estas pantallas.

Abstract

Hemos adaptado el ensayo 2-híbrido de levadura para descubrir al mismo tiempo decenas de interacciones proteína transitorios y estáticos dentro de una sola pantalla utilizando la secuencia de la DNA de alto rendimiento corto-leer. Los conjuntos de datos de secuencia resultante pueden no sólo rastrear qué genes en una población que se enriquecieron durante la selección para las interacciones 2-híbrido de levadura positivos, sino también da información detallada sobre los subdominios correspondientes de proteínas suficientes para la interacción. Aquí, describimos un conjunto completo de programas de software autónomo que permite no expertos para bioinformática y estadísticas pasos para procesar y analizar archivos de fastq de secuencia de ADN de un ensayo de 2 híbrido de levadura lote. Los pasos del proceso de estos programas incluyen: 1) mapeo y cuenta Lee de la secuencia correspondiente a cada proteína candidata codificada dentro de una biblioteca de presa 2 híbrido de levadura; 2) un programa de análisis estadístico que evalúa los perfiles de enriquecimiento; y 3) herramientas para examinar la estructura traslacional y la posición dentro de la región de la codificación de cada plásmido enriquecido que codifica las proteínas interacción de interés.

Introduction

Un método para descubrir las interacciones entre proteínas es la levadura 2-híbrido (Y2H), que hazañas de ingeniería las células de levadura que crecen sólo cuando una proteína de interés se une a un fragmento de una interacción socio1. Detección de múltiples interacciones de Y2H ahora es posible con la ayuda de secuenciación masiva en paralelo alto rendimiento. Varios formatos han sido descritos2,3,4,5 incluyendo uno que desarrollado donde las poblaciones se cultivan en lotes bajo las condiciones que seleccione para la levadura que contiene plásmidos que producen un positivos de interacción Y2H6. El flujo de trabajo desarrollado, denominado DEEPN (enriquecimiento dinámico para la evaluación de redes de proteínas), identifica la interactomes diferencial de las mismas bibliotecas de presa para identificar proteínas que interactúan con una proteína (o dominio) vs. otra proteína o un dominio mutante conformationally distinto. Uno de los pasos principales de este flujo de trabajo es adecuado procesamiento y análisis de los datos de secuenciación de ADN. Alguna información puede ser obtenida simplemente contando el número de lecturas para cada gen antes y después de la selección de Y2H interacciones de manera análoga a un experimento de RNA-seq. Sin embargo, se puede extraer información mucho más detallada de estos conjuntos de datos con información sobre el subdominio de una determinada proteína que es capaz de producir una interacción Y2H. Además, considerando el enfoque DEEPN es valiosa, analizando muchas repeticiones de la muestra puede ser engorroso y costoso. Este problema se alivia mediante el uso de un modelo estadístico que fue desarrollado específicamente para conjuntos de datos DEEPN donde el número de repeticiones es limitado6. Realizar procesamiento y análisis de datos de secuenciación de ADN confiable, completo, robusto y accesible para investigadores sin conocimientos de bioinformática, hemos desarrollado una suite de programas que cubren todos los pasos del análisis.

Esta suite de programas de software independiente que se ejecutan en computadoras de escritorio incluye MAPster DEEPN y Stat_Maker. MAPster es una interfaz gráfica de usuario que permite a que cada fichero fastq en cola para el mapeo del genoma mediante el programa de HISAT27, produciendo un archivo .sam estándar para su uso en aplicaciones posteriores. DEEPN tiene varios módulos. Asigna y cuenta Lee correspondiente al gen particular similar a una cuantificación del tipo RNA-seq con el módulo ‘Gene cuenta’. También extrae las secuencias correspondientes a la unión entre el dominio transcripcional Gal4 y la secuencia de la presa y recoge la posición de las uniones para permitir su inspección por parte de cuadros comparativos y gráficos (con el módulo ‘Junction_Make’) El módulo ‘Blast_Query’ permite fácil inspección, cuantificación y comparación de las secuencias de Unión Unión Gal4. Stat_Maker evalúa la Lee por datos de enriquecimiento gene estadísticamente como una forma de priorizar probable Y2H hits. Aquí, describimos cómo usar estos programas de software y analizar completamente la secuencia de la DNA datos de un Y2H DEEPN experimentan. DEEPN están disponibles para su ejecución en sistemas PC, Mac y Linux. Otros programas, como el programa de mapeo MAPster y el módulo de estadísticas DEEPN Stat_Maker confían en subprogramas que se ejecutan en Unix y sólo están disponibles en sistemas Mac y linux.

Protocol

1. asignación Fastq archivos Nota: DEEPN software, así como muchos programas de Bioinformática utilizan datos de la secuencia de ADN en el que cada secuencia de lectura se ha trazado para su posición en referencia de ADN. Una variedad de programas de mapeo puede utilizarse para esta incluyendo la interfaz MAPster aquí que utiliza el programa HISTAT2 para producir archivos .sam en pasos posteriores. Asignar los datos de la secuencia a la versión correcta del genoma. Para Y2H bib…

Representative Results

Mapeo de datos fastq: el primer pasoEn prácticamente todas las aplicaciones de NGS incluyendo DEEPN la salida inicial es un archivo de lecturas de secuencia corta que debe asignarse por alineación a genómico, transcriptómico, u otra referencia ADN8. El programa de alineación de HISAT2 fue desarrollado recientemente, que utiliza los algoritmos de indexación de vanguardia para aumentar dramáticamente el mapeo velocidad7</…

Discussion

La suite de software que se describe aquí permite procesar y analizar datos de secuenciación de ADN de alto rendimiento de un experimento DEEPN completamente. El primer programa utilizado es MAPster, que se la Lee de la secuencia de ADN en archivos estándar fastq y su posición en una referencia de ADN para procesar aguas abajo por un montón de programas informáticos, incluyendo el software DEEPN los mapas. La utilidad de la interfaz MAPster y su capacidad para múltiples puestos de trabajo, combinar archivos de ent…

Disclosures

The authors have nothing to disclose.

Acknowledgements

Este trabajo fue financiado por National Institutes of Health: NIH R21 EB021870-01A1 y beca de proyecto de investigación NSF: 1517110.

Materials

Mapster https://github.com/emptyewer/MAPster/releases
DEEPN software https://github.com/emptyewer/DEEPN/releases
Statmaker https://github.com/emptyewer/DEEPN/releases
Minimum computer system Apple Mac Intel Core i5 or better
4 Gb RAM or better
500 Gb Disk spce or better
OS 10.10 or higher
Dell Intel i5-7400 or better
4 Gb RAM or better
500 Gb Disk spce or better
Windows 7 or higher

References

  1. Fields, S., Song, O. A novel genetic system to detect protein-protein interactions. Nature. 340 (6230), 245-246 (1989).
  2. Rajagopala, S. V. Mapping the Protein-Protein Interactome Networks Using Yeast Two-Hybrid Screens. Advances in Experimental Medicine and Biology. 883, 187-214 (2015).
  3. Weimann, M., et al. A Y2H-seq approach defines the human protein methyltransferase interactome. Nature Methods. 10 (4), 339-342 (2013).
  4. Yachie, N., et al. Pooled-matrix protein interaction screens using Barcode Fusion Genetics. Molecular Systems Biology. 12 (4), 863 (2016).
  5. Trigg, S. A., et al. CrY2H-seq: a massively multiplexed assay for deep-coverage interactome mapping. Nature Methods. , (2017).
  6. Pashkova, N., et al. DEEPN as an Approach for Batch Processing of Yeast 2-Hybrid Interactions. Cell Reports. 17 (1), 303-315 (2016).
  7. Kim, D., Langmead, B., Salzberg, S. L. HISAT: a fast spliced aligner with low memory requirements. Nature Methods. 12 (4), 357-360 (2015).
  8. Reinert, K., Langmead, B., Weese, D., Evers, D. J. Alignment of Next-Generation Sequencing Reads. Annual Review of Genomics and Human Genetics. 16, 133-151 (2015).
  9. Pertea, M., Kim, D., Pertea, G. M., Leek, J. T., Salzberg, S. L. Transcript-level expression analysis of RNA-seq experiments with HISAT, StringTie and Ballgown. Nature Protocols. 11 (9), 1650-1667 (2016).
  10. Conesa, A., et al. A survey of best practices for RNA-seq data analysis. Genome Biology. 17, 13 (2016).

Play Video

Cite This Article
Krishnamani, V., Peterson, T. A., Piper, R. C., Stamnes, M. A. Informatic Analysis of Sequence Data from Batch Yeast 2-Hybrid Screens. J. Vis. Exp. (136), e57802, doi:10.3791/57802 (2018).

View Video