概要

Análise informática de dados da sequência do lote levedura híbrida-2 telas

Published: June 28, 2018
doi:

概要

Sequenciamento profundo das populações de leveduras selecionadas para interações de 2-híbrido de levedura positivos potencialmente produz uma riqueza de informações sobre interação proteínas do parceiro. Aqui, descrevemos o funcionamento das ferramentas de Bioinformática específicos e software atualizado personalizado para analisar os dados de sequência de tais telas.

Abstract

Adaptámos o ensaio 2-híbrido de levedura para descobrir simultaneamente dezenas de interações proteína transitória e estático dentro de um único ecrã utilizando o sequenciamento de DNA do elevado-throughput curto-leitura. Os conjuntos de dados sequência resultante podem não só acompanhar que genes em uma população que são enriquecidos durante a selecção para interações de 2-híbrido de levedura positivas, mas também fornecem informações detalhadas sobre os subdomínios relevantes de proteínas suficientes para interação. Aqui, descrevemos um conjunto completo de programas de software stand-alone que permitem que não-especialistas para executar todas as bioinformática e estatísticos passos para processar e analisar arquivos de fastq de sequência de DNA de um ensaio de 2-híbrido do fermento de lote. As etapas de processamento abrangidas por estes programas incluem: 1) mapeamento e contagem leituras sequência correspondente a cada proteína candidato codificada dentro de uma biblioteca de rapina 2-híbrido do fermento; 2) um programa de análise estatística que avalia os perfis de enriquecimento; e 3) ferramentas para examinar o quadro translacional e posição dentro da região de codificação de cada enriquecido plasmídeo que codifica as proteínas interagindo de interesse.

Introduction

Uma abordagem para descobrir as interações da proteína é o ensaio (Y2H) 2-híbrido do fermento, quais façanhas engenharia de células de levedura que crescem somente quando uma proteína de interesse vincula-se a um fragmento de uma interação sócio1. Deteção de múltiplas interações Y2H agora pode ser feita com a ajuda de sequenciamento de elevado-throughput maciço paralelo. Vários formatos foram descritas2,3,4,5 , incluindo uma que desenvolvemos onde as populações são cultivadas no lote sob condições que seleciona para levedura, que contém plasmídeos que produzem um positivos da interação do Y2H6. O fluxo de trabalho desenvolvido, denominado DEEPN (enriquecimento dinâmico para avaliação de redes de proteína), identifica o diferencial interactomes das bibliotecas de rapina mesmo para identificar as proteínas que interagem com uma proteína (ou domínio) vs. outra proteína ou um domínio mutante conformationally distinto. Um dos passos importantes para este fluxo de trabalho é adequado processamento e análise dos dados de sequenciamento de DNA. Algumas informações podem ser recolhidas contando apenas o número de leituras para cada gene antes e depois da seleção de interações Y2H de forma análoga a um experimento de RNA-seq. No entanto, informações muito mais detalhadas podem ser extraídas desses conjuntos de dados, incluindo informações sobre o subdomínio de uma determinada proteína que é capaz de produzir uma interação Y2H. Além disso, Considerando que a abordagem DEEPN é valiosa, analisar muitas repetições de amostra pode ser complicado e caro. Este problema é aliviado usando um modelo estatístico que foi desenvolvido especificamente para conjuntos de dados DEEPN onde o número de repetições é limitada6. Para fazer processamento e análise de conjuntos de dados de sequenciamento de DNA confiável, completo, robusto e acessível para os investigadores sem especialização bioinformática, desenvolvemos um conjunto de programas de software que cobrem todas as etapas de análise.

Esta suite de programas de software stand-alone que são executados em computadores desktop inclui MAPster, DEEPN e Stat_Maker. MAPster é uma interface gráfica de usuário que permite que cada arquivo de fastq na fila para mapear o genoma usando o programa HISAT27, produzindo um arquivo Sam padrão para uso em aplicações a jusante. DEEPN tem vários módulos. Ele atribui e conta leituras correspondentes a determinado gene semelhante a uma quantificação de RNA-seq tipo usando o módulo ‘Gene contagem’. Também extrai as sequências correspondentes a junção entre o domínio transcriptional Gal4 e a sequência de rapina e agrupa a posição desses cruzamentos para permitir a sua inspecção pelos quadros comparativos e gráficos (usando o módulo ‘Junction_Make’) O módulo ‘Blast_Query’ permite fácil inspeção, quantificação e comparação de sequências de junção de Gal4 de junção. Stat_Maker avalia as leituras por dados de enriquecimento gene estatisticamente como uma maneira de priorizar provável Y2H sucessos. Aqui, descrevemos como usar esses programas de software e totalmente analisar dados de um Y2H DEEPN experimentar a sequência de DNA. Versões do DEEPN estão disponíveis para rodar em sistemas Linux, Mac e PC. Outros programas, como o programa de mapeamento MAPster e o módulo de estatísticas DEEPN Stat_Maker dependem de sub-rotinas que executado sob Unix e estão disponíveis apenas em sistemas Mac e linux.

Protocol

1. mapeamento de arquivos de Fastq Nota: DEEPN software, bem como muitos programas de Bioinformática usam dados de sequência de DNA onde cada sequência ler foi mapeada para a sua posição em referência DNA. Uma variedade de programas de mapeamento pode ser usada para esta incluindo a interface MAPster aqui que usa o programa HISTAT2 para produzir arquivos Sam usados em etapas subsequentes. Mapear os dados de sequência para a versão correta do genoma. Para bibliotecas de Y2H de…

Representative Results

Mapeamento de dados de fastq: o primeiro passoEm praticamente todas as aplicações de NGS incluindo DEEPN a saída inicial é um arquivo de leituras de pequena sequência deve ser mapeada pelo alinhamento de genômica, transcriptomic, ou outra referência de DNA8. Recentemente, o programa de alinhamento de HISAT2 foi desenvolvido que usa algoritmos de indexação de estado-da-arte para aumentar drasticamente a velocidade de mapeamento<sup clas…

Discussion

O pacote de software aqui descrito permite completamente processar e analisar dados de sequenciamento de DNA de alto throughput de uma experiência de DEEPN. O primeiro programa usado é o MAPster, que leva as leituras de sequência de DNA em arquivos padrão fastq e mapas de sua posição para uma referência de DNA para processamento a jusante, por uma série de programas de informática, incluindo o software DEEPN. O utilitário da interface MAPster e sua capacidade de enfileirar vários trabalhos, combinar arquivos d…

開示

The authors have nothing to disclose.

Acknowledgements

Este trabalho foi financiado pelo National Institutes of Health: R21 NIH EB021870-01A1 e pelo NSF Grant de projeto de pesquisa: 1517110.

Materials

Mapster https://github.com/emptyewer/MAPster/releases
DEEPN software https://github.com/emptyewer/DEEPN/releases
Statmaker https://github.com/emptyewer/DEEPN/releases
Minimum computer system Apple Mac Intel Core i5 or better
4 Gb RAM or better
500 Gb Disk spce or better
OS 10.10 or higher
Dell Intel i5-7400 or better
4 Gb RAM or better
500 Gb Disk spce or better
Windows 7 or higher

参考文献

  1. Fields, S., Song, O. A novel genetic system to detect protein-protein interactions. Nature. 340 (6230), 245-246 (1989).
  2. Rajagopala, S. V. Mapping the Protein-Protein Interactome Networks Using Yeast Two-Hybrid Screens. Advances in Experimental Medicine and Biology. 883, 187-214 (2015).
  3. Weimann, M., et al. A Y2H-seq approach defines the human protein methyltransferase interactome. Nature Methods. 10 (4), 339-342 (2013).
  4. Yachie, N., et al. Pooled-matrix protein interaction screens using Barcode Fusion Genetics. Molecular Systems Biology. 12 (4), 863 (2016).
  5. Trigg, S. A., et al. CrY2H-seq: a massively multiplexed assay for deep-coverage interactome mapping. Nature Methods. , (2017).
  6. Pashkova, N., et al. DEEPN as an Approach for Batch Processing of Yeast 2-Hybrid Interactions. Cell Reports. 17 (1), 303-315 (2016).
  7. Kim, D., Langmead, B., Salzberg, S. L. HISAT: a fast spliced aligner with low memory requirements. Nature Methods. 12 (4), 357-360 (2015).
  8. Reinert, K., Langmead, B., Weese, D., Evers, D. J. Alignment of Next-Generation Sequencing Reads. Annual Review of Genomics and Human Genetics. 16, 133-151 (2015).
  9. Pertea, M., Kim, D., Pertea, G. M., Leek, J. T., Salzberg, S. L. Transcript-level expression analysis of RNA-seq experiments with HISAT, StringTie and Ballgown. Nature Protocols. 11 (9), 1650-1667 (2016).
  10. Conesa, A., et al. A survey of best practices for RNA-seq data analysis. Genome Biology. 17, 13 (2016).

Play Video

記事を引用
Krishnamani, V., Peterson, T. A., Piper, R. C., Stamnes, M. A. Informatic Analysis of Sequence Data from Batch Yeast 2-Hybrid Screens. J. Vis. Exp. (136), e57802, doi:10.3791/57802 (2018).

View Video