Sequenciamento profundo das populações de leveduras selecionadas para interações de 2-híbrido de levedura positivos potencialmente produz uma riqueza de informações sobre interação proteínas do parceiro. Aqui, descrevemos o funcionamento das ferramentas de Bioinformática específicos e software atualizado personalizado para analisar os dados de sequência de tais telas.
Adaptámos o ensaio 2-híbrido de levedura para descobrir simultaneamente dezenas de interações proteína transitória e estático dentro de um único ecrã utilizando o sequenciamento de DNA do elevado-throughput curto-leitura. Os conjuntos de dados sequência resultante podem não só acompanhar que genes em uma população que são enriquecidos durante a selecção para interações de 2-híbrido de levedura positivas, mas também fornecem informações detalhadas sobre os subdomínios relevantes de proteínas suficientes para interação. Aqui, descrevemos um conjunto completo de programas de software stand-alone que permitem que não-especialistas para executar todas as bioinformática e estatísticos passos para processar e analisar arquivos de fastq de sequência de DNA de um ensaio de 2-híbrido do fermento de lote. As etapas de processamento abrangidas por estes programas incluem: 1) mapeamento e contagem leituras sequência correspondente a cada proteína candidato codificada dentro de uma biblioteca de rapina 2-híbrido do fermento; 2) um programa de análise estatística que avalia os perfis de enriquecimento; e 3) ferramentas para examinar o quadro translacional e posição dentro da região de codificação de cada enriquecido plasmídeo que codifica as proteínas interagindo de interesse.
Uma abordagem para descobrir as interações da proteína é o ensaio (Y2H) 2-híbrido do fermento, quais façanhas engenharia de células de levedura que crescem somente quando uma proteína de interesse vincula-se a um fragmento de uma interação sócio1. Deteção de múltiplas interações Y2H agora pode ser feita com a ajuda de sequenciamento de elevado-throughput maciço paralelo. Vários formatos foram descritas2,3,4,5 , incluindo uma que desenvolvemos onde as populações são cultivadas no lote sob condições que seleciona para levedura, que contém plasmídeos que produzem um positivos da interação do Y2H6. O fluxo de trabalho desenvolvido, denominado DEEPN (enriquecimento dinâmico para avaliação de redes de proteína), identifica o diferencial interactomes das bibliotecas de rapina mesmo para identificar as proteínas que interagem com uma proteína (ou domínio) vs. outra proteína ou um domínio mutante conformationally distinto. Um dos passos importantes para este fluxo de trabalho é adequado processamento e análise dos dados de sequenciamento de DNA. Algumas informações podem ser recolhidas contando apenas o número de leituras para cada gene antes e depois da seleção de interações Y2H de forma análoga a um experimento de RNA-seq. No entanto, informações muito mais detalhadas podem ser extraídas desses conjuntos de dados, incluindo informações sobre o subdomínio de uma determinada proteína que é capaz de produzir uma interação Y2H. Além disso, Considerando que a abordagem DEEPN é valiosa, analisar muitas repetições de amostra pode ser complicado e caro. Este problema é aliviado usando um modelo estatístico que foi desenvolvido especificamente para conjuntos de dados DEEPN onde o número de repetições é limitada6. Para fazer processamento e análise de conjuntos de dados de sequenciamento de DNA confiável, completo, robusto e acessível para os investigadores sem especialização bioinformática, desenvolvemos um conjunto de programas de software que cobrem todas as etapas de análise.
Esta suite de programas de software stand-alone que são executados em computadores desktop inclui MAPster, DEEPN e Stat_Maker. MAPster é uma interface gráfica de usuário que permite que cada arquivo de fastq na fila para mapear o genoma usando o programa HISAT27, produzindo um arquivo Sam padrão para uso em aplicações a jusante. DEEPN tem vários módulos. Ele atribui e conta leituras correspondentes a determinado gene semelhante a uma quantificação de RNA-seq tipo usando o módulo ‘Gene contagem’. Também extrai as sequências correspondentes a junção entre o domínio transcriptional Gal4 e a sequência de rapina e agrupa a posição desses cruzamentos para permitir a sua inspecção pelos quadros comparativos e gráficos (usando o módulo ‘Junction_Make’) O módulo ‘Blast_Query’ permite fácil inspeção, quantificação e comparação de sequências de junção de Gal4 de junção. Stat_Maker avalia as leituras por dados de enriquecimento gene estatisticamente como uma maneira de priorizar provável Y2H sucessos. Aqui, descrevemos como usar esses programas de software e totalmente analisar dados de um Y2H DEEPN experimentar a sequência de DNA. Versões do DEEPN estão disponíveis para rodar em sistemas Linux, Mac e PC. Outros programas, como o programa de mapeamento MAPster e o módulo de estatísticas DEEPN Stat_Maker dependem de sub-rotinas que executado sob Unix e estão disponíveis apenas em sistemas Mac e linux.
O pacote de software aqui descrito permite completamente processar e analisar dados de sequenciamento de DNA de alto throughput de uma experiência de DEEPN. O primeiro programa usado é o MAPster, que leva as leituras de sequência de DNA em arquivos padrão fastq e mapas de sua posição para uma referência de DNA para processamento a jusante, por uma série de programas de informática, incluindo o software DEEPN. O utilitário da interface MAPster e sua capacidade de enfileirar vários trabalhos, combinar arquivos d…
The authors have nothing to disclose.
Este trabalho foi financiado pelo National Institutes of Health: R21 NIH EB021870-01A1 e pelo NSF Grant de projeto de pesquisa: 1517110.
Mapster | https://github.com/emptyewer/MAPster/releases | ||
DEEPN software | https://github.com/emptyewer/DEEPN/releases | ||
Statmaker | https://github.com/emptyewer/DEEPN/releases | ||
Minimum computer system | Apple | Mac Intel Core i5 or better | |
– | 4 Gb RAM or better | ||
– | 500 Gb Disk spce or better | ||
– | OS 10.10 or higher | ||
Dell | Intel i5-7400 or better | ||
– | 4 Gb RAM or better | ||
– | 500 Gb Disk spce or better | ||
– | Windows 7 or higher |