Aqui apresentamos a ferramenta proteogenomic PoGo e protocolos para rápido, quantitativa, borne-translational modificação e variante habilitado para mapeamento de peptídeos identificados através de espectrometria de massa em genomas de referência. Esta ferramenta é útil para integrar e Visualizar proteogenomic e estudos pessoais proteomic interfaceando com dados de genómica ortogonais.
Cross-talk entre os genes transcritos e proteínas é a chave para a resposta celular; daí, a análise dos níveis moleculares como entidades distintas lentamente está sendo estendido para estudos integrativo para melhorar a compreensão da dinâmica molecular dentro das células. Atuais ferramentas para a visualização e integração de proteômica com outros conjuntos de dados omics são insuficientes para estudos em grande escala. Além disso, eles apenas capturar a sequência básica identificar, descartando modificações borne-translational e quantificação. Para solucionar esses problemas, nós desenvolvemos PoGo para mapear peptídeos com modificações borne-translational associadas e quantificação de anotação do genoma de referência. Além disso, a ferramenta foi desenvolvida para permitir o mapeamento de peptídeos, identificadas a partir de bancos de dados de sequência personalizada incorporando único aminoácido variantes. Enquanto PoGo é uma ferramenta de linha de comando, a interface gráfica PoGoGUI permite que os pesquisadores não-bioinformática facilmente mapear peptídeos para 25 espécies suportados pela anotação do genoma de Ensembl. A saída gerada empresta formatos de arquivo do campo genómica e, portanto, a visualização é suportada na maioria dos navegadores do genoma. Para estudos em grande escala, PoGo é suportado pelo TrackHubGenerator para criar web-acessível repositórios de dados mapeados para genomas que também permitem um fácil compartilhamento de dados proteogenomics. Com pouco esforço, esta ferramenta pode mapear milhões de peptídeos de genomas de referência dentro de poucos minutos, superando outras ferramentas disponíveis sequência-identidade baseada. Este protocolo demonstra as melhores abordagens para o mapeamento de proteogenomics através de PoGo com conjuntos de dados publicamente disponíveis de quantitativos e phosphoproteomics, bem como estudos em grande escala.
Nas células, genoma, transcriptoma e proteoma afetam uns aos outros para modular a resposta a estímulos internos e externos e interagir uns com os outros para realizar funções específicas, levando a saúde e a doença. Portanto, caracterizar e quantificar os genes transcritos e proteínas são crucial para compreender plenamente os processos celulares. Sequenciamento de próxima geração (NGS) é uma das estratégias mais comumente aplicadas para identificar e quantificar a expressão de gene e transcrição. No entanto, expressão da proteína é comumente avaliada por espectrometria de massa (MS). Significativos avanços na tecnologia de MS ao longo da última década permitiu mais uma completa identificação e quantificação de proteomes, tornar os dados comparáveis com transcriptomics1. Proteogenomics e multi-omics como formas de integrar dados NGS e MS tornaram-se poderosos abordagens para avaliar processos celulares através de vários níveis moleculares, identificar subtipos de câncer e levando a novos potenciais alvos de drogas em câncer2 , 3. é importante notar que proteogenomics foi inicialmente usado para fornecer evidência de proteomic para gene e transcrição de anotações4. Vários genes previamente pensados para ser não-codificante têm submetido recentemente a reavaliação Considerando o tecido humano em grande escala de conjuntos de dados5,6,7. Além disso, dados de proteomic com êxito são usados para apoiar os esforços de anotação em organismos não-modelo8,9. No entanto, a integração de dados de proteogenomic pode ser explorada na sequência da expressão da proteína de destaque em relação às características genômicas e elucidar conversas cruzadas entre proteínas e transcrições, fornecendo um sistema combinado de referência e métodos para visualização de co.
A fim de fornecer uma referência comum para proteômica e genômica dados transcriptomics, inúmeras ferramentas foram implementadas para peptídeos de mapeamento, identificados através de MS no genoma coordenadas10,11,12 ,13,14,15,16,17. Abordagens diferem em aspectos como referência de mapeamento, suporte de navegadores do genoma e o grau de integração com outras ferramentas de proteômica, conforme mostrado na Figura 1. Enquanto algumas ferramentas mapeiam reversos peptídeos traduzidos em um genoma16, outros usam uma posição do search engine anotado dentro de uma anotação de gene e proteína para reconstruir a sequência de nucleotídeos do peptídeo15. Ainda outros usam uma tradução de 3 ou 6-quadro do genoma para mapear peptídeos contra11,13. Por último, várias ferramentas ignorar as sequências de nucleótidos e usam traduções de sequência de aminoácidos de transcrições de sequenciação do ARN-mapeada como um intermediário para mapear o genoma associado coordenadas10,12, peptídeos 14,17. No entanto, a tradução de sequências nucleotídicas é um processo lento e bancos de dados personalizados são propensos a erros que se propague para o mapeamento de peptídeo. Para o mapeamento rápido e de alta produtividade, uma referência abrangente e pequena é crucial. Portanto, uma referência de proteína padronizada com coordenadas de genoma associado é essencial para peptídeo preciso para o mapeamento do genoma. Novos aspectos em proteogenomics, tais como a incorporação de variantes e modificações borne-translational (PTMs)2,3, estão ganhando impulso através de estudos recentes. No entanto, estas geralmente não são suportadas pelo atual proteogenomic ferramentas de mapeamento, conforme mostrado na Figura 1. Para melhorar a velocidade e a qualidade de mapeamento, PoGo foi desenvolvido, uma ferramenta que permite o mapeamento rápido e quantitativo de peptídeos de genomas18. Além disso, PoGo permite o mapeamento de peptídeos com até duas variantes de sequência e modificações borne-translational anotadas.
PoGo foi desenvolvido para lidar com o rápido aumento de conjuntos de dados quantitativos de alta resolução captura proteomes e modificações globais e fornece um utilitário central para análise em larga escala como a variação de pessoal e medicina de precisão. Este artigo descreve a aplicação desta ferramenta para visualizar a presença de modificação pós-traducional em relação às características genômicas. Além disso, este artigo destaca a identificação de eventos splicing alternativos através de peptídeos mapeados e o mapeamento de peptídeos identificados através de bancos de dados personalizados variantes de um genoma de referência. Este protocolo utiliza conjuntos de dados publicamente disponíveis, baixados o arquivo PRIDE19 para demonstrar estas funcionalidades do PoGo. Além disso, este protocolo descreve a aplicação de TrackHubGenerator para a criação de cubos acessíveis on-line de peptídeos mapeados para genomas para estudos de proteogenomics em grande escala.
Este protocolo descreve como a ferramenta de software PoGo e sua interface gráfica do usuário PoGoGUI permitem um mapeamento rápido dos peptides nas coordenadas do genoma. A ferramenta oferece recursos exclusivos, tais como modificação pós-traducional, quantitativa e mapeamento variante habilitado para referência a anotação de genomas. Este artigo demonstra o método em um estudo de proteogenomic em grande escala e destaca sua eficiência de velocidade e memória em comparação com outras ferramentas disponíveis18. Em combinação com a ferramenta TrackHubGenerator, que cria cubos acessíveis on-line de genômica e genoma ligados a dados, PoGo, com sua interface gráfica do usuário, estudos de proteogenomics em grande escala permite rapidamente visualizar seus dados em contexto genômico. Além disso, demonstramos as características únicas do PoGo com conjuntos de dados pesquisados contra bancos de dados variantes e quantitativos phosphoproteomics22,29.
Arquivos individuais, tais como o arquivo GCT, fornecem visualização valiosa e ligações entre características do peptide e loci genômicos. No entanto, é importante notar que uma interpretação com base nestes sozinho pode ser difícil ou enganosa devido a sua limitação aos aspectos único do proteogenomics como singularidade, modificações borne-translational e valores quantitativos. Portanto, é importante escolher cuidadosamente quais arquivos de saída, opções e combinações são apropriadas para a questão de proteogenomic à mão e modificar as combinações. Por exemplo, informações sobre a singularidade do mapeamento para um locus genômico específico podem ser de grande valor para a anotação de uma característica genômica7, enquanto a quantificação através de amostras diferentes pode ser mais apropriada para estudos relativos características genômicas para mudanças na abundância de proteína29. A saída deve ser gerada por PoGo para cada configuração. No caso de sem saída é gerada, ou arquivos vazios são mostrados na pasta de saída, é aconselhável verificar os arquivos de entrada para o conteúdo desejado e o formato de arquivo necessário. Em casos onde o formato de arquivo ou conteúdo não segue as expectativas de PoGo (por exemplo, o arquivo FASTA supostamente contendo sequências de tradução de transcrição contém as sequências de nucleotídeos de transcrições), mensagens de erro pedirá ao usuário para Verifique os arquivos de entrada.
Restrições do protocolo e a ferramenta baseiam-se principalmente a reutilização dos formatos de arquivo, comumente usado em genômica. Formatos de arquivo usados na genômica para proteogenomic aplicações de redefinição de objetivos é acompanhada por limitações específicas. Estes são devido os diferentes conjuntos de requisitos para visualização de genoma centrado de genômica e proteogenomic de dados, tais como a necessidade de Visualizar modificações borne-translational da proteômica dados. Isto é restrito nos formatos de arquivo de genómica por uso de recurso único. Muitas abordagens e ferramentas foram desenvolvidas para proteômica confiàvel localizar modificações borne-translational dentro de sequências peptídicas31,32,33,de34. No entanto, a visualização de múltiplas modificações de forma única e perceptível no genoma é dificultada pela estrutura dos formatos de arquivo de genômica. Portanto, a visualização de bloco único de PTMs múltiplos do mesmo tipo não constitui qualquer ambiguidade dos sites modificação… mas é a consequência da exigência diferente da comunidade de genômica para apenas Visualizar características única de cada vez. Não obstante, PoGo tem a vantagem de modificações borne-translational mapeamento nas coordenadas genômicas para permitir estudos focados sobre o efeito das características genômicas como variantes de nucleotídeo único em modificações borne-translational. Usando o PoGo, variante mapeamento aumenta o número de mapeamentos totais. No entanto, a codificação de cor única dos peptídeos mapeados destaca confiança mapeamentos de queridos não confiáveis. O mapeamento de peptídeos variantes identificado de variantes de nucleotídeo único conhecido pode ser acompanhado por visualizando os peptídeos mapeados juntamente com as variantes no formato VCF. Desta forma, o código de cor indicando um mapeamento não confiável de um variante do peptide é negada pela presença da variante nucleotídeo conhecido.
Um passo crítico para o uso de PoGo é o uso dos arquivos corretos e formatos. O uso de sequências de transcrição traduzida como sequências de proteínas para acompanhar a anotação no formato GTF é o principal critério. Outro elemento crítico quando considerando o uso PoGo para mapear peptídeos com incompatibilidades de aminoácido é memória. Enquanto altamente eficiente para a memória de um aplicativo padrão, significativamente e exponencialmente crescente número de mapeamentos possíveis com um ou dois incompatibilidades leva a um aumento exponencial da mesma forma de uso de memória18. Propomos um mapeamento em etapas, conforme descrito neste protocolo primeiro mapear os peptídeos sem incompatibilidades e removê-los do conjunto. Os peptídeos anteriormente desmapeados subsequentes então podem ser mapeados usando uma incompatibilidade e o procedimento pode ser repetido com duas incompatibilidades para os peptídeos restantes não mapeados.
Desde que aumentou significativamente a taxa de transferência de espectrometria de massa e estudos interfaceando genômica e proteômica dados estão se tornando mais frequentes nos últimos anos, ferramentas para permitir facilmente interfaceando esses tipos de dados no mesmo sistema de coordenadas são cada vez mais indispensável. A ferramenta aqui apresentada ajudará a necessidade de combinar genomic e proteomic dados para realçar uma melhor compreensão dos estudos integrativo através de pequenos e grandes conjuntos de dados através do mapeamento de peptídeos em uma anotação de referência. De forma encorajadora, PoGo foi aplicada para mapear peptídeos para candidatos gene fornecidos no mesmo formato que a anotação de referência para apoiar os esforços de anotação de novos genes expressados no testículo humano35. A abordagem apresentada aqui é independente de bancos de dados usados para identificação de peptídeo. O protocolo pode auxiliar na identificação e visualização dos produtos romance tradução usando adaptado arquivos de entrada de sequências de tradução e GTF arquivos de RNA-seq experimentos associados.
Várias abordagens e ferramentas com uma ampla gama de cenários de aplicação especial para mapear peptídeos para coordenadas genômicas, que vão desde o mapeamento de peptídeos diretamente para a sequência do genoma para o mapeamento de sequenciação do ARN-guiada, foram introduzidas10, 11 , 12 , 13 , 14 , 15 , 16 , 17. no entanto, isto podem resultar em uma falha para mapear corretamente peptídeos quando modificações borne-translational estão presentes e erros no mapeamento subjacente de leituras a sequenciação do ARN podem ser propagados para o nível de peptídeo. PoGo foi desenvolvido especificamente superar esses obstáculos e para lidar com o rápido aumento de conjuntos de dados quantitativos proteomic high-resolution de integração com plataformas genômica ortogonais. A ferramenta aqui descrita pode ser integrada em fluxos de trabalho de alto rendimento. Através da interface gráfica, PoGoGUI, a ferramenta é simples de usar e requer sem formação de bioinformática do especialista.
The authors have nothing to disclose.
Este trabalho foi financiado pela Wellcome Trust (WT098051) e a concessão de NIH (U41HG007234) para o projeto GENCODE.
PoGo (software) | NA | NA | https://github.com/cschlaffner/PoGo |
PoGoGUI (software) | NA | NA | https://github.com/cschlaffner/PoGoGUI |
TrackHubGenerator (software) | NA | NA | https://github.com/cschlaffner/TrackHubGenerator |
Integrative Genomics Viewer (software) | NA | NA | http://software.broadinstitute.org/software/igv/ |
UCSC genome browser (website) | NA | NA | https://genome.ucsc.edu/ |
GENCODE (website) | NA | NA | http://gencodegenes.org |
Ensembl (website) | NA | NA | http://ensembl.org |
bedToBigBed (software) | NA | NA | http://hgdownload.soe.ucsc.edu/admin/exe/ |
fetchChromSizes.sh (software) | NA | NA | http://hgdownload.soe.ucsc.edu/admin/exe/ |