OpenProt é um banco de dados livremente acessível que impõe um modelo policistrônico de genomas eucarióticos. Aqui, apresentamos um protocolo para o uso de bancos de dados OpenProt quando interrogando datasets de espectrometria de massa. Usando o OpenProt banco de dados para análise de experimentos de proteomic permite a descoberta do romance e proteínas anteriormente indetectáveis.
Anotação do genoma é central para a pesquisa de proteomic de hoje como ele desenha os contornos da paisagem proteomic. Os modelos tradicionais de abrir lendo anotação de quadro (ORF) impor dois critérios arbitrários: um comprimento mínimo de 100 códons e um único ORF por transcrição. No entanto, um número crescente de estudos relatam a expressão de proteínas de supostamente não-codificantes regiões, desafiando a exatidão das anotações atual do genoma. Estas proteínas foram encontradas de romance codificado ou não-codificantes RNAs, 5′ ou 3′ regiões untranslated (UTRs) de mRNAs, ou sobrepondo uma sequência de codificação conhecida (CDS) em alternativa ORF. OpenProt é o primeiro banco de dados, o que impõe um modelo policistrônico para genomas eucarióticos, permitindo a anotação de ORFs múltiplos por transcrição. OpenProt é livremente acessível e oferece downloads personalizados de sequências de proteínas através de 10 espécies. Usando o OpenProt o banco de dados para experimentos de proteomic permite a descoberta de novas proteínas e destaca a natureza policistrônico de genes eukaryotic. O tamanho do banco de dados OpenProt (tudo previsto proteínas) é substancial e precisa ser levado em conta para a análise. No entanto, com configurações de taxa (FDR) apropriado descoberta falsa ou o uso de um banco de dados OpenProt restrito, os usuários ganharão uma visão mais realista da paisagem proteomic. Em geral, OpenProt é uma ferramenta disponível gratuitamente que fomentará proteomic descobertas.
Nas últimas décadas, a espectrometria de massa (MS-) baseada proteomics tornou-se a técnica dourada para decifrar proteomes de células eucarióticas,1,2,3,4,5. Este método baseia-se na atual anotações de genoma para gerar um referência proteína sequência de dados que descreve o escopo de possibilidades6,7,8. No entanto, as anotações de genoma manter critérios arbitrários para anotação de ORF, tais como um comprimento mínimo de 100 códons e um único ORF por transcrição9,10. Um número crescente de estudos desafia o actual modelo de anotação e relatar as descobertas de ORFs funcionais anotadas em genomas eucarióticos8,11,12,13, 14. Estas novas proteínas encontram-se codificados em RNAs supostamente não-codificantes, no 5′ ou 3′ não traduzidas (UTR) de regiões de mRNAs, ou sobrepondo a sequência de código canônica (cCDS) em um quadro de alternativo. Embora a maioria destas descobertas foram acidentais, eles demonstram que as advertências de anotações atual do genoma e a natureza de policistrônico de genes eukaryotic8.
Aqui, destaca-se o uso de bancos de dados OpenProt para proteômica baseada em MS. OpenProt é o primeiro banco de dados para manter um modelo de anotação de policistrônico para transcriptomes eucarióticas. Está livremente disponível em www.openprot.org15. Uma proporção desses previu que ORFS seria aleatório e não-funcionais, por isso é que OpenProt acumula evidências experimentais e funcional para aumentar a confiança. Evidências experimentais incluem a expressão da proteína (pelo MS) e tradução de provas (pelo Ribossoma perfilação)15. Provas funcionais incluem proteína homologia (com um In-paranoico como abordagem) e previsão de domínio funcional15.
OpenProt oferece a possibilidade de baixar vários bancos de dados, desde que contenham apenas bem suportadas proteínas para bancos de dados sob medidas. Aqui, apresentaremos um pipeline para o uso de bancos de dados OpenProt e irá oferecer insights sobre qual banco de dados para escolher tendo em conta o objectivo experimental. O pipeline de análise proteômica apresentado aqui é suportado pela estrutura Galaxy como é acesso livre e fácil de usar, mas os bancos de dados podem funcionar com qualquer fluxo de trabalho16,17,18. Também apresentaremos como usar o site OpenProt para reunir mais informações sobre novas proteínas detectadas pelos bancos de dados MS. Using OpenProt irá fornecer uma visão mais exaustiva da paisagem proteomic e fomentem descobertas proteomics e biomarcadores em uma maneira mais sistemática do que métodos atuais.
Este protocolo destaca o uso de bancos de dados de OpenProt15 quando interrogando MS datasets; Isso não irá rever o desenho do experimento em si, que tem sido exaustivamente analisado em outro lugar20,21,22. Em um esforço para permanecer totalmente aberto, o protocolo é livremente disponível (S1 de Material complementar–S4). Para facilitar a leitura, todos os termos usados em OpenProt e, por este meio, em todo este protocolo são definidos na tabela 1.
Ao analisar dados de espectrómetros de massa, a qualidade da identificação de proteínas parcialmente depende da precisão do banco de dados usado6,20. As abordagens atuais usam tradicionalmente UniProtKB bancos de dados, no entanto, estas oferecem suporte o modelo de anotação do genoma de um único ORF por transcrição e um comprimento mínimo de 100 códons (com excepção dos exemplos previamente demonstrados)40. Vários estudos referem-se as deficiências de tais bancos de dados com a descoberta de ORFs funcionais de supostamente não-codificantes regiões8,11,12,13. Agora, OpenProt permite a identificação de proteína mais exaustiva como ele desenha sequências proteicas de múltiplas anotações transcriptome. OpenProt recupera RefSeq NCBI (GRCh38.p7) e transcriptomes de Ensembl (GRCh38.83) e anotações UniProtKB (UniProtKB-SwissProt, 2017-09-27)42,de40,43. Como anotações atuais apresentam pouca sobreposição, OpenProt, assim, exibe uma vista mais exaustiva da paisagem de proteomic potenciais do que quando limitada a uma anotação15.
Além disso, como OpenProt impõe um modelo policistrônico, permite múltiplas anotações de proteína por transcrição. Por motivos de estatísticos e computacionais, OpenProt mantém-se um limite de comprimento mínimo de 30 códons15. No entanto, prediz milhares de sequências de proteínas romance, assim, alargar o âmbito de possibilidades para identificação de proteínas. Com esta abordagem, OpenProt suporta proteomic descobertas de forma mais sistemática.
A qualidade da identificação de proteínas também pode ser afetada pelos parâmetros que são usados. MS-baseado proteomics análises normalmente mantenha um 1% de proteína FDR. No entanto, o banco de dados inteiro de OpenProt contém cerca de 6 vezes mais entradas (Figura 1). Para explicar este aumento substancial para o espaço, nós recomendamos usar um FDR mais rigorosa de 0,001%. Este parâmetro foi otimizado usando estudos de referência e avaliação manual dos espectros selecionado aleatoriamente15. Falso positivo são ainda uma possibilidade, embora, e nós encorajamos minuciosa inspeção e validação de provas para uma proteína de romance. Um padrão recomendado pode ser a identificação de uma proteína de duas execuções diferentes do MS, como os dados de fundo e falsos positivos variam entre conjuntos de dados15.
O gasoduto fornecidas aqui e utilizados para o estudo de caso pode ser modificado tão contente caber o delineamento experimental e parâmetros. Nós recomendaríamos usando vários motores de busca, como aumenta a sensibilidade e a sensibilidade do peptídeo identificação32. Além disso, incentivamos usando o banco de dados que melhor corresponde ao objectivo experimental (Figura 1). Como usar o OpenProt todo banco de dados vem com um FDR rigorosa, verdadeiras identificações podem ser perdidas. Assim, o banco de dados inteiro deve ser destinado a descoberta de novas proteínas, enquanto proteomics clássica de perfil deve estar usando os bancos de dados menores OpenProt (como OpenProt_2pep usado no estudo de caso acima).
OpenProt atualmente prevê sequências começando com um códon ATG, Considerando que diversos estudos destacou a iniciação da tradução em outros códons44,45. Quando uma proteína romance é identificada por um ou vários peptídeos exclusivos, é possível que o codão de iniciação verdadeira não é o presumível ATG. Os usuários podem procurar evidências de tradução no site OpenProt. Atualmente, OpenProt apenas relatórios de eventos de tradução se dizem respeito a toda proteína predita sequência (100% de sobreposição)15. Assim, ausência de evidência de tradução não significaria a proteína não é traduzida, mas que o códon de início pode não ser o suposta ATG.
Apesar de suas limitações atuais, o OpenProt oferece uma vista mais exaustiva do potencial de codificação dos genomas eucarióticos. OpenProt bancos de dados promover proteomic descobertas e a compreensão das funções de proteomic e interações. Desenvolvimentos futuros do banco de dados OpenProt irão incluir anotação de outras espécies, evidência de tradução do não-ATG começar códon e o desenvolvimento de um pipeline para incluir novas proteínas no genoma e estudos de sequenciamento exome.
The authors have nothing to disclose.
Agradecemos a Vivian Delcourt por sua ajuda, discussões e conselhos sobre este trabalho. X.R. é um membro do Fonds de Recherche du Québec Santé FRQS-suporte do Centre de Recherche du Centre Hospitalier Universitaire de Sherbrooke. Esta pesquisa foi apoiada por uma cadeira de pesquisa do Canadá em proteômica funcional e descoberta do romance proteínas X.R. e CIHR Grant MOP-137056. Agradecemos a equipe no cálculo Québec e Compute Canadá pelo seu apoio com o uso do mp2 supercomputador da Université de Sherbrooke. Operação do supercomputador mp2 é financiada pelo Canadá a Fundação de inovação (TPI), le ministère de l’Economie, de la science et de l’innovation du Québec (MESI) e les Fonds de Recherche du Québec – natureza et technologies (FRQ-NT). O servidor da galáxia que foi usado para alguns cálculos de proteômica é em parte financiado pelo colaborativo pesquisa centro 992 médica epigenética (grant DFG SFB 992/1 2012) e Ministério Federal alemão de educação e pesquisa (BMBF concede 031 A538A/A538C RBC, 031L0101B De /031L0101C. NBI-epi, de 0106 031L. ESCADA (de. NBI)).
OpenProt website | open source | n/a | www.openprot.org |
Galaxy Server | open source | n/a | https://usegalaxy.eu/ |
TOPPview software | open source | n/a | www.openms.de |