OpenProt è un database liberamente accessibile che applica un modello di polycistronic dei genomi eucariotici. Qui, presentiamo un protocollo per l’utilizzo di database OpenProt quando interrogare i set di dati di spettrometria di massa. Utilizzo di OpenProt database per l’analisi di esperimenti di proteomica consente per la scoperta del romanzo e proteine precedentemente non rilevabili.
Annotazione del genoma è centrale per ricerca proteomica di oggi come disegna i contorni del paesaggio proteomica. I modelli tradizionali di open lettura annotazione frame (ORF) imporre due criteri arbitrari: una lunghezza minima di 100 codoni e un singolo ORF per trascrizione. Tuttavia, un numero crescente di studi segnala espressione delle proteine da presunto non codificante regioni, sfidando l’esattezza delle annotazioni correnti del genoma. Queste proteine sono state trovate di romanzo codificato all’interno di non-codificazione RNAs, 5′ o 3′ regioni non tradotte (UTR) del mRNA, o la sovrapposizione di una sequenza di codici nota (CDS) in alternativa ORF. OpenProt è il primo database che applica un modello polycistronic per genomi eucariotici, permettendo di annotazione di ORFs multiple per trascrizione. OpenProt è liberamente accessibile e offre il download personalizzato di sequenze proteiche attraverso 10 specie. Utilizzando OpenProt database per esperimenti di proteomica consente l’individuazione di nuove proteine ed evidenzia la natura polycistronic di geni eucariotici. La dimensione del database di OpenProt (tutti predetti proteine) è sostanza e devono essere prese in considerazione per l’analisi. Tuttavia, con appropriato false discovery rate (FDR) impostazioni o l’utilizzo di un database di OpenProt riservato, gli utenti otterrà una visione più realistica del paesaggio proteomica. Nel complesso, OpenProt è uno strumento disponibile gratuitamente che favorirà la proteomica scoperte.
Negli ultimi decenni, spettrometria di massa (MS-) basata proteomica è diventata la tecnica d’oro a decifrare i proteomi di cellule eucariotiche1,2,3,4,5. Questo metodo si basa su annotazioni correnti del genoma per generare un database di sequenza della proteina di riferimento che delinea l’ambito di possibilità6,7,8. Tuttavia, le annotazioni del genoma contenere criteri arbitrari per l’annotazione di ORF, ad esempio una lunghezza minima di 100 codoni e un singolo ORF ogni trascrizione9,10. Un numero crescente di studi sfida l’attuale modello di annotazione e segnala le scoperte di ORFs annotate funzionale in genomi eucarioti8,11,12,13, 14. Queste nuove proteine si trovano codificati in presunto non codificanti, in 5′ o 3′ non tradotta regioni (UTR) del mRNA, o la sequenza di codificazione canonica (cCDS) di sovrapposizione in un telaio sostitutivo. Sebbene la maggior parte di queste scoperte sono state serendipitous, essi dimostrano i caveat di annotazioni correnti del genoma e la natura polycistronic di geni eucariotici8.
Qui, si evidenzia l’utilizzo di database OpenProt per proteomica basata su MS. OpenProt è il primo database per contenere un modello di annotazione di polycistronic per trascrittomi eucariotiche. È disponibile gratuitamente presso www.openprot.org15. Una parte di questi predetto che ORFS sarebbe casuale e non-funzionali, ed è per questo OpenProt accumula prove sperimentali e funzionale ad accrescere la fiducia. Evidenze sperimentali sono l’espressione della proteina (da MS) e traduzione in evidenza (mediante profilatura, ribosoma)15. Prove funzionali includono proteine ortologhe (con un In-Paranoid come approccio) e dominio funzionale Pronostico15.
OpenProt offre la possibilità di scaricare diversi database, da contenenti solo ben supportati proteine ai database su misura. Qui, presentiamo una pipeline per l’utilizzo di database di OpenProt e offrirà approfondimenti quale database scegliere considerando lo scopo sperimentale. La pipeline di analisi proteomica ha presentata qui è supportata dal framework Galaxy come è accessibile e facile da usare, ma i database possono funzionare con qualsiasi flusso di lavoro16,17,18. Saremo presenti anche come utilizzare il sito Web di OpenProt per raccogliere maggiori informazioni sulle nuove proteine rilevate dai database MS. Using OpenProt fornirà una visione più esaustiva del paesaggio proteomica e favorirà la proteomica e biomarcatori scoperte in modo più sistematico rispetto ai metodi attuali.
Questo protocollo evidenzia l’uso di OpenProt database15 quando interrogare MS DataSet; non procederà a rivedere la progettazione dell’esperimento stesso, che è stato accuratamente Recensito altrove20,21,22. Nel tentativo di rimanere completamente open source, il protocollo è liberamente disponibile (Complementare materiale S1–S4). Per facilitare la lettura, tutti i termini utilizzati in OpenProt e dichiara nel presente protocollo sono definiti nella tabella 1.
Quando si analizzano dati da spettrometri di massa, la qualità di identificazione delle proteine si basa in parte sull’accuratezza del database utilizzato6,20. Attuali approcci tradizionalmente utilizzano database UniProtKB, eppure questi supportano il modello di annotazione del genoma di un singolo ORF per trascrizione e una lunghezza minima di 100 codoni (ad eccezione di esempi precedentemente dimostrati)40. Più studi riguardano le carenze di tali database con la scoperta di ORFs funzionale da presunto non codificante regioni8,11,12,13. Ora, OpenProt consente per l’identificazione di proteine più esauriente quanto richiama sequenze proteiche da annotazioni multiple del trascrittoma. OpenProt recupera NCBI RefSeq (GRCh38.p7) e trascrittomi Ensembl (GRCh38.83) e le annotazioni UniProtKB (UniProtKB-SwissProt, 2017-09-27)40,42,43. Come annotazioni correnti presentano scarsa sovrapposizione, OpenProt così una visualizzazione più esaustivo del paesaggio proteomica potenziali rispetto a quando limitato a un’annotazione15.
Inoltre, come OpenProt applica un modello di polycistronic, consente annotazioni multiple di proteina per trascrizione. Per motivi statistici e computazionali, OpenProt detiene ancora una soglia di lunghezza minima di 30 codoni15. Ancora, esso predice migliaia di sequenze proteiche romanzo, quindi ampliare la sfera di possibilità per l’identificazione della proteina. Con questo approccio, OpenProt supporta proteomica scoperte in maniera più sistematica.
La qualità di identificazione della proteina può anche dipendere dai parametri che vengono utilizzati. Analisi proteomica basata su MS-tengono tipicamente una proteina 1% FDR. Tuttavia, l’intero database OpenProt contiene circa 6 volte più voci (Figura 1). Per tenere conto di questo aumento sostanza nello spazio ricerca, si consiglia di utilizzare un FDR più rigorose di 0.001%. Questo parametro è stato ottimizzato utilizzando studi di benchmark e valutazione manuale di spettri selezionato casualmente15. Falso positivo sono ancora una possibilità, però, e incoraggiamo ispezione accurata e convalida di elementi di prova per una nuova proteina. Un standard consigliato potrebbe essere l’identificazione di una proteina da due diverse esecuzioni di MS, come dati in background e falsi positivi variano tra i set di dati15.
La pipeline fornito qui e utilizzato per lo studio di caso può essere modificata come lieti di inserire il disegno sperimentale e parametri. Lo consigliamo utilizzando più motori di ricerca come aumenta la sensibilità e la sensibilità del peptide identificazione32. Inoltre, incoraggiamo utilizzando il database corrisponde al meglio allo scopo sperimentale (Figura 1). Come usare il OpenProt intero database viene fornito con un FDR rigorose, veri identificazioni potrebbero andare persi. Così, l’intero database dovrebbe essere destinato per la scoperta di nuove proteine, mentre analisi proteomica classica dovrebbe essere utilizzando i database di OpenProt più piccoli (ad esempio OpenProt_2pep utilizzato nel caso di studio qui sopra).
OpenProt predice attualmente sequenze a partire con un codone ATG, mentre diversi studi ha evidenziato l’inizio della traduzione presso altri codoni44,45. Quando una nuova proteina è identificata da uno o più peptidi univoci, è possibile che il codone di inizio allineare non è la presunta ATG. Gli utenti possono cercare prove di traduzione sul sito OpenProt. Attualmente, OpenProt segnala eventi traduzione solo se esse riguardano l’intera proteina preveduta sequenza (100% sovrapposizione)15. Così, assenza di prove di traduzione non significherebbe la proteina non è tradotto, ma che il codone di inizio non può essere presunta ATG.
Nonostante i suoi limiti attuali, OpenProt offre una visione più esaustiva delle potenziale codifica dei genomi eucariotici. OpenProt database favoriscono la proteomica scoperte e la comprensione delle funzioni di proteomica e interazioni. Gli sviluppi futuri del database OpenProt includerà annotazione di altre specie, prove di traduzione da non-ATG avviare codone e lo sviluppo di una pipeline da includere nuove proteine nell’intero genoma e gli studi di sequenziamento dell’esoma.
The authors have nothing to disclose.
Ringraziamo Vivian Delcourt per suo aiuto, discussioni e consigli su questo lavoro. X.R. è un membro del Fonds de Recherche du Québec Santé FRQS-supportato Centre de Recherche du Centre Hospitalier Universitaire de Sherbrooke. Questa ricerca è stata sostenuta da un Canada Research Chair in proteomica funzionale e scoperta delle proteine di romanzo a grant X.R. e CIHR MOP-137056. Ringraziamo il team di Calcul Québec e Compute Canada per il loro sostegno con l’uso del mp2 di supercomputer da Université de Sherbrooke. Funzionamento del supercomputer mp2 è finanziato da Fondazione Canada di innovazione (CFI), le ministère de il Économie, de la science et de l’Innovation du Québec (MESI) e les Fonds de Recherche du Québec – natura et technologies (FRQ-NT). Il server Galaxy che è stato utilizzato per alcuni calcoli di proteomica è in parte finanziato dal centro ricerca collaborativo 992 epigenetica medica (grant DFG SFB 992/1 2012) e Ministero federale tedesco dell’istruzione e della ricerca (BMBF concede 031 RBC A538A/A538C, 031L0101B De /031L0101C. NBI-epi, L 031 0106 de. SCALA (de. NBI)).
OpenProt website | open source | n/a | www.openprot.org |
Galaxy Server | open source | n/a | https://usegalaxy.eu/ |
TOPPview software | open source | n/a | www.openms.de |