Qui vi presentiamo lo strumento proteogenomic PoGo e protocolli per la modifica veloce, quantitativa e post-traduzionale e variante attivato mapping dei peptidi identificati mediante spettrometria di massa sul genoma di riferimento. Questo strumento è utile per integrare e visualizzare proteogenomic e studi di proteomica personali interfacciamento con dati di genomica ortogonale.
Cross-talk tra geni, trascrizioni e proteine è la chiave per risposte cellulari; quindi, analisi dei livelli molecolari come entità distinte lentamente viene esteso agli studi integrativi per migliorare la comprensione delle dinamiche molecolari all’interno delle cellule. Attuali strumenti per la visualizzazione e l’integrazione della proteomica con altri set di dati di omics sono inadeguate per gli studi su larga scala. Inoltre, catturano solo la sequenza base identificare, scartando le modificazioni post-traduzionali e quantificazione. Per risolvere questi problemi, abbiamo sviluppato PoGo per mappare peptidi con associate modificazioni post-traduzionali e quantificazione di annotazione del genoma di riferimento. Inoltre, lo strumento è stato sviluppato per abilitare il mapping dei peptidi identificati dai database di sequenza personalizzata incorporando varianti di singolo amminoacido. Mentre PoGo è uno strumento da riga di comando, l’interfaccia grafica PoGoGUI consente ai ricercatori di non-bioinformatica mappare facilmente peptidi a 25 specie supportati da Ensembl annotazione del genoma. L’output generato prende in prestito i formati di file dal campo della genomica e, pertanto, la visualizzazione è supportata nella maggior parte dei browser del genoma. Per gli studi su larga scala, PoGo è supportato da TrackHubGenerator per creare web accessibile repository di dati mappati genomi che permettono anche una facile condivisione dei dati proteogenomics. Con poco sforzo, questo strumento può mappare milioni di peptidi di genomi di riferimento entro pochi minuti, superando altri strumenti disponibili identità di sequenza basato. Questo protocollo viene illustrato gli approcci migliori per proteogenomics mappatura tramite PoGo con set di dati pubblicamente disponibili di quantitativi e fosfoproteomica, nonché studi su larga scala.
Nelle cellule, genoma, trascrittoma e proteoma influenzano a vicenda per modulare una risposta agli stimoli interni ed esterni e interagiscono tra loro per svolgere funzioni specifiche che porta a salute e malattia. Quindi, caratterizzare e quantificare i geni, le trascrizioni e le proteine è cruciale per comprendere appieno i processi cellulari. Sequenziamento di nuova generazione (NGS) è una delle strategie più comunemente applicate per identificare e quantificare l’espressione genica e trascrizione. Tuttavia, l’espressione della proteina è comunemente valutata mediante spettrometria di massa (MS). Significativi avanzamenti nella tecnologia MS nell’ultimo decennio ha permesso più una completa identificazione e quantificazione dei proteomi, rendere i dati comparabili con trascrittomica1. Proteogenomics e multi-omics come modi per integrare dati NGS e MS sono diventati potenti approcci per valutare processi cellulari attraverso più livelli molecolari, identificazione di sottotipi di cancro e portando a nuovi potenziali bersagli di droga nel cancro2 , 3. è importante notare che proteogenomics è stato inizialmente utilizzato per fornire la prova di proteomica per annotazioni gene e trascrizione4. Parecchi geni pensati di essere non-codificazione recentemente sono stati sottoposti a rivalutazione considerando il tessuto umano su larga scala i DataSet5,6,7. Inoltre, dati proteomica sono utilizzati con successo per sostenere gli sforzi di annotazione in organismi non-modello8,9. Tuttavia, proteogenomic l’integrazione dei dati possono essere sfruttati ulteriormente evidenziare l’espressione della proteina in relazione alle caratteristiche genomiche e delucidare cross-talk tra trascrizioni e proteine, fornendo un sistema combinato di riferimento e metodi per Co-visualizzazione.
Al fine di fornire un riferimento comune per dati di genomica, trascrittomica e proteomica, sono stati implementati numerosi strumenti per peptidi mapping identificati attraverso MS sul genoma coordinate10,11,12 ,13,14,15,16,17. Approcci differiscono in aspetti come riferimento per il mapping, il supporto di browser del genoma e grado di integrazione con altri strumenti di proteomica come mostrato in Figura 1. Mentre alcuni strumenti mappa inversione peptidi tradotte in un genoma16, altri usano una posizione di search engine con annotata all’interno di un’annotazione del gene e della proteina per ricostruire la sequenza nucleotidica del peptide15. Ancora altri usano una traduzione di 3 – o 6-struttura del genoma per mappare peptidi contro11,13. Infine, diversi strumenti di saltare le sequenze del nucleotide e utilizzano traduzioni di sequenza dell’amminoacido da trascritti di RNA-sequenziamento mappato come intermedio per mappare il genoma associato coordinate10,12, peptidi 14,17. Tuttavia, la traduzione di sequenze nucleotidiche è un processo lento e database personalizzati sono inclini a errori che si propagano alla mappatura del peptide. Per la mappatura di alto-rendimento e veloce, un piccolo e completo riferimento è cruciale. Pertanto, un riferimento di proteina standardizzato con genoma associato coordinate è essenziale per accurata del peptide alla mappatura del genoma. Nuovi aspetti in proteogenomics, come l’incorporazione di varianti e modifiche post-traduzionali (PTM)2,3, stanno guadagnando slancio attraverso studi recenti. Tuttavia, generalmente non sono supportati da corrente proteogenomic strumenti di mappatura, come mostrato nella Figura 1. Per migliorare la velocità e la qualità della mappatura, PoGo è stato sviluppato, uno strumento che permette la mappatura veloce e quantitativa dei peptidi a genomi18. Inoltre, PoGo consente la mappatura di peptidi con fino a due varianti di sequenza e modificazioni post-traduzionali con annotazioni.
PoGo è stato sviluppato per far fronte con il rapido aumento dei quantitativi DataSet ad alta risoluzione cattura proteomi e modifiche globali e fornisce un’utilità centrale per analisi su larga scala come variazione personali e medicina di precisione. Questo articolo descrive l’applicazione di questo strumento per visualizzare la presenza di modificazione post-traduzionale in relazione alle caratteristiche genomiche. Inoltre, questo articolo evidenzia l’individuazione degli eventi di splicing alternativi attraverso peptidi mappate e la mappatura dei peptidi identificati attraverso database personalizzati varianti di un genoma di riferimento. Questo protocollo si avvale di set di dati pubblicamente disponibili scaricato dal orgoglio archivio19 per dimostrare queste funzionalità di PoGo. Inoltre, questo protocollo descrive l’applicazione di TrackHubGenerator per la creazione di mozzi online accessibile dei peptidi mappati genomi per gli studi su larga scala proteogenomics.
Questo protocollo viene descritto come lo strumento software PoGo e la sua interfaccia grafica PoGoGUI abilitare un mapping veloce dei peptidi sul genoma coordinate. Lo strumento offre caratteristiche uniche come modificazione post-traduzionale, quantitativa e abilitati alla variante mappatura di genomi mediante annotazione di riferimento. In questo articolo viene illustrato il metodo su uno studio su larga scala proteogenomic ed evidenzia la sua velocità e memoria efficienza rispetto ad altri strumenti disponibili18. In combinazione con lo strumento TrackHubGenerator, che crea online accessibile mozzi di genomic e genoma i dati collegati, PoGo, con la sua interfaccia utente grafica, studi proteogenomics su larga scala consente di visualizzare rapidamente i loro dati in contesto genomico. Inoltre, dimostriamo le caratteristiche uniche di PoGo con DataSet cercato contro varianti database e fosfoproteomica quantitativa22,29.
Singoli file, ad esempio il file GCT, forniscono preziose visualizzazione e collegamenti tra caratteristiche del peptide e loci genomici. Tuttavia, è importante notare che un’interpretazione fondata su questi da soli può essere difficile o fuorviante a causa loro limitazione ai singoli aspetti del proteogenomics come unicità, modificazioni post-traduzionali e valori quantitativi. Pertanto, è importante scegliere con attenzione quali file di output, le opzioni e combinazioni sono appropriati per la domanda di proteogenomic a portata di mano e modificare le combinazioni. Ad esempio, informazioni circa l’unicità del mapping da un locus genomico specifico potrebbero essere di grande valore per l’annotazione di una funzione genomica7, mentre la quantificazione attraverso diversi campioni potrebbe essere più appropriata per studi relativi caratteristiche genomiche ai cambiamenti nella proteina abbondanza29. L’Output deve essere generato da PoGo per ogni impostazione. Nel caso in cui non genera alcun output, o file vuoti vengono visualizzati nella cartella di output, si raccomanda di controllare i file di input per il contenuto desiderato e il formato di file desiderato. In casi dove il formato di file o il contenuto non segue le aspettative di PoGo (ad esempio, il file FASTA presumibilmente contenente le sequenze di traduzione di trascrizione contiene le sequenze nucleotidiche delle trascrizioni), messaggi di errore chiederà all’utente di Verifica i file di input.
Restrizioni del protocollo e lo strumento sono principalmente basate sul riutilizzo dei formati di file comunemente utilizzati nel campo della genomica. Riuso di formati di file utilizzati nel campo della genomica per applicazioni di proteogenomic è accompagnata da limitazioni specifiche. Questi sono dovuto le diverse serie di requisiti per la visualizzazione del genoma centrato di genomic e proteogenomic dati, ad esempio la necessità di visualizzare le modifiche post-traduzionali dai dati di proteomica. Questo è limitato nei formati di file di genomica di uso delle singole funzioni. Molti approcci e strumenti sono stati sviluppati per proteomica localizzare con fiducia all’interno del peptide sequenze31,32,33,34post-traduzionali. Tuttavia, la visualizzazione di più modifiche in maniera unica e distinguibile sul genoma è ostacolata dalla struttura dei formati di file genomica. Di conseguenza, la visualizzazione del singolo blocco di PTMs multiple dello stesso tipo non costituisce alcuna ambiguità dei siti modifica ma è la conseguenza del requisito differente della community di genomica di visualizzare solo funzionalità di single in un momento. Ciò nonostante, PoGo ha il vantaggio di modificazioni post-traduzionali di mappatura sulla genomiche coordinate per consentire studi focalizzati sull’effetto delle caratteristiche genomiche quali varianti di singolo nucleotide su modificazioni post-traduzionali. Utilizzando PoGo, variante mapping aumenta il numero di mapping totale. Tuttavia, la codifica dei colori unici dei peptidi mappate evidenzia i mapping affidabili da quelle inaffidabili. La mappatura dei peptidi variante identificata da varianti noto singolo nucleotide può essere accompagnata da visualizzare i peptidi mappati a fianco le varianti in formato VCF. In questo modo il codice di colore che indica un mapping inaffidabile di un peptide variante è respinta dalla presenza della variante del nucleotide noto.
Un passo fondamentale per l’utilizzo di PoGo è l’uso dei formati e file corretti. L’utilizzo di sequenze di trascrizione tradotta come sequenze proteiche per accompagnare l’annotazione in formato GTF è il criterio principale. Un altro elemento critico quando si considera l’utilizzo di PoGo per mappare peptidi con aminoacido mismatch è memoria. Mentre memoria efficiente per un’applicazione standard, significativamente ed esponenzialmente crescente numero di possibili mapping con uno o due non corrispondenti conduce ad un aumento esponenziale allo stesso modo in memoria utilizzo18. Vi proponiamo un mapping in fasi, come descritto in questo protocollo per prima mappa i peptidi senza disallineamenti e rimuoverli dal set. I peptidi non precedentemente mappati successivi quindi possono essere mappati utilizzando una mancata corrispondenza e la procedura può essere ripetuta con due mismatch per i peptidi restanti non mappata.
Poiché ha aumentato significativamente la velocità effettiva della spettrometria di massa e studi interfacciamento genomico e proteomico dati sono sempre più frequenti negli ultimi anni, sono strumenti per consentire facilmente l’interfaccia di questi tipi di dati nello stesso sistema di coordinate sempre più indispensabile. Lo strumento presentato qui sarà di aiuto la necessità di combinare genomico e proteomico dati per migliorare una migliore comprensione di studi integrativi attraverso piccole e grandi set di dati mappando peptidi su un’annotazione di riferimento. Incoraggiante, PoGo è stato applicato per eseguire il mapping peptidi candidati gene forniti nello stesso formato come l’annotazione di riferimento per sostenere gli sforzi di annotazione di nuovi geni espressi nel testicolo umano35. L’approccio qui presentato è indipendente dei database utilizzati per identificazione del peptide. Il protocollo potrebbe aiutare nell’identificazione e visualizzazione dei prodotti di traduzione romanzo utilizzando adattato da sequenze di traduzione dei file di ingresso e GTF file da esperimenti di RNA-seq associati.
Diversi approcci e strumenti con una vasta gamma di scenari di applicazioni speciali per mappare peptidi Coordinate genomiche, che vanno dal mapping di peptidi direttamente alla sequenza del genoma a mapping di RNA-sequenziamento guidato, sono stati introdotti10, 11 , 12 , 13 , 14 , 15 , 16 , 17. Tuttavia, questi possono provocare un guasto per mappare correttamente peptidi quando modificazioni post-traduzionali sono presenti ed errori nella mappatura sottostante di letture di RNA-sequenziamento possono essere propagati al livello del peptide. PoGo è stato sviluppato specificamente superare quegli ostacoli e affrontare il rapido aumento dei DataSet proteomic quantitativa ad alta risoluzione per l’integrazione con piattaforme di genomica ortogonale. Lo strumento descritto qui può essere integrato nei flussi di lavoro ad alta produttività. Tramite l’interfaccia grafica PoGoGUI, lo strumento è semplice da usare e non richiede alcuna formazione di bioinformatica di specialista.
The authors have nothing to disclose.
Questo lavoro è stato finanziato dalla Wellcome Trust (WT098051) e la concessione di NIH (U41HG007234) per il progetto GENCODE.
PoGo (software) | NA | NA | https://github.com/cschlaffner/PoGo |
PoGoGUI (software) | NA | NA | https://github.com/cschlaffner/PoGoGUI |
TrackHubGenerator (software) | NA | NA | https://github.com/cschlaffner/TrackHubGenerator |
Integrative Genomics Viewer (software) | NA | NA | http://software.broadinstitute.org/software/igv/ |
UCSC genome browser (website) | NA | NA | https://genome.ucsc.edu/ |
GENCODE (website) | NA | NA | http://gencodegenes.org |
Ensembl (website) | NA | NA | http://ensembl.org |
bedToBigBed (software) | NA | NA | http://hgdownload.soe.ucsc.edu/admin/exe/ |
fetchChromSizes.sh (software) | NA | NA | http://hgdownload.soe.ucsc.edu/admin/exe/ |