Summary

JUMPn: un'applicazione semplificata per il clustering di co-espressione proteica e l'analisi di rete in proteomica

Published: October 19, 2021
doi:

Summary

Presentiamo uno strumento di biologia dei sistemi JUMPn per eseguire e visualizzare l’analisi di rete per i dati quantitativi di proteomica, con un protocollo dettagliato che include la pre-elaborazione dei dati, il clustering di co-espressione, l’arricchimento del percorso e l’analisi della rete di interazione proteina-proteina.

Abstract

Con i recenti progressi nelle tecnologie di proteomica basate sulla spettrometria di massa, la profilazione profonda di centinaia di proteomi è diventata sempre più fattibile. Tuttavia, ricavare informazioni biologiche da set di dati così preziosi è una sfida. Qui introduciamo un software basato sulla biologia dei sistemi JUMPn e il suo protocollo associato per organizzare il proteoma in cluster di co-espressione proteica attraverso campioni e reti di interazione proteina-proteina (PPI) collegate da moduli (ad esempio, complessi proteici). Utilizzando la piattaforma R/Shiny, il software JUMPn semplifica l’analisi del clustering di co-espressione, dell’arricchimento del percorso e del rilevamento dei moduli PPI, con la visualizzazione dei dati integrata e un’interfaccia user-friendly. Le fasi principali del protocollo includono l’installazione del software JUMPn, la definizione di proteine differenzialmente espresse o del proteoma (dis)regolato, la determinazione di cluster di co-espressione significativi e moduli PPI e la visualizzazione dei risultati. Mentre il protocollo è dimostrato utilizzando un profilo proteoma basato sull’etichettatura isobarica, JUMPn è generalmente applicabile a una vasta gamma di set di dati quantitativi (ad esempio, proteomica senza etichette). Il software e il protocollo JUMPn forniscono quindi un potente strumento per facilitare l’interpretazione biologica nella proteomica quantitativa.

Introduction

La proteomica del fucile a pompa basata sulla spettrometria di massa è diventata l’approccio chiave per analizzare la diversità del proteoma di campioni complessi1. Con i recenti progressi nella strumentazione di spettrometria di massa 2,3, cromatografia 4,5, rilevamento della mobilità ionica6, metodi di acquisizione (acquisizione 7 indipendente dai dati e acquisizione dipendente dai dati8), approcci di quantificazione (metodo di etichettatura dei peptidi isobarici multiplex, ad esempio TMT 9,10 e quantificazione senza etichetta11,12) e strategie di analisi dei dati. sviluppo software 13,14,15,16,17,18, quantificazione dell’intero proteoma (ad esempio, oltre 10.000 proteine) è ora di routine 19,20,21. Tuttavia, come ottenere approfondimenti meccanicistici da set di dati quantitativi così profondi è ancora impegnativo22. I tentativi iniziali di indagare su questi set di dati si basavano prevalentemente sull’annotazione di singoli elementi dei dati, trattando ogni componente (proteina) in modo indipendente. Tuttavia, i sistemi biologici e il loro comportamento non possono essere spiegati esclusivamente esaminando i singoli componenti23. Pertanto, un approccio sistemico che colloca le biomolecole quantificate nel contesto delle reti di interazione è essenziale per la comprensione dei sistemi complessi e dei processi associati come l’embriogenesi, la risposta immunitaria e la patogenesi delle malattie umane24.

La biologia dei sistemi basata sulla rete è emersa come un potente paradigma per l’analisi dei dati quantitativi di proteomica su larga scala 25,26,27,28,29,30,31,32,33. Concettualmente, sistemi complessi come le cellule di mammifero potrebbero essere modellati come una rete gerarchica34,35, in cui l’intero sistema è rappresentato in livelli: prima da un numero di componenti di grandi dimensioni, ognuno dei quali poi modellato iterativamente da sottosistemi più piccoli. Tecnicamente, la struttura della dinamica del proteoma può essere presentata da reti interconnesse di cluster proteici co-espressi (perché geni/proteine co-espressi spesso condividono funzioni biologiche simili o meccanismi di regolazione36) e moduli PPI fisicamente interagenti37. Come esempio recente25, abbiamo generato profili temporali di proteoma intero e fosfoproteoma durante l’attivazione delle cellule T e utilizzato reti di co-espressione integrative con PPI per identificare moduli funzionali che mediano l’uscita di quiescenza delle cellule T. Sono stati evidenziati e convalidati sperimentalmente più moduli correlati alla bioenergetica (ad esempio, il mitoribosoma e i moduli IV complessi25 e il modulo a un carbonio38). In un altro esempio26, abbiamo ulteriormente esteso il nostro approccio per studiare la patogenesi della malattia di Alzheimer e abbiamo dato priorità con successo ai moduli e alle molecole proteiche associate alla progressione della malattia. È importante sottolineare che molte delle nostre scoperte imparziali sono state convalidate da coorti di pazienti indipendenti26,29 e / o modelli murini di malattia26. Questi esempi hanno illustrato la potenza dell’approccio di biologia dei sistemi per sezionare i meccanismi molecolari con la proteomica quantitativa e altre integrazioni omiche.

Qui presentiamo JUMPn, un software semplificato che esplora i dati quantitativi di proteomica utilizzando approcci di biologia dei sistemi basati sulla rete. JUMPn funge da componente a valle della suite software di proteomica JUMP13,14,39 e mira a colmare il divario dalle singole quantificazioni proteiche a percorsi biologicamente significativi e moduli proteici utilizzando l’approccio della biologia dei sistemi. Prendendo la matrice di quantificazione delle proteine differenzialmente espresse (o le più variabili) come input, JUMPn mira a organizzare il proteoma in una gerarchia a più livelli di cluster proteici co-espressi tra campioni e moduli PPI densamente connessi (ad esempio, complessi proteici), che sono ulteriormente annotati con database di percorsi pubblici mediante analisi di sovrarappresentazione (o arricchimento) (Figura 1). JUMPn è sviluppato con la piattaforma R/Shiny40 per un’interfaccia user-friendly e integra tre principali moduli funzionali: analisi di clustering di co-espressione, analisi di arricchimento del percorso e analisi della rete PPI (Figura 1). Dopo ogni analisi, i risultati vengono visualizzati automaticamente e sono regolabili tramite le funzioni widget R/shiny e facilmente scaricabili come tabelle di pubblicazione in formato Microsoft Excel. Nel seguente protocollo, utilizziamo i dati quantitativi dell’intero proteoma come esempio e descriviamo i passaggi principali dell’utilizzo di JUMPn, inclusa l’installazione del software JUMPn, la definizione di proteine differenzialmente espresse o il proteoma (dis)regolato, l’analisi della rete di co-espressione e l’analisi del modulo PPI, la visualizzazione e l’interpretazione dei risultati e le riprese dei problemi. Il software JUMPn è disponibile gratuitamente su GitHub41.

Protocol

NOTA: In questo protocollo, l’uso di JUMPn è illustrato utilizzando un set di dati pubblicato di profilazione dell’intero proteoma durante la differenziazione delle cellule B quantificata dal reagente isobarico dell’etichetta TMT27. 1. Configurazione del software JUMPn NOTA: per la configurazione del software JUMPn sono disponibili due opzioni: (i) installazione su un computer locale per uso personale; e (ii) distribuzione di JUMPn su un Shiny…

Representative Results

Abbiamo utilizzato i nostri set di dati di proteomica profondapubblicati 25,26,27,30 (Figure 5 e Figura 6) e le simulazioni di dati57 (Tabella 1) per ottimizzare e valutare le prestazioni di JUMPn. Per l’analisi del clustering proteico di co-espressione tramite WGCNA, si consiglia di utilizzare …

Discussion

Qui abbiamo introdotto il nostro software JUMPn e il suo protocollo, che sono stati applicati in più progetti per la dissezione di meccanismi molecolari utilizzando dati quantitativi profondidi proteomica 25,26,27,30,64. Il software e il protocollo JUMPn sono stati completamente ottimizzati, compresa la considerazione delle proteine DE per l’analisi della ret…

Disclosures

The authors have nothing to disclose.

Acknowledgements

Il sostegno finanziario è stato fornito dal National Institutes of Health (NIH) (R01AG047928, R01AG053987, RF1AG064909, RF1AG068581 e U54NS110435) e ALSAC (American Lebanese Syrian Associated Charities). L’analisi della SM è stata effettuata nel Centro di Proteomica e Metabolomica del St. Jude Children’s Research Hospital, che è stato parzialmente supportato dal NIH Cancer Center Support Grant (P30CA021765). Il contenuto è di esclusiva responsabilità degli autori e non rappresenta necessariamente le opinioni ufficiali del National Institutes of Health.

Materials

MacBook Pro with a 2.3 GHz Quad-Core Processor running OS 10.15.7. Apple Inc. MacBook Pro 13'' Hardware used for software development and testing
Anoconda Anaconda, Inc. version 4.9.2 https://docs.anaconda.com/anaconda/install/
miniconda Anaconda, Inc. version 4.9.2 https://docs.conda.io/en/latest/miniconda.html
RStudio RStudio Public-benefit corporation version 4.0.3 https://www.rstudio.com/products/rstudio/download/
Shiny Server RStudio Public-benefit corporation https://shiny.rstudio.com/articles/shinyapps.html

References

  1. Aebersold, R., Mann, M. Mass-spectrometric exploration of proteome structure and function. Nature. 537, 347-355 (2016).
  2. Senko, M. W., et al. Novel parallelized quadrupole/linear ion trap/orbitrap tribrid mass spectrometer improving proteome coverage and peptide identification rates. Analytical Chemistry. 85, 11710-11714 (2013).
  3. Eliuk, S., Makarov, A. Evolution of orbitrap mass spectrometry instrumentation. Annual Review of Analytical Chemistry. 8, 61-80 (2015).
  4. Wang, H., et al. Systematic optimization of long gradient chromatography mass spectrometry for deep analysis of brain proteome. Journal of Proteome Research. 14, 829-838 (2015).
  5. Blue, L. E. Recent advances in capillary ultrahigh pressure liquid chromatography. Journal of Chromatography A. 1523, 17-39 (2017).
  6. Meier, F., et al. Online parallel accumulation-serial fragmentation (PASEF) with a novel trapped ion mobility mass spectrometer. Molecular & Cellular Proteomics. 17, 2534-2545 (2018).
  7. Ludwig, C., et al. Data-independent acquisition-based SWATH-MS for quantitative proteomics: a tutorial. Molecular Systems Biology. 14 (8), 8126 (2018).
  8. Zhang, Y. Y., Fonslow, B. R., Shan, B., Baek, M. C., Yates, J. R. Protein analysis by shotgun/bottom-up proteomics. Chemical Reviews. 113, 2343-2394 (2013).
  9. Wang, Z., et al. 27-Plex tandem mass tag mass spectrometry for profiling brain proteome in Alzheimer’s disease. Analytical Chemistry. 92, 7162-7170 (2020).
  10. Li, J. M., et al. TMTpro reagents: a set of isobaric labeling mass tags enables simultaneous proteome-wide measurements across 16 samples. Nature Methods. 17 (4), 399-404 (2020).
  11. Collins, B. C., et al. Multi-laboratory assessment of reproducibility, qualitative and quantitative performance of SWATH-mass spectrometry. Nature Communications. 8 (1), 291 (2017).
  12. Navarro, P., et al. A multicenter study benchmarks software tools for label-free proteome quantification. Nature Biotechnology. 34, 1130 (2016).
  13. Wang, X. S., et al. A tag-based database search tool for peptide identification with high sensitivity and accuracy. Molecular & Cellular Proteomics. 13, 3663-3673 (2014).
  14. Li, Y. X., et al. JUMPg: An integrative proteogenomics pipeline identifying unannotated proteins in human brain and cancer cells. Journal of Proteome Research. 15, 2309-2320 (2016).
  15. Cox, J., Mann, M. MaxQuant enables high peptide identification rates, individualized p.p.b.-range mass accuracies and proteome-wide protein quantification. Nature Biotechnology. 26, 1367-1372 (2008).
  16. Kong, A. T., Leprevost, F. V., Avtonomov, D. M., Mellacheruvu, D., Nesvizhskii, A. I. MSFragger: ultrafast and comprehensive peptide identification in mass spectrometry-based proteomics. Nature Methods. 14, 513 (2017).
  17. Chi, H., et al. Comprehensive identification of peptides in tandem mass spectra using an efficient open search engine. Nature Biotechnology. 36, 1059 (2018).
  18. Demichev, V., Messner, C. B., Vernardis, S. I., Lilley, K. S., Ralser, M. DIA-NN neural networks and interference correction enable deep proteome coverage in high throughput. Nature Methods. 17, 41 (2020).
  19. High, A. A., et al. Deep proteome profiling by isobaric labeling, extensive liquid chromatography, mass spectrometry, and software-assisted quantification. Journal of Visualized Experiments: JoVE. (129), e56474 (2017).
  20. Wang, Z., et al. High-throughput and deep-proteome profiling by 16-plex tandem mass tag labeling coupled with two-dimensional chromatography and mass spectrometry. Journal of Visualized Experiments: JoVE. (162), e61684 (2020).
  21. Meier, F., Geyer, P. E., Winter, S. V., Cox, J., Mann, M. BoxCar acquisition method enables single-shot proteomics at a depth of 10,000 proteins in 100 minutes. Nature Methods. 15, 440 (2018).
  22. Sinitcyn, P., Rudolph, J. D., Cox, J. Computational methods for understanding mass spectrometry-based shotgun proteomics data. Annual Review of Biomedical Data Science. 1, 207-234 (2018).
  23. Ideker, T., Galitski, T., Hood, L. A new approach to decoding life: Systems biology. Annual Review of Genomics and Human Genetics. 2, 343-372 (2001).
  24. Barabasi, A. L., Oltvai, Z. N. Network biology: understanding the cell’s functional organization. Nature Reviews Genetics. 5, 101-113 (2004).
  25. Tan, H., et al. Integrative proteomics and phosphoproteomics profiling reveals dynamic signaling networks and bioenergetics pathways underlying T cell activation. Immunity. 46, 488-503 (2017).
  26. Bai, B., et al. Deep multilayer brain proteomics identifies molecular networks in alzheimer’s disease progression. Neuron. 105, 975-991 (2020).
  27. Zeng, H., et al. Discrete roles and bifurcation of PTEN signaling and mTORC1-mediated anabolic metabolism underlie IL-7-driven B lymphopoiesis. Science Advances. 4, 5701 (2018).
  28. Seyfried, N. T., et al. A multi-network approach identifies protein-specific co-expression in asymptomatic and symptomatic Alzheimer’s disease. Cell Systems. 4, 60-72 (2017).
  29. Johnson, E. C. B., et al. Large-scale proteomic analysis of Alzheimer’s disease brain and cerebrospinal fluid reveals early changes in energy metabolism associated with microglia and astrocyte activation. Nature Medicine. 26, 769-780 (2020).
  30. Stewart, E., et al. Identification of therapeutic targets in rhabdomyosarcoma through integrated genomic, epigenomic, and proteomic analyses. Cancer Cell. 34, 411-426 (2018).
  31. Rudolph, J. D., Cox, J. A network module for the perseus software for computational proteomics facilitates proteome interaction graph analysis. Journal of Proteome Research. 18, 2052-2064 (2019).
  32. Zhang, B., et al. Proteogenomic characterization of human colon and rectal cancer. Nature. 513, 382 (2014).
  33. Petralia, F., et al. Integrated proteogenomic characterization across major histological types of pediatric brain cancer. Cell. 183, 1962 (2020).
  34. Dutkowski, J., et al. A gene ontology inferred from molecular networks. Nature Biotechnology. 31, 38 (2013).
  35. Yu, M. K., et al. Translation of genotype to phenotype by a hierarchy of cell subsystems. Cell Systems. 2, 77-88 (2016).
  36. Jansen, R., Greenbaum, D., Gerstein, M. Relating whole-genome expression data with protein-protein interactions. Genome Research. 12, 37-46 (2002).
  37. Huttlin, E. L., et al. Architecture of the human interactome defines protein communities and disease networks. Nature. 545, 505-509 (2017).
  38. Ron-Harel, N., et al. Mitochondrial biogenesis and proteome remodeling promote one-carbon metabolism for T cell activation. Cell Metabolism. 24, 104-117 (2016).
  39. Niu, M. M., et al. Extensive peptide fractionation and y(1) ion-based interference detection method for enabling accurate quantification by isobaric labeling and mass spectrometry. Analytical Chemistry. 89, 2956-2963 (2017).
  40. Chang, W. shiny: Web Application Framework for. Nature Protocols. 11, 2301-2319 (2021).
  41. . JUMPn Available from: https://github.com/VanderwallDavid/JUMPn_1.0.0 (2021)
  42. . Anaconda Available from: https://docs.anaconda.com/anaconda/install/ (2021)
  43. . miniconda Available from: https://docs.conda.io/en/latest/miniconda.html (2021)
  44. . RStudio Available from: https://www.rstudio.com/products/rstudio/download/ (2021)
  45. . Shiny Server Available from: https://shiny.rstudio.com/articles/shinyapps.html (2021)
  46. Tyanova, S., Temu, T., Cox, J. The MaxQuant computational platform for mass spectrometry-based shotgun proteomics. Nature Protocol. 11, 2301-2319 (2016).
  47. . R code Available from: https://github.com/VanderwallDavid/JUMPn_1.0.0/tree/main/JUMPn_preprocessing (2021)
  48. Florens, L., et al. Analyzing chromatin remodeling complexes using shotgun proteomics and normalized spectral abundance factors. Methods. 40, 303-311 (2006).
  49. Zhang, B., Horvath, S. A general framework for weighted gene co-expression network analysis. Statistical Applications in Genetics and Molecular Biology. 4, (2005).
  50. Voineagu, I., et al. Transcriptomic analysis of autistic brain reveals convergent molecular pathology. Nature. 474, 380 (2011).
  51. Langfelder, P., Zhang, B., Horvath, S. Defining clusters from a hierarchical cluster tree: the Dynamic Tree Cut package for R. Bioinformatics. 24, 719-720 (2008).
  52. Ravasz, E., Somera, A. L., Mongru, D. A., Oltvai, Z. N., Barabasi, A. L. Hierarchical organization of modularity in metabolic networks. Science. 297, 1551-1555 (2002).
  53. Kuleshov, M. V., et al. Enrichr: a comprehensive gene set enrichment analysis web server 2016 update. Nucleic Acids Research. 44, 90-97 (2016).
  54. Liberzon, A., et al. Molecular signatures database (MSigDB) 3.0. Bioinformatics. 27, 1739-1740 (2011).
  55. . FlyEn rich r Available from: https://maayanlab.cloud/FlyEnrichr/#stats (2021)
  56. . JUMPn GitHub Available from: https://github.com/VanderwallDavid/JUMPn_1.0.0/tree/main/resources/example_fly (2021)
  57. Langfelder, P., Horvath, S. Eigengene networks for studying the relationships between co-expression modules. BMC Systems Biology. 1, 54 (2007).
  58. Benjamini, Y., Hochberg, Y. Controlling the false discovery rate – a practical and powerful approach to multiple testing. Journal of the Royal Statistical Society: Series B. 57, 289-300 (1995).
  59. Szklarczyk, D., et al. STRING v10: protein-protein interaction networks, integrated over the tree of life. Nucleic Acids Research. 43, 447-452 (2015).
  60. Szklarczyk, D., et al. STRING v11: protein-protein association networks with increased coverage, supporting functional discovery in genome-wide experimental datasets. Nucleic Acids Research. 47, 607-613 (2019).
  61. Huttlin, E. L., et al. The BioPlex network: A systematic exploration of the human interactome. Cell. 162, 425-440 (2015).
  62. Huttlin, E. L., et al. Dual proteome-scale networks reveal cell-specific remodeling of the human interactome. Cell. 184, 3022-3040 (2021).
  63. Li, T., et al. A scored human protein-protein interaction network to catalyze genomic interpretation. Nature Methods. 14, 61-64 (2017).
  64. Wang, H., et al. Deep multiomics profiling of brain tumors identifies signaling networks downstream of cancer driver genes. Nature Communications. 10, 3718 (2019).
  65. Gerstein, M. B., et al. Architecture of the human regulatory network derived from ENCODE data. Nature. 489, 91-100 (2012).
  66. Yu, J., Peng, J., Chi, H. Systems immunology: Integrating multi-omics data to infer regulatory networks and hidden drivers of immunity. Current Opinion in Systems Biology. 15, 19-29 (2019).
  67. Califano, A., Alvarez, M. J. The recurrent architecture of tumour initiation, progression and drug sensitivity. Nature Reviews Cancer. 17, 116-130 (2017).
  68. Hein, M. Y., et al. A human interactome in three quantitative dimensions organized by stoichiometries and abundances. Cell. 163, 712-723 (2015).
  69. Liang, Z., Xu, M., Teng, M. K., Niu, L. W. Comparison of protein interaction networks reveals species conservation and divergence. BMC Bioinformatics. 7, 457 (2006).
  70. Shou, C., et al. Measuring the evolutionary rewiring of biological networks. PLOS Computational Biology. 7, 1001050 (2011).
  71. Zhou, Y., et al. Metascape provides a biologist-oriented resource for the analysis of systems-level datasets. Nature Communications. 10, 1523 (2019).
  72. Cline, M. S., et al. Integration of biological networks and gene expression data using Cytoscape. Nature Protocols. 2, 2366-2382 (2007).

Play Video

Cite This Article
Vanderwall, D., Suresh, P., Fu, Y., Cho, J., Shaw, T. I., Mishra, A., High, A. A., Peng, J., Li, Y. JUMPn: A Streamlined Application for Protein Co-Expression Clustering and Network Analysis in Proteomics. J. Vis. Exp. (176), e62796, doi:10.3791/62796 (2021).

View Video