Summary

JUMPn: Een gestroomlijnde toepassing voor eiwit co-expressie clustering en netwerkanalyse in proteomics

Published: October 19, 2021
doi:

Summary

We presenteren een systeembiologische tool JUMPn om netwerkanalyse uit te voeren en te visualiseren voor kwantitatieve proteomics-gegevens, met een gedetailleerd protocol inclusief gegevensvoorverwerking, co-expressieclustering, pathway-verrijking en eiwit-eiwitinteractienetwerkanalyse.

Abstract

Met recente ontwikkelingen in op massaspectrometrie gebaseerde proteomics-technologieën is diepe profilering van honderden proteomen steeds haalbaarder geworden. Het afleiden van biologische inzichten uit dergelijke waardevolle datasets is echter een uitdaging. Hier introduceren we een op systeembiologie gebaseerde software JUMPn en het bijbehorende protocol om het proteoom te organiseren in eiwitco-expressieclusters over monsters en eiwit-eiwitinteractie (PPI) -netwerken verbonden door modules (bijv. Eiwitcomplexen). Met behulp van het R/Shiny-platform stroomlijnt de JUMPn-software de analyse van co-expressieclustering, pathwayverrijking en PPI-moduledetectie, met geïntegreerde datavisualisatie en een gebruiksvriendelijke interface. De belangrijkste stappen van het protocol omvatten de installatie van de JUMPn-software, de definitie van differentieel tot expressie gebrachte eiwitten of het (dys)gereguleerde proteoom, bepaling van betekenisvolle co-expressieclusters en PPI-modules en resultaatvisualisatie. Hoewel het protocol wordt gedemonstreerd met behulp van een op isobaar labeling gebaseerd proteoomprofiel, is JUMPn algemeen toepasbaar op een breed scala aan kwantitatieve datasets (bijv. Labelvrije proteomics). De JUMPn-software en het protocol bieden dus een krachtig hulpmiddel om biologische interpretatie in kwantitatieve proteomics te vergemakkelijken.

Introduction

Massaspectrometrie-gebaseerde shotgun proteomics is de belangrijkste benadering geworden voor het analyseren van proteoomdiversiteit van complexe monsters1. Met recente ontwikkelingen in massaspectrometrie-instrumentatie 2,3, chromatografie 4,5, ionenmobiliteitsdetectie6, acquisitiemethoden (data-onafhankelijke7 en data-afhankelijke acquisitie8), kwantificeringsbenaderingen (multi-plex isobare peptide-etiketteringsmethode, bijv. TMT 9,10, en labelvrije kwantificering11,12) en data-analysestrategieën/ softwareontwikkeling 13,14,15,16,17,18, kwantificering van het hele proteoom (bijv. Meer dan 10.000 eiwitten) is nu routine 19,20,21. Hoe je mechanistische inzichten kunt krijgen uit zulke diepe kwantitatieve datasets is echter nog steeds een uitdaging22. De eerste pogingen om deze datasets te onderzoeken waren voornamelijk gebaseerd op de annotatie van individuele elementen van de gegevens, waarbij elke component (eiwit) onafhankelijk werd behandeld. Biologische systemen en hun gedrag kunnen echter niet alleen worden verklaard door individuele componentente onderzoeken 23. Daarom is een systeembenadering die de gekwantificeerde biomoleculen in de context van interactienetwerken plaatst, essentieel voor het begrip van complexe systemen en de bijbehorende processen zoals embryogenese, immuunrespons en pathogenese van menselijke ziekten24.

Netwerkgebaseerde systeembiologie is naar voren gekomen als een krachtig paradigma voor het analyseren van grootschalige kwantitatieve proteomics-gegevens 25,26,27,28,29,30,31,32,33. Conceptueel zouden complexe systemen zoals zoogdiercellen kunnen worden gemodelleerd als een hiërarchisch netwerk34,35, waarin het hele systeem in lagen wordt weergegeven: eerst door een aantal grote componenten, die elk vervolgens iteratief worden gemodelleerd door kleinere subsystemen. Technisch gezien kan de structuur van proteoomdynamica worden gepresenteerd door onderling verbonden netwerken van co-tot expressie gebrachte eiwitclusters (omdat co-tot expressie gebrachte genen / eiwitten vaak vergelijkbare biologische functies of regulatiemechanismen delen36) en fysiek interagerende PPI-modules37. Als recent voorbeeld25 genereerden we temporele profielen van hele proteoom en fosfoproteoom tijdens T-celactivering en gebruikten we integratieve co-expressienetwerken met PPI’s om functionele modules te identificeren die T-cel rust exit bemiddelen. Meerdere bio-energetische gerelateerde modules werden gemarkeerd en experimenteel gevalideerd (bijv. de mitoribostische en complexe IV-modules25 en de één-koolstofmodule38). In een ander voorbeeld26 hebben we onze aanpak verder uitgebreid om de pathogenese van de ziekte van Alzheimer te bestuderen en met succes prioriteit gegeven aan ziekteprogressie geassocieerde eiwitmodules en moleculen. Belangrijk is dat veel van onze onbevooroordeelde ontdekkingen werden gevalideerd door onafhankelijke patiëntencohorten26,29 en /of ziektemuismodellen26. Deze voorbeelden illustreerden de kracht van de systeembiologische benadering voor het ontleden van moleculaire mechanismen met kwantitatieve proteomics en andere omics-integraties.

Hier introduceren we JUMPn, een gestroomlijnde software die kwantitatieve proteomics-gegevens onderzoekt met behulp van netwerkgebaseerde systeembiologische benaderingen. JUMPn dient als de downstream-component van de gevestigde JUMP proteomics-softwaresuite 13,14,39 en heeft tot doel de kloof te dichten van individuele eiwitkwantificeringen naar biologisch zinvolle routes en eiwitmodules met behulp van de systeembiologische benadering. Door de kwantificeringsmatrix van differentieel tot expressie gebrachte (of de meest variabele) eiwitten als input te nemen, wil JUMPn het proteoom organiseren in een gelaagde hiërarchie van eiwitclusters die mede tot expressie komen in monsters en dicht verbonden PPI-modules (bijv. Eiwitcomplexen), die verder worden geannoteerd met openbare pathway-databases door oververtegenwoordiging (of verrijking) analyse (figuur 1). JUMPn is ontwikkeld met het R/Shiny-platform40 voor een gebruiksvriendelijke interface en integreert drie belangrijke functionele modules: co-expressieclusteringanalyse, pathwayverrijkingsanalyse en PPI-netwerkanalyse (figuur 1). Na elke analyse worden de resultaten automatisch gevisualiseerd en zijn ze instelbaar via de R/shiny widget-functies en gemakkelijk te downloaden als publicatietabellen in Microsoft Excel-formaat. In het volgende protocol gebruiken we kwantitatieve hele proteoomgegevens als voorbeeld en beschrijven we de belangrijkste stappen van het gebruik van JUMPn, inclusief de installatie van de JUMPn-software, de definitie van differentieel tot expressie gebrachte eiwitten of het (dys)gereguleerde proteoom, co-expressienetwerkanalyse en PPI-moduleanalyse, resultaatvisualisatie en -interpretatie en probleemoplossing. JUMPn-software is gratis beschikbaar op GitHub41.

Protocol

OPMERKING: In dit protocol wordt het gebruik van JUMPn geïllustreerd door gebruik te maken van een gepubliceerde dataset van volledige proteoomprofilering tijdens B-celdifferentiatie gekwantificeerd door TMT isobaar labelreagens27. 1. Installatie van JUMPn-software OPMERKING: Er zijn twee opties voor het instellen van de JUMPn-software: (i) installatie op een lokale computer voor persoonlijk gebruik; en (ii) implementatie van JUMPn op een exte…

Representative Results

We gebruikten onze gepubliceerde diepe proteomics-datasets 25,26,27,30 (figuren 5 en figuur 6) en gegevenssimulaties57 (tabel 1) om jumPn-prestaties te optimaliseren en te evalueren. Voor co-expressie eiwitclusteringanalyse via WGCNA raden we aan om eiwitten te gebruiken die significant zijn ve…

Discussion

Hier introduceerden we onze JUMPn-software en het bijbehorende protocol, die in meerdere projecten zijn toegepast voor het ontleden van moleculaire mechanismen met behulp van diepe kwantitatieve proteomics-gegevens 25,26,27,30,64. De JUMPn-software en het JUMPn-protocol zijn volledig geoptimaliseerd, inclusief overweging van DE-eiwitten voor co-expressienetwer…

Disclosures

The authors have nothing to disclose.

Acknowledgements

Financiële steun werd verleend door de National Institutes of Health (NIH) (R01AG047928, R01AG053987, RF1AG064909, RF1AG068581 en U54NS110435) en ALSAC (American Lebanese Syrian Associated Charities). De MS-analyse werd uitgevoerd in het St. Jude Children’s Research Hospital’s Center of Proteomics and Metabolomics, dat gedeeltelijk werd ondersteund door NIH Cancer Center Support Grant (P30CA021765). De inhoud is uitsluitend de verantwoordelijkheid van de auteurs en vertegenwoordigt niet noodzakelijkerwijs de officiële standpunten van de National Institutes of Health.

Materials

MacBook Pro with a 2.3 GHz Quad-Core Processor running OS 10.15.7. Apple Inc. MacBook Pro 13'' Hardware used for software development and testing
Anoconda Anaconda, Inc. version 4.9.2 https://docs.anaconda.com/anaconda/install/
miniconda Anaconda, Inc. version 4.9.2 https://docs.conda.io/en/latest/miniconda.html
RStudio RStudio Public-benefit corporation version 4.0.3 https://www.rstudio.com/products/rstudio/download/
Shiny Server RStudio Public-benefit corporation https://shiny.rstudio.com/articles/shinyapps.html

References

  1. Aebersold, R., Mann, M. Mass-spectrometric exploration of proteome structure and function. Nature. 537, 347-355 (2016).
  2. Senko, M. W., et al. Novel parallelized quadrupole/linear ion trap/orbitrap tribrid mass spectrometer improving proteome coverage and peptide identification rates. Analytical Chemistry. 85, 11710-11714 (2013).
  3. Eliuk, S., Makarov, A. Evolution of orbitrap mass spectrometry instrumentation. Annual Review of Analytical Chemistry. 8, 61-80 (2015).
  4. Wang, H., et al. Systematic optimization of long gradient chromatography mass spectrometry for deep analysis of brain proteome. Journal of Proteome Research. 14, 829-838 (2015).
  5. Blue, L. E. Recent advances in capillary ultrahigh pressure liquid chromatography. Journal of Chromatography A. 1523, 17-39 (2017).
  6. Meier, F., et al. Online parallel accumulation-serial fragmentation (PASEF) with a novel trapped ion mobility mass spectrometer. Molecular & Cellular Proteomics. 17, 2534-2545 (2018).
  7. Ludwig, C., et al. Data-independent acquisition-based SWATH-MS for quantitative proteomics: a tutorial. Molecular Systems Biology. 14 (8), 8126 (2018).
  8. Zhang, Y. Y., Fonslow, B. R., Shan, B., Baek, M. C., Yates, J. R. Protein analysis by shotgun/bottom-up proteomics. Chemical Reviews. 113, 2343-2394 (2013).
  9. Wang, Z., et al. 27-Plex tandem mass tag mass spectrometry for profiling brain proteome in Alzheimer’s disease. Analytical Chemistry. 92, 7162-7170 (2020).
  10. Li, J. M., et al. TMTpro reagents: a set of isobaric labeling mass tags enables simultaneous proteome-wide measurements across 16 samples. Nature Methods. 17 (4), 399-404 (2020).
  11. Collins, B. C., et al. Multi-laboratory assessment of reproducibility, qualitative and quantitative performance of SWATH-mass spectrometry. Nature Communications. 8 (1), 291 (2017).
  12. Navarro, P., et al. A multicenter study benchmarks software tools for label-free proteome quantification. Nature Biotechnology. 34, 1130 (2016).
  13. Wang, X. S., et al. A tag-based database search tool for peptide identification with high sensitivity and accuracy. Molecular & Cellular Proteomics. 13, 3663-3673 (2014).
  14. Li, Y. X., et al. JUMPg: An integrative proteogenomics pipeline identifying unannotated proteins in human brain and cancer cells. Journal of Proteome Research. 15, 2309-2320 (2016).
  15. Cox, J., Mann, M. MaxQuant enables high peptide identification rates, individualized p.p.b.-range mass accuracies and proteome-wide protein quantification. Nature Biotechnology. 26, 1367-1372 (2008).
  16. Kong, A. T., Leprevost, F. V., Avtonomov, D. M., Mellacheruvu, D., Nesvizhskii, A. I. MSFragger: ultrafast and comprehensive peptide identification in mass spectrometry-based proteomics. Nature Methods. 14, 513 (2017).
  17. Chi, H., et al. Comprehensive identification of peptides in tandem mass spectra using an efficient open search engine. Nature Biotechnology. 36, 1059 (2018).
  18. Demichev, V., Messner, C. B., Vernardis, S. I., Lilley, K. S., Ralser, M. DIA-NN neural networks and interference correction enable deep proteome coverage in high throughput. Nature Methods. 17, 41 (2020).
  19. High, A. A., et al. Deep proteome profiling by isobaric labeling, extensive liquid chromatography, mass spectrometry, and software-assisted quantification. Journal of Visualized Experiments: JoVE. (129), e56474 (2017).
  20. Wang, Z., et al. High-throughput and deep-proteome profiling by 16-plex tandem mass tag labeling coupled with two-dimensional chromatography and mass spectrometry. Journal of Visualized Experiments: JoVE. (162), e61684 (2020).
  21. Meier, F., Geyer, P. E., Winter, S. V., Cox, J., Mann, M. BoxCar acquisition method enables single-shot proteomics at a depth of 10,000 proteins in 100 minutes. Nature Methods. 15, 440 (2018).
  22. Sinitcyn, P., Rudolph, J. D., Cox, J. Computational methods for understanding mass spectrometry-based shotgun proteomics data. Annual Review of Biomedical Data Science. 1, 207-234 (2018).
  23. Ideker, T., Galitski, T., Hood, L. A new approach to decoding life: Systems biology. Annual Review of Genomics and Human Genetics. 2, 343-372 (2001).
  24. Barabasi, A. L., Oltvai, Z. N. Network biology: understanding the cell’s functional organization. Nature Reviews Genetics. 5, 101-113 (2004).
  25. Tan, H., et al. Integrative proteomics and phosphoproteomics profiling reveals dynamic signaling networks and bioenergetics pathways underlying T cell activation. Immunity. 46, 488-503 (2017).
  26. Bai, B., et al. Deep multilayer brain proteomics identifies molecular networks in alzheimer’s disease progression. Neuron. 105, 975-991 (2020).
  27. Zeng, H., et al. Discrete roles and bifurcation of PTEN signaling and mTORC1-mediated anabolic metabolism underlie IL-7-driven B lymphopoiesis. Science Advances. 4, 5701 (2018).
  28. Seyfried, N. T., et al. A multi-network approach identifies protein-specific co-expression in asymptomatic and symptomatic Alzheimer’s disease. Cell Systems. 4, 60-72 (2017).
  29. Johnson, E. C. B., et al. Large-scale proteomic analysis of Alzheimer’s disease brain and cerebrospinal fluid reveals early changes in energy metabolism associated with microglia and astrocyte activation. Nature Medicine. 26, 769-780 (2020).
  30. Stewart, E., et al. Identification of therapeutic targets in rhabdomyosarcoma through integrated genomic, epigenomic, and proteomic analyses. Cancer Cell. 34, 411-426 (2018).
  31. Rudolph, J. D., Cox, J. A network module for the perseus software for computational proteomics facilitates proteome interaction graph analysis. Journal of Proteome Research. 18, 2052-2064 (2019).
  32. Zhang, B., et al. Proteogenomic characterization of human colon and rectal cancer. Nature. 513, 382 (2014).
  33. Petralia, F., et al. Integrated proteogenomic characterization across major histological types of pediatric brain cancer. Cell. 183, 1962 (2020).
  34. Dutkowski, J., et al. A gene ontology inferred from molecular networks. Nature Biotechnology. 31, 38 (2013).
  35. Yu, M. K., et al. Translation of genotype to phenotype by a hierarchy of cell subsystems. Cell Systems. 2, 77-88 (2016).
  36. Jansen, R., Greenbaum, D., Gerstein, M. Relating whole-genome expression data with protein-protein interactions. Genome Research. 12, 37-46 (2002).
  37. Huttlin, E. L., et al. Architecture of the human interactome defines protein communities and disease networks. Nature. 545, 505-509 (2017).
  38. Ron-Harel, N., et al. Mitochondrial biogenesis and proteome remodeling promote one-carbon metabolism for T cell activation. Cell Metabolism. 24, 104-117 (2016).
  39. Niu, M. M., et al. Extensive peptide fractionation and y(1) ion-based interference detection method for enabling accurate quantification by isobaric labeling and mass spectrometry. Analytical Chemistry. 89, 2956-2963 (2017).
  40. Chang, W. shiny: Web Application Framework for. Nature Protocols. 11, 2301-2319 (2021).
  41. . JUMPn Available from: https://github.com/VanderwallDavid/JUMPn_1.0.0 (2021)
  42. . Anaconda Available from: https://docs.anaconda.com/anaconda/install/ (2021)
  43. . miniconda Available from: https://docs.conda.io/en/latest/miniconda.html (2021)
  44. . RStudio Available from: https://www.rstudio.com/products/rstudio/download/ (2021)
  45. . Shiny Server Available from: https://shiny.rstudio.com/articles/shinyapps.html (2021)
  46. Tyanova, S., Temu, T., Cox, J. The MaxQuant computational platform for mass spectrometry-based shotgun proteomics. Nature Protocol. 11, 2301-2319 (2016).
  47. . R code Available from: https://github.com/VanderwallDavid/JUMPn_1.0.0/tree/main/JUMPn_preprocessing (2021)
  48. Florens, L., et al. Analyzing chromatin remodeling complexes using shotgun proteomics and normalized spectral abundance factors. Methods. 40, 303-311 (2006).
  49. Zhang, B., Horvath, S. A general framework for weighted gene co-expression network analysis. Statistical Applications in Genetics and Molecular Biology. 4, (2005).
  50. Voineagu, I., et al. Transcriptomic analysis of autistic brain reveals convergent molecular pathology. Nature. 474, 380 (2011).
  51. Langfelder, P., Zhang, B., Horvath, S. Defining clusters from a hierarchical cluster tree: the Dynamic Tree Cut package for R. Bioinformatics. 24, 719-720 (2008).
  52. Ravasz, E., Somera, A. L., Mongru, D. A., Oltvai, Z. N., Barabasi, A. L. Hierarchical organization of modularity in metabolic networks. Science. 297, 1551-1555 (2002).
  53. Kuleshov, M. V., et al. Enrichr: a comprehensive gene set enrichment analysis web server 2016 update. Nucleic Acids Research. 44, 90-97 (2016).
  54. Liberzon, A., et al. Molecular signatures database (MSigDB) 3.0. Bioinformatics. 27, 1739-1740 (2011).
  55. . FlyEn rich r Available from: https://maayanlab.cloud/FlyEnrichr/#stats (2021)
  56. . JUMPn GitHub Available from: https://github.com/VanderwallDavid/JUMPn_1.0.0/tree/main/resources/example_fly (2021)
  57. Langfelder, P., Horvath, S. Eigengene networks for studying the relationships between co-expression modules. BMC Systems Biology. 1, 54 (2007).
  58. Benjamini, Y., Hochberg, Y. Controlling the false discovery rate – a practical and powerful approach to multiple testing. Journal of the Royal Statistical Society: Series B. 57, 289-300 (1995).
  59. Szklarczyk, D., et al. STRING v10: protein-protein interaction networks, integrated over the tree of life. Nucleic Acids Research. 43, 447-452 (2015).
  60. Szklarczyk, D., et al. STRING v11: protein-protein association networks with increased coverage, supporting functional discovery in genome-wide experimental datasets. Nucleic Acids Research. 47, 607-613 (2019).
  61. Huttlin, E. L., et al. The BioPlex network: A systematic exploration of the human interactome. Cell. 162, 425-440 (2015).
  62. Huttlin, E. L., et al. Dual proteome-scale networks reveal cell-specific remodeling of the human interactome. Cell. 184, 3022-3040 (2021).
  63. Li, T., et al. A scored human protein-protein interaction network to catalyze genomic interpretation. Nature Methods. 14, 61-64 (2017).
  64. Wang, H., et al. Deep multiomics profiling of brain tumors identifies signaling networks downstream of cancer driver genes. Nature Communications. 10, 3718 (2019).
  65. Gerstein, M. B., et al. Architecture of the human regulatory network derived from ENCODE data. Nature. 489, 91-100 (2012).
  66. Yu, J., Peng, J., Chi, H. Systems immunology: Integrating multi-omics data to infer regulatory networks and hidden drivers of immunity. Current Opinion in Systems Biology. 15, 19-29 (2019).
  67. Califano, A., Alvarez, M. J. The recurrent architecture of tumour initiation, progression and drug sensitivity. Nature Reviews Cancer. 17, 116-130 (2017).
  68. Hein, M. Y., et al. A human interactome in three quantitative dimensions organized by stoichiometries and abundances. Cell. 163, 712-723 (2015).
  69. Liang, Z., Xu, M., Teng, M. K., Niu, L. W. Comparison of protein interaction networks reveals species conservation and divergence. BMC Bioinformatics. 7, 457 (2006).
  70. Shou, C., et al. Measuring the evolutionary rewiring of biological networks. PLOS Computational Biology. 7, 1001050 (2011).
  71. Zhou, Y., et al. Metascape provides a biologist-oriented resource for the analysis of systems-level datasets. Nature Communications. 10, 1523 (2019).
  72. Cline, M. S., et al. Integration of biological networks and gene expression data using Cytoscape. Nature Protocols. 2, 2366-2382 (2007).

Play Video

Cite This Article
Vanderwall, D., Suresh, P., Fu, Y., Cho, J., Shaw, T. I., Mishra, A., High, A. A., Peng, J., Li, Y. JUMPn: A Streamlined Application for Protein Co-Expression Clustering and Network Analysis in Proteomics. J. Vis. Exp. (176), e62796, doi:10.3791/62796 (2021).

View Video