Summary

JUMPn: Eine optimierte Anwendung für Protein-Co-Expressions-Clustering und Netzwerkanalyse in der Proteomik

Published: October 19, 2021
doi:

Summary

Wir präsentieren ein systembiologisches Tool JUMPn zur Durchführung und Visualisierung von Netzwerkanalysen für quantitative Proteomikdaten mit einem detaillierten Protokoll, das Datenvorverarbeitung, Co-Expression-Clustering, Signalweganreicherung und Protein-Protein-Interaktionsnetzwerkanalyse umfasst.

Abstract

Mit den jüngsten Fortschritten bei massenspektrometriebasierten Proteomiktechnologien ist die Tiefenprofilierung von Hunderten von Proteomen zunehmend möglich geworden. Es ist jedoch eine Herausforderung, biologische Erkenntnisse aus solch wertvollen Datensätzen abzuleiten. Hier stellen wir eine auf Systembiologie basierende Software JUMPn und das zugehörige Protokoll vor, um das Proteom in Protein-Coexpressionscluster über Proben und Protein-Protein-Interaktionsnetzwerke (PPI) zu organisieren, die durch Module (z. B. Proteinkomplexe) verbunden sind. Mit der R/Shiny-Plattform optimiert die JUMPn-Software die Analyse von Co-Expression-Clustering, Pathway-Anreicherung und PPI-Modulerkennung mit integrierter Datenvisualisierung und einer benutzerfreundlichen Oberfläche. Die Hauptschritte des Protokolls umfassen die Installation der JUMPn-Software, die Definition von differentiell exprimierten Proteinen oder des (dys)regulierten Proteoms, die Bestimmung von aussagekräftigen Co-Expressionsclustern und PPI-Modulen sowie die Ergebnisvisualisierung. Während das Protokoll anhand eines isobaren, markierungsbasierten Proteomprofils demonstriert wird, ist JUMPn im Allgemeinen auf eine Vielzahl von quantitativen Datensätzen anwendbar (z. B. markierungsfreie Proteomik). Die JUMPn-Software und das JUMPn-Protokoll stellen somit ein leistungsfähiges Werkzeug zur Verfügung, um die biologische Interpretation in der quantitativen Proteomik zu erleichtern.

Introduction

Massenspektrometrie-basierte Schrotflintenproteomik ist zum Schlüsselansatz für die Analyse der Proteomdiversität komplexer Probengeworden 1. Mit den jüngsten Fortschritten in der MassenspektrometrieInstrumentierung 2,3, Chromatographie 4,5, Ionenmobilitätsdetektion6, Erfassungsmethoden (datenunabhängig7 und datenabhängige Erfassung8), Quantifizierungsansätze (multiplexe isobare Peptidmarkierungsmethode, z. B. TMT9,10 und markierungsfreie Quantifizierung 11,12) und Datenanalysestrategien / Softwareentwicklung 13,14,15,16,17,18, Quantifizierung des gesamten Proteoms (z.B. über 10.000 Proteine) ist jetzt Routine 19,20,21. Wie man jedoch mechanistische Erkenntnisse aus solch tiefen quantitativen Datensätzen gewinnen kann, ist immer noch eine Herausforderung22. Erste Versuche, diese Datensätze zu untersuchen, stützten sich hauptsächlich auf die Annotation einzelner Elemente der Daten, wobei jede Komponente (Protein) unabhängig voneinander behandelt wurde. Biologische Systeme und ihr Verhalten lassen sich jedoch nicht allein durch die Untersuchung einzelner Komponentenerklären 23. Daher ist ein Systemansatz, der die quantifizierten Biomoleküle in den Kontext von Interaktionsnetzwerken stellt, für das Verständnis komplexer Systeme und der damit verbundenen Prozesse wie Embryogenese, Immunantwort und Pathogenese menschlicher Krankheitenunerlässlich 24.

Die netzwerkbasierte Systembiologie hat sich zu einem leistungsfähigen Paradigma für die Analyse großer quantitativer Proteomikdaten 25,26,27,28,29,30,31,32,33 entwickelt. Konzeptionell könnten komplexe Systeme wie Säugetierzellen als hierarchisches Netzwerk34,35 modelliert werden, in dem das gesamte System in Ebenen dargestellt wird: zuerst durch eine Reihe von großen Komponenten, von denen jede dann iterativ durch kleinere Subsysteme modelliert wird. Technisch gesehen kann die Struktur der Proteomdynamik durch miteinander verbundene Netzwerke von koexprimierten Proteinclustern (weil koexprimierte Gene / Proteine oft ähnliche biologische Funktionen oder Mechanismen der Regulation36 teilen) und physikalisch interagierenden PPI-Modulen37 dargestellt werden. Als aktuelles Beispiel25 generierten wir zeitliche Profile des gesamten Proteoms und des Phosphoproteoms während der T-Zell-Aktivierung und verwendeten integrative Co-Expressionsnetzwerke mit PPIs, um funktionelle Module zu identifizieren, die den T-Zell-Ruhezustand vermitteln. Mehrere bioenergetische Module wurden hervorgehoben und experimentell validiert (z. B. die Mitoribosom- und komplexen IV-Module25 und das Ein-Kohlenstoff-Modul38). In einem weiteren Beispiel26 haben wir unseren Ansatz zur Untersuchung der Pathogenese der Alzheimer-Krankheit weiter ausgebaut und erfolgreich die mit dem Krankheitsverlauf assoziierten Proteinmodule und -moleküle priorisiert. Wichtig ist, dass viele unserer unvoreingenommenen Entdeckungen durch unabhängige Patientenkohorten 26,29 und/oder Krankheitsmausmodelle26 validiert wurden. Diese Beispiele veranschaulichten die Leistungsfähigkeit des systembiologischen Ansatzes zur Sezierung molekularer Mechanismen mit quantitativer Proteomik und anderen Omics-Integrationen.

Hier stellen wir JUMPn vor, eine optimierte Software, die quantitative Proteomikdaten mit netzwerkbasierten systembiologischen Ansätzen untersucht. JUMPn dient als nachgelagerte Komponente der etablierten JUMP Proteomik-Software-Suite13,14,39 und zielt darauf ab, die Lücke von einzelnen Proteinquantifizierungen zu biologisch sinnvollen Signalwegen und Proteinmodulen mit dem systembiologischen Ansatz zu schließen. Durch die Berücksichtigung der Quantifizierungsmatrix von differentiell exprimierten (oder den variabelsten) Proteinen als Input zielt JUMPn darauf ab, das Proteom in einer abgestuften Hierarchie von Proteinclustern zu organisieren, die über Proben und dicht verbundene PPI-Module (z. B. Proteinkomplexe) koexprimiert werden, die durch Überrepräsentationsanalyse (oder Anreicherungsanalyse) weiter mit öffentlichen Pfaddatenbanken annotiert werden (Abbildung 1). JUMPn wurde mit der R/Shiny-Plattform40 für eine benutzerfreundliche Oberfläche entwickelt und integriert drei Hauptfunktionsmodule: Co-Expression-Clustering-Analyse, Pathway-Enrichment-Analyse und PPI-Netzwerkanalyse (Abbildung 1). Nach jeder Analyse werden die Ergebnisse automatisch visualisiert und über die R/shiny-Widget-Funktionen einstellbar und können als Publikationstabellen im Microsoft Excel-Format heruntergeladen werden. Im folgenden Protokoll verwenden wir quantitative Gesamtproteomdaten als Beispiel und beschreiben die wichtigsten Schritte der Verwendung von JUMPn, einschließlich der Installation der JUMPn-Software, der Definition von differentiell exprimierten Proteinen oder des (dys)regulierten Proteoms, der Co-Expressionsnetzwerkanalyse und der PPI-Modulanalyse, der Ergebnisvisualisierung und -interpretation sowie der Fehlerbehebung. Die JUMPn-Software ist auf GitHub41 frei verfügbar.

Protocol

HINWEIS: In diesem Protokoll wird die Verwendung von JUMPn durch die Verwendung eines veröffentlichten Datensatzes der Profilerstellung des gesamten Proteoms während der B-Zell-Differenzierung veranschaulicht, der mit dem isobaren TMT-Markierungsreagenz27 quantifiziert wurde. 1. Einrichtung der JUMPn-Software HINWEIS: Für die Einrichtung der JUMPn-Software stehen zwei Optionen zur Verfügung: (i) Installation auf einem lokalen Computer für …

Representative Results

Wir verwendeten unsere veröffentlichten Deep-Proteomics-Datensätze25,26,27,30 (Abbildungen 5 und Abbildung 6) sowie Datensimulationen57 (Tabelle 1), um die JUMPn-Leistung zu optimieren und zu bewerten. Für die Co-Expressions-Proteinclustering-Analyse über WGCNA empfehlen wir, Proteine zu ver…

Discussion

Hier haben wir unsere JUMPn-Software und ihr Protokoll vorgestellt, die in mehreren Projekten zur Sezierung molekularer Mechanismen unter Verwendung tiefer quantitativer Proteomik-Daten 25,26,27,30,64 angewendet wurden. Die JUMPn-Software und das Protokoll wurden vollständig optimiert, einschließlich der Berücksichtigung von DE-Proteinen für die Co-Express…

Disclosures

The authors have nothing to disclose.

Acknowledgements

Die finanzielle Unterstützung wurde von den National Institutes of Health (NIH) (R01AG047928, R01AG053987, RF1AG064909, RF1AG068581 und U54NS110435) und ALSAC (American Lebanese Syrian Associated Charities) bereitgestellt. Die MS-Analyse wurde im Zentrum für Proteomik und Metabolomik des St. Jude Children’s Research Hospital durchgeführt, das teilweise durch den NIH Cancer Center Support Grant (P30CA021765) unterstützt wurde. Der Inhalt liegt in der alleinigen Verantwortung der Autoren und stellt nicht unbedingt die offiziellen Ansichten der National Institutes of Health dar.

Materials

MacBook Pro with a 2.3 GHz Quad-Core Processor running OS 10.15.7. Apple Inc. MacBook Pro 13'' Hardware used for software development and testing
Anoconda Anaconda, Inc. version 4.9.2 https://docs.anaconda.com/anaconda/install/
miniconda Anaconda, Inc. version 4.9.2 https://docs.conda.io/en/latest/miniconda.html
RStudio RStudio Public-benefit corporation version 4.0.3 https://www.rstudio.com/products/rstudio/download/
Shiny Server RStudio Public-benefit corporation https://shiny.rstudio.com/articles/shinyapps.html

References

  1. Aebersold, R., Mann, M. Mass-spectrometric exploration of proteome structure and function. Nature. 537, 347-355 (2016).
  2. Senko, M. W., et al. Novel parallelized quadrupole/linear ion trap/orbitrap tribrid mass spectrometer improving proteome coverage and peptide identification rates. Analytical Chemistry. 85, 11710-11714 (2013).
  3. Eliuk, S., Makarov, A. Evolution of orbitrap mass spectrometry instrumentation. Annual Review of Analytical Chemistry. 8, 61-80 (2015).
  4. Wang, H., et al. Systematic optimization of long gradient chromatography mass spectrometry for deep analysis of brain proteome. Journal of Proteome Research. 14, 829-838 (2015).
  5. Blue, L. E. Recent advances in capillary ultrahigh pressure liquid chromatography. Journal of Chromatography A. 1523, 17-39 (2017).
  6. Meier, F., et al. Online parallel accumulation-serial fragmentation (PASEF) with a novel trapped ion mobility mass spectrometer. Molecular & Cellular Proteomics. 17, 2534-2545 (2018).
  7. Ludwig, C., et al. Data-independent acquisition-based SWATH-MS for quantitative proteomics: a tutorial. Molecular Systems Biology. 14 (8), 8126 (2018).
  8. Zhang, Y. Y., Fonslow, B. R., Shan, B., Baek, M. C., Yates, J. R. Protein analysis by shotgun/bottom-up proteomics. Chemical Reviews. 113, 2343-2394 (2013).
  9. Wang, Z., et al. 27-Plex tandem mass tag mass spectrometry for profiling brain proteome in Alzheimer’s disease. Analytical Chemistry. 92, 7162-7170 (2020).
  10. Li, J. M., et al. TMTpro reagents: a set of isobaric labeling mass tags enables simultaneous proteome-wide measurements across 16 samples. Nature Methods. 17 (4), 399-404 (2020).
  11. Collins, B. C., et al. Multi-laboratory assessment of reproducibility, qualitative and quantitative performance of SWATH-mass spectrometry. Nature Communications. 8 (1), 291 (2017).
  12. Navarro, P., et al. A multicenter study benchmarks software tools for label-free proteome quantification. Nature Biotechnology. 34, 1130 (2016).
  13. Wang, X. S., et al. A tag-based database search tool for peptide identification with high sensitivity and accuracy. Molecular & Cellular Proteomics. 13, 3663-3673 (2014).
  14. Li, Y. X., et al. JUMPg: An integrative proteogenomics pipeline identifying unannotated proteins in human brain and cancer cells. Journal of Proteome Research. 15, 2309-2320 (2016).
  15. Cox, J., Mann, M. MaxQuant enables high peptide identification rates, individualized p.p.b.-range mass accuracies and proteome-wide protein quantification. Nature Biotechnology. 26, 1367-1372 (2008).
  16. Kong, A. T., Leprevost, F. V., Avtonomov, D. M., Mellacheruvu, D., Nesvizhskii, A. I. MSFragger: ultrafast and comprehensive peptide identification in mass spectrometry-based proteomics. Nature Methods. 14, 513 (2017).
  17. Chi, H., et al. Comprehensive identification of peptides in tandem mass spectra using an efficient open search engine. Nature Biotechnology. 36, 1059 (2018).
  18. Demichev, V., Messner, C. B., Vernardis, S. I., Lilley, K. S., Ralser, M. DIA-NN neural networks and interference correction enable deep proteome coverage in high throughput. Nature Methods. 17, 41 (2020).
  19. High, A. A., et al. Deep proteome profiling by isobaric labeling, extensive liquid chromatography, mass spectrometry, and software-assisted quantification. Journal of Visualized Experiments: JoVE. (129), e56474 (2017).
  20. Wang, Z., et al. High-throughput and deep-proteome profiling by 16-plex tandem mass tag labeling coupled with two-dimensional chromatography and mass spectrometry. Journal of Visualized Experiments: JoVE. (162), e61684 (2020).
  21. Meier, F., Geyer, P. E., Winter, S. V., Cox, J., Mann, M. BoxCar acquisition method enables single-shot proteomics at a depth of 10,000 proteins in 100 minutes. Nature Methods. 15, 440 (2018).
  22. Sinitcyn, P., Rudolph, J. D., Cox, J. Computational methods for understanding mass spectrometry-based shotgun proteomics data. Annual Review of Biomedical Data Science. 1, 207-234 (2018).
  23. Ideker, T., Galitski, T., Hood, L. A new approach to decoding life: Systems biology. Annual Review of Genomics and Human Genetics. 2, 343-372 (2001).
  24. Barabasi, A. L., Oltvai, Z. N. Network biology: understanding the cell’s functional organization. Nature Reviews Genetics. 5, 101-113 (2004).
  25. Tan, H., et al. Integrative proteomics and phosphoproteomics profiling reveals dynamic signaling networks and bioenergetics pathways underlying T cell activation. Immunity. 46, 488-503 (2017).
  26. Bai, B., et al. Deep multilayer brain proteomics identifies molecular networks in alzheimer’s disease progression. Neuron. 105, 975-991 (2020).
  27. Zeng, H., et al. Discrete roles and bifurcation of PTEN signaling and mTORC1-mediated anabolic metabolism underlie IL-7-driven B lymphopoiesis. Science Advances. 4, 5701 (2018).
  28. Seyfried, N. T., et al. A multi-network approach identifies protein-specific co-expression in asymptomatic and symptomatic Alzheimer’s disease. Cell Systems. 4, 60-72 (2017).
  29. Johnson, E. C. B., et al. Large-scale proteomic analysis of Alzheimer’s disease brain and cerebrospinal fluid reveals early changes in energy metabolism associated with microglia and astrocyte activation. Nature Medicine. 26, 769-780 (2020).
  30. Stewart, E., et al. Identification of therapeutic targets in rhabdomyosarcoma through integrated genomic, epigenomic, and proteomic analyses. Cancer Cell. 34, 411-426 (2018).
  31. Rudolph, J. D., Cox, J. A network module for the perseus software for computational proteomics facilitates proteome interaction graph analysis. Journal of Proteome Research. 18, 2052-2064 (2019).
  32. Zhang, B., et al. Proteogenomic characterization of human colon and rectal cancer. Nature. 513, 382 (2014).
  33. Petralia, F., et al. Integrated proteogenomic characterization across major histological types of pediatric brain cancer. Cell. 183, 1962 (2020).
  34. Dutkowski, J., et al. A gene ontology inferred from molecular networks. Nature Biotechnology. 31, 38 (2013).
  35. Yu, M. K., et al. Translation of genotype to phenotype by a hierarchy of cell subsystems. Cell Systems. 2, 77-88 (2016).
  36. Jansen, R., Greenbaum, D., Gerstein, M. Relating whole-genome expression data with protein-protein interactions. Genome Research. 12, 37-46 (2002).
  37. Huttlin, E. L., et al. Architecture of the human interactome defines protein communities and disease networks. Nature. 545, 505-509 (2017).
  38. Ron-Harel, N., et al. Mitochondrial biogenesis and proteome remodeling promote one-carbon metabolism for T cell activation. Cell Metabolism. 24, 104-117 (2016).
  39. Niu, M. M., et al. Extensive peptide fractionation and y(1) ion-based interference detection method for enabling accurate quantification by isobaric labeling and mass spectrometry. Analytical Chemistry. 89, 2956-2963 (2017).
  40. Chang, W. shiny: Web Application Framework for. Nature Protocols. 11, 2301-2319 (2021).
  41. . JUMPn Available from: https://github.com/VanderwallDavid/JUMPn_1.0.0 (2021)
  42. . Anaconda Available from: https://docs.anaconda.com/anaconda/install/ (2021)
  43. . miniconda Available from: https://docs.conda.io/en/latest/miniconda.html (2021)
  44. . RStudio Available from: https://www.rstudio.com/products/rstudio/download/ (2021)
  45. . Shiny Server Available from: https://shiny.rstudio.com/articles/shinyapps.html (2021)
  46. Tyanova, S., Temu, T., Cox, J. The MaxQuant computational platform for mass spectrometry-based shotgun proteomics. Nature Protocol. 11, 2301-2319 (2016).
  47. . R code Available from: https://github.com/VanderwallDavid/JUMPn_1.0.0/tree/main/JUMPn_preprocessing (2021)
  48. Florens, L., et al. Analyzing chromatin remodeling complexes using shotgun proteomics and normalized spectral abundance factors. Methods. 40, 303-311 (2006).
  49. Zhang, B., Horvath, S. A general framework for weighted gene co-expression network analysis. Statistical Applications in Genetics and Molecular Biology. 4, (2005).
  50. Voineagu, I., et al. Transcriptomic analysis of autistic brain reveals convergent molecular pathology. Nature. 474, 380 (2011).
  51. Langfelder, P., Zhang, B., Horvath, S. Defining clusters from a hierarchical cluster tree: the Dynamic Tree Cut package for R. Bioinformatics. 24, 719-720 (2008).
  52. Ravasz, E., Somera, A. L., Mongru, D. A., Oltvai, Z. N., Barabasi, A. L. Hierarchical organization of modularity in metabolic networks. Science. 297, 1551-1555 (2002).
  53. Kuleshov, M. V., et al. Enrichr: a comprehensive gene set enrichment analysis web server 2016 update. Nucleic Acids Research. 44, 90-97 (2016).
  54. Liberzon, A., et al. Molecular signatures database (MSigDB) 3.0. Bioinformatics. 27, 1739-1740 (2011).
  55. . FlyEn rich r Available from: https://maayanlab.cloud/FlyEnrichr/#stats (2021)
  56. . JUMPn GitHub Available from: https://github.com/VanderwallDavid/JUMPn_1.0.0/tree/main/resources/example_fly (2021)
  57. Langfelder, P., Horvath, S. Eigengene networks for studying the relationships between co-expression modules. BMC Systems Biology. 1, 54 (2007).
  58. Benjamini, Y., Hochberg, Y. Controlling the false discovery rate – a practical and powerful approach to multiple testing. Journal of the Royal Statistical Society: Series B. 57, 289-300 (1995).
  59. Szklarczyk, D., et al. STRING v10: protein-protein interaction networks, integrated over the tree of life. Nucleic Acids Research. 43, 447-452 (2015).
  60. Szklarczyk, D., et al. STRING v11: protein-protein association networks with increased coverage, supporting functional discovery in genome-wide experimental datasets. Nucleic Acids Research. 47, 607-613 (2019).
  61. Huttlin, E. L., et al. The BioPlex network: A systematic exploration of the human interactome. Cell. 162, 425-440 (2015).
  62. Huttlin, E. L., et al. Dual proteome-scale networks reveal cell-specific remodeling of the human interactome. Cell. 184, 3022-3040 (2021).
  63. Li, T., et al. A scored human protein-protein interaction network to catalyze genomic interpretation. Nature Methods. 14, 61-64 (2017).
  64. Wang, H., et al. Deep multiomics profiling of brain tumors identifies signaling networks downstream of cancer driver genes. Nature Communications. 10, 3718 (2019).
  65. Gerstein, M. B., et al. Architecture of the human regulatory network derived from ENCODE data. Nature. 489, 91-100 (2012).
  66. Yu, J., Peng, J., Chi, H. Systems immunology: Integrating multi-omics data to infer regulatory networks and hidden drivers of immunity. Current Opinion in Systems Biology. 15, 19-29 (2019).
  67. Califano, A., Alvarez, M. J. The recurrent architecture of tumour initiation, progression and drug sensitivity. Nature Reviews Cancer. 17, 116-130 (2017).
  68. Hein, M. Y., et al. A human interactome in three quantitative dimensions organized by stoichiometries and abundances. Cell. 163, 712-723 (2015).
  69. Liang, Z., Xu, M., Teng, M. K., Niu, L. W. Comparison of protein interaction networks reveals species conservation and divergence. BMC Bioinformatics. 7, 457 (2006).
  70. Shou, C., et al. Measuring the evolutionary rewiring of biological networks. PLOS Computational Biology. 7, 1001050 (2011).
  71. Zhou, Y., et al. Metascape provides a biologist-oriented resource for the analysis of systems-level datasets. Nature Communications. 10, 1523 (2019).
  72. Cline, M. S., et al. Integration of biological networks and gene expression data using Cytoscape. Nature Protocols. 2, 2366-2382 (2007).

Play Video

Cite This Article
Vanderwall, D., Suresh, P., Fu, Y., Cho, J., Shaw, T. I., Mishra, A., High, A. A., Peng, J., Li, Y. JUMPn: A Streamlined Application for Protein Co-Expression Clustering and Network Analysis in Proteomics. J. Vis. Exp. (176), e62796, doi:10.3791/62796 (2021).

View Video