Summary

JUMPn : Une application simplifiée pour le regroupement de la co-expression des protéines et l’analyse des réseaux en protéomique

Published: October 19, 2021
doi:

Summary

Nous présentons un outil de biologie des systèmes JUMPn pour effectuer et visualiser l’analyse de réseau pour des données protéomiques quantitatives, avec un protocole détaillé comprenant le prétraitement des données, le regroupement de co-expression, l’enrichissement des voies et l’analyse du réseau d’interaction protéine-protéine.

Abstract

Avec les progrès récents des technologies protéomiques basées sur la spectrométrie de masse, le profilage en profondeur de centaines de protéomes est devenu de plus en plus réalisable. Cependant, il est difficile de tirer des informations biologiques de ces ensembles de données précieux. Nous présentons ici un logiciel basé sur la biologie des systèmes JUMPn, et son protocole associé pour organiser le protéome en grappes de co-expression de protéines à travers des échantillons et des réseaux d’interaction protéine-protéine (IPP) connectés par des modules (par exemple, des complexes protéiques). Grâce à la plate-forme R/Shiny, le logiciel JUMPn rationalise l’analyse du clustering de co-expression, de l’enrichissement des voies et de la détection des modules PPI, avec une visualisation des données intégrée et une interface conviviale. Les principales étapes du protocole comprennent l’installation du logiciel JUMPn, la définition des protéines exprimées différentiellement ou du protéome (dys)régulé, la détermination de clusters de co-expression significatifs et de modules PPI, et la visualisation des résultats. Bien que le protocole soit démontré à l’aide d’un profil de protéome basé sur le marquage isobare, JUMPn est généralement applicable à un large éventail d’ensembles de données quantitatives (par exemple, la protéomique sans étiquette). Le logiciel et le protocole JUMPn fournissent ainsi un outil puissant pour faciliter l’interprétation biologique en protéomique quantitative.

Introduction

La protéomique au fusil de chasse basée sur la spectrométrie de masse est devenue l’approche clé pour analyser la diversité du protéome d’échantillons complexes1. Avec les progrès récents de l’instrumentation de spectrométriede masse 2,3, de la chromatographie 4,5, de la détection de la mobilité ionique6, des méthodes d’acquisition (acquisition indépendante des données7 et acquisition dépendante des données8), des approches de quantification (méthode de marquage des peptides isobares multiplex, par exemple, TMT 9,10 et quantification sans étiquette11,12) et des stratégies d’analyse des données/ développement delogiciels 13,14,15,16,17,18, la quantification de l’ensemble du protéome (par exemple, plus de 10 000 protéines) est maintenant de routine 19,20,21. Cependant, comment obtenir des informations mécanistes à partir d’ensembles de données quantitatives aussi profonds reste difficile22. Les premières tentatives d’étude de ces ensembles de données reposaient principalement sur l’annotation d’éléments individuels des données, en traitant chaque composant (protéine) indépendamment. Cependant, les systèmes biologiques et leur comportement ne peuvent pas être expliqués uniquement en examinant les composants individuels23. Par conséquent, une approche systémique qui place les biomolécules quantifiées dans le contexte des réseaux d’interaction est essentielle pour la compréhension des systèmes complexes et des processus associés tels que l’embryogenèse, la réponse immunitaire et la pathogenèse des maladies humaines24.

La biologie des systèmes en réseau est devenue un paradigme puissant pour l’analyse des données protéomiques quantitatives à grande échelle 25,26,27,28,29,30,31,32,33. Conceptuellement, des systèmes complexes tels que les cellules de mammifères pourraient être modélisés comme un réseau hiérarchique34,35, dans lequel l’ensemble du système est représenté en niveaux: d’abord par un certain nombre de grands composants, dont chacun est ensuite modélisé de manière itérative par des sous-systèmes plus petits. Techniquement, la structure de la dynamique du protéome peut être présentée par des réseaux interconnectés de groupes de protéines co-exprimées (parce que les gènes/protéines co-exprimés partagent souvent des fonctions biologiques similaires ou des mécanismes de régulation36) et des modules PPIinteragissant physiquement 37. À titre d’exemple récent25, nous avons généré des profils temporels du protéome entier et du phosphoprotéome lors de l’activation des lymphocytes T et utilisé des réseaux de coexpression intégrative avec des IPP pour identifier les modules fonctionnels qui médient la sortie de quiescence des lymphocytes T. Plusieurs modules liés à la bioénergétique ont été mis en évidence et validés expérimentalement (p. ex., les modules mitoribosome et IV complexe25 et le module à un carbone38). Dans un autre exemple26, nous avons élargi notre approche pour étudier la pathogenèse de la maladie d’Alzheimer et avons priorisé avec succès les modules et molécules protéiques associés à la progression de la maladie. Il est important de noter que bon nombre de nos découvertes impartiales ont été validées par des cohortes de patients indépendants 26,29 et/ou des modèles murinsde maladie 26. Ces exemples illustrent la puissance de l’approche de la biologie des systèmes pour disséquer les mécanismes moléculaires avec la protéomique quantitative et d’autres intégrations omiques.

Nous présentons ici JUMPn, un logiciel rationalisé qui explore les données protéomiques quantitatives à l’aide d’approches de biologie des systèmes basées sur des réseaux. JUMPn sert de composant en aval de la suite logicielle de protéomique JUMP établie 13,14,39 et vise à combler le fossé entre les quantifications de protéines individuelles et les voies et modules de protéines biologiquement significatifs en utilisant l’approche de biologie des systèmes. En prenant la matrice de quantification des protéines exprimées différentiellement (ou les plus variables) comme entrée, JUMPn vise à organiser le protéome en une hiérarchie hiérarchisée de groupes de protéines co-exprimés entre des échantillons et des modules PPI densément connectés (par exemple, des complexes protéiques), qui sont ensuite annotés avec des bases de données de voies publiques par une analyse de surreprésentation (ou d’enrichissement) (Figure 1). JUMPn est développé avec la plate-forme R/Shiny40 pour une interface conviviale et intègre trois modules fonctionnels majeurs : l’analyse de clustering de co-expression, l’analyse d’enrichissement des voies et l’analyse du réseau PPI (Figure 1). Après chaque analyse, les résultats sont automatiquement visualisés et réglables via les fonctions du widget R/shiny et facilement téléchargeables sous forme de tableaux de publication au format Microsoft Excel. Dans le protocole suivant, nous utilisons les données quantitatives du protéome entier comme exemple et décrivons les principales étapes de l’utilisation de JUMPn, y compris l’installation du logiciel JUMPn, la définition des protéines exprimées différentiellement ou du protéome régulé (dys), l’analyse du réseau de co-expression et l’analyse du module PPI, la visualisation et l’interprétation des résultats et les dépannages. Le logiciel JUMPn est disponible gratuitement sur GitHub41.

Protocol

REMARQUE: Dans ce protocole, l’utilisation de JUMPn est illustrée par l’utilisation d’un ensemble de données publié de profilage du protéome entier au cours de la différenciation des cellules B quantifié par le réactif d’étiquette isobare TMT27. 1. Configuration du logiciel JUMPn REMARQUE: Deux options sont fournies pour configurer le logiciel JUMPn: (i) installation sur un ordinateur local pour un usage personnel; et (ii) le d?…

Representative Results

Nous avons utilisé nos ensembles de données protéomiques profondes publiés 25,26,27,30 (figures 5 et figure 6) ainsi que les simulations de données57 (tableau 1) pour optimiser et évaluer les performances de JUMPn. Pour l’analyse du regroupement des protéines de coexpression via WGCNA, …

Discussion

Ici, nous avons présenté notre logiciel JUMPn et son protocole, qui ont été appliqués dans de multiples projets de dissection de mécanismes moléculaires à l’aide de données protéomiques quantitatives profondes 25,26,27,30,64. Le logiciel et le protocole JUMPn ont été entièrement optimisés, y compris la prise en compte des protéines DE pour l?…

Disclosures

The authors have nothing to disclose.

Acknowledgements

Le soutien financier a été fourni par les National Institutes of Health (NIH) (R01AG047928, R01AG053987, RF1AG064909, RF1AG068581 et U54NS110435) et ALSAC (American Lebanese Syrian Associated Charities). L’analyse de la SEP a été réalisée au Centre de protéomique et de métabolomique du St. Jude Children’s Research Hospital, qui a été partiellement soutenu par la subvention de soutien du NIH Cancer Center (P30CA021765). Le contenu relève de la seule responsabilité des auteurs et ne représente pas nécessairement les points de vue officiels des National Institutes of Health.

Materials

MacBook Pro with a 2.3 GHz Quad-Core Processor running OS 10.15.7. Apple Inc. MacBook Pro 13'' Hardware used for software development and testing
Anoconda Anaconda, Inc. version 4.9.2 https://docs.anaconda.com/anaconda/install/
miniconda Anaconda, Inc. version 4.9.2 https://docs.conda.io/en/latest/miniconda.html
RStudio RStudio Public-benefit corporation version 4.0.3 https://www.rstudio.com/products/rstudio/download/
Shiny Server RStudio Public-benefit corporation https://shiny.rstudio.com/articles/shinyapps.html

References

  1. Aebersold, R., Mann, M. Mass-spectrometric exploration of proteome structure and function. Nature. 537, 347-355 (2016).
  2. Senko, M. W., et al. Novel parallelized quadrupole/linear ion trap/orbitrap tribrid mass spectrometer improving proteome coverage and peptide identification rates. Analytical Chemistry. 85, 11710-11714 (2013).
  3. Eliuk, S., Makarov, A. Evolution of orbitrap mass spectrometry instrumentation. Annual Review of Analytical Chemistry. 8, 61-80 (2015).
  4. Wang, H., et al. Systematic optimization of long gradient chromatography mass spectrometry for deep analysis of brain proteome. Journal of Proteome Research. 14, 829-838 (2015).
  5. Blue, L. E. Recent advances in capillary ultrahigh pressure liquid chromatography. Journal of Chromatography A. 1523, 17-39 (2017).
  6. Meier, F., et al. Online parallel accumulation-serial fragmentation (PASEF) with a novel trapped ion mobility mass spectrometer. Molecular & Cellular Proteomics. 17, 2534-2545 (2018).
  7. Ludwig, C., et al. Data-independent acquisition-based SWATH-MS for quantitative proteomics: a tutorial. Molecular Systems Biology. 14 (8), 8126 (2018).
  8. Zhang, Y. Y., Fonslow, B. R., Shan, B., Baek, M. C., Yates, J. R. Protein analysis by shotgun/bottom-up proteomics. Chemical Reviews. 113, 2343-2394 (2013).
  9. Wang, Z., et al. 27-Plex tandem mass tag mass spectrometry for profiling brain proteome in Alzheimer’s disease. Analytical Chemistry. 92, 7162-7170 (2020).
  10. Li, J. M., et al. TMTpro reagents: a set of isobaric labeling mass tags enables simultaneous proteome-wide measurements across 16 samples. Nature Methods. 17 (4), 399-404 (2020).
  11. Collins, B. C., et al. Multi-laboratory assessment of reproducibility, qualitative and quantitative performance of SWATH-mass spectrometry. Nature Communications. 8 (1), 291 (2017).
  12. Navarro, P., et al. A multicenter study benchmarks software tools for label-free proteome quantification. Nature Biotechnology. 34, 1130 (2016).
  13. Wang, X. S., et al. A tag-based database search tool for peptide identification with high sensitivity and accuracy. Molecular & Cellular Proteomics. 13, 3663-3673 (2014).
  14. Li, Y. X., et al. JUMPg: An integrative proteogenomics pipeline identifying unannotated proteins in human brain and cancer cells. Journal of Proteome Research. 15, 2309-2320 (2016).
  15. Cox, J., Mann, M. MaxQuant enables high peptide identification rates, individualized p.p.b.-range mass accuracies and proteome-wide protein quantification. Nature Biotechnology. 26, 1367-1372 (2008).
  16. Kong, A. T., Leprevost, F. V., Avtonomov, D. M., Mellacheruvu, D., Nesvizhskii, A. I. MSFragger: ultrafast and comprehensive peptide identification in mass spectrometry-based proteomics. Nature Methods. 14, 513 (2017).
  17. Chi, H., et al. Comprehensive identification of peptides in tandem mass spectra using an efficient open search engine. Nature Biotechnology. 36, 1059 (2018).
  18. Demichev, V., Messner, C. B., Vernardis, S. I., Lilley, K. S., Ralser, M. DIA-NN neural networks and interference correction enable deep proteome coverage in high throughput. Nature Methods. 17, 41 (2020).
  19. High, A. A., et al. Deep proteome profiling by isobaric labeling, extensive liquid chromatography, mass spectrometry, and software-assisted quantification. Journal of Visualized Experiments: JoVE. (129), e56474 (2017).
  20. Wang, Z., et al. High-throughput and deep-proteome profiling by 16-plex tandem mass tag labeling coupled with two-dimensional chromatography and mass spectrometry. Journal of Visualized Experiments: JoVE. (162), e61684 (2020).
  21. Meier, F., Geyer, P. E., Winter, S. V., Cox, J., Mann, M. BoxCar acquisition method enables single-shot proteomics at a depth of 10,000 proteins in 100 minutes. Nature Methods. 15, 440 (2018).
  22. Sinitcyn, P., Rudolph, J. D., Cox, J. Computational methods for understanding mass spectrometry-based shotgun proteomics data. Annual Review of Biomedical Data Science. 1, 207-234 (2018).
  23. Ideker, T., Galitski, T., Hood, L. A new approach to decoding life: Systems biology. Annual Review of Genomics and Human Genetics. 2, 343-372 (2001).
  24. Barabasi, A. L., Oltvai, Z. N. Network biology: understanding the cell’s functional organization. Nature Reviews Genetics. 5, 101-113 (2004).
  25. Tan, H., et al. Integrative proteomics and phosphoproteomics profiling reveals dynamic signaling networks and bioenergetics pathways underlying T cell activation. Immunity. 46, 488-503 (2017).
  26. Bai, B., et al. Deep multilayer brain proteomics identifies molecular networks in alzheimer’s disease progression. Neuron. 105, 975-991 (2020).
  27. Zeng, H., et al. Discrete roles and bifurcation of PTEN signaling and mTORC1-mediated anabolic metabolism underlie IL-7-driven B lymphopoiesis. Science Advances. 4, 5701 (2018).
  28. Seyfried, N. T., et al. A multi-network approach identifies protein-specific co-expression in asymptomatic and symptomatic Alzheimer’s disease. Cell Systems. 4, 60-72 (2017).
  29. Johnson, E. C. B., et al. Large-scale proteomic analysis of Alzheimer’s disease brain and cerebrospinal fluid reveals early changes in energy metabolism associated with microglia and astrocyte activation. Nature Medicine. 26, 769-780 (2020).
  30. Stewart, E., et al. Identification of therapeutic targets in rhabdomyosarcoma through integrated genomic, epigenomic, and proteomic analyses. Cancer Cell. 34, 411-426 (2018).
  31. Rudolph, J. D., Cox, J. A network module for the perseus software for computational proteomics facilitates proteome interaction graph analysis. Journal of Proteome Research. 18, 2052-2064 (2019).
  32. Zhang, B., et al. Proteogenomic characterization of human colon and rectal cancer. Nature. 513, 382 (2014).
  33. Petralia, F., et al. Integrated proteogenomic characterization across major histological types of pediatric brain cancer. Cell. 183, 1962 (2020).
  34. Dutkowski, J., et al. A gene ontology inferred from molecular networks. Nature Biotechnology. 31, 38 (2013).
  35. Yu, M. K., et al. Translation of genotype to phenotype by a hierarchy of cell subsystems. Cell Systems. 2, 77-88 (2016).
  36. Jansen, R., Greenbaum, D., Gerstein, M. Relating whole-genome expression data with protein-protein interactions. Genome Research. 12, 37-46 (2002).
  37. Huttlin, E. L., et al. Architecture of the human interactome defines protein communities and disease networks. Nature. 545, 505-509 (2017).
  38. Ron-Harel, N., et al. Mitochondrial biogenesis and proteome remodeling promote one-carbon metabolism for T cell activation. Cell Metabolism. 24, 104-117 (2016).
  39. Niu, M. M., et al. Extensive peptide fractionation and y(1) ion-based interference detection method for enabling accurate quantification by isobaric labeling and mass spectrometry. Analytical Chemistry. 89, 2956-2963 (2017).
  40. Chang, W. shiny: Web Application Framework for. Nature Protocols. 11, 2301-2319 (2021).
  41. . JUMPn Available from: https://github.com/VanderwallDavid/JUMPn_1.0.0 (2021)
  42. . Anaconda Available from: https://docs.anaconda.com/anaconda/install/ (2021)
  43. . miniconda Available from: https://docs.conda.io/en/latest/miniconda.html (2021)
  44. . RStudio Available from: https://www.rstudio.com/products/rstudio/download/ (2021)
  45. . Shiny Server Available from: https://shiny.rstudio.com/articles/shinyapps.html (2021)
  46. Tyanova, S., Temu, T., Cox, J. The MaxQuant computational platform for mass spectrometry-based shotgun proteomics. Nature Protocol. 11, 2301-2319 (2016).
  47. . R code Available from: https://github.com/VanderwallDavid/JUMPn_1.0.0/tree/main/JUMPn_preprocessing (2021)
  48. Florens, L., et al. Analyzing chromatin remodeling complexes using shotgun proteomics and normalized spectral abundance factors. Methods. 40, 303-311 (2006).
  49. Zhang, B., Horvath, S. A general framework for weighted gene co-expression network analysis. Statistical Applications in Genetics and Molecular Biology. 4, (2005).
  50. Voineagu, I., et al. Transcriptomic analysis of autistic brain reveals convergent molecular pathology. Nature. 474, 380 (2011).
  51. Langfelder, P., Zhang, B., Horvath, S. Defining clusters from a hierarchical cluster tree: the Dynamic Tree Cut package for R. Bioinformatics. 24, 719-720 (2008).
  52. Ravasz, E., Somera, A. L., Mongru, D. A., Oltvai, Z. N., Barabasi, A. L. Hierarchical organization of modularity in metabolic networks. Science. 297, 1551-1555 (2002).
  53. Kuleshov, M. V., et al. Enrichr: a comprehensive gene set enrichment analysis web server 2016 update. Nucleic Acids Research. 44, 90-97 (2016).
  54. Liberzon, A., et al. Molecular signatures database (MSigDB) 3.0. Bioinformatics. 27, 1739-1740 (2011).
  55. . FlyEn rich r Available from: https://maayanlab.cloud/FlyEnrichr/#stats (2021)
  56. . JUMPn GitHub Available from: https://github.com/VanderwallDavid/JUMPn_1.0.0/tree/main/resources/example_fly (2021)
  57. Langfelder, P., Horvath, S. Eigengene networks for studying the relationships between co-expression modules. BMC Systems Biology. 1, 54 (2007).
  58. Benjamini, Y., Hochberg, Y. Controlling the false discovery rate – a practical and powerful approach to multiple testing. Journal of the Royal Statistical Society: Series B. 57, 289-300 (1995).
  59. Szklarczyk, D., et al. STRING v10: protein-protein interaction networks, integrated over the tree of life. Nucleic Acids Research. 43, 447-452 (2015).
  60. Szklarczyk, D., et al. STRING v11: protein-protein association networks with increased coverage, supporting functional discovery in genome-wide experimental datasets. Nucleic Acids Research. 47, 607-613 (2019).
  61. Huttlin, E. L., et al. The BioPlex network: A systematic exploration of the human interactome. Cell. 162, 425-440 (2015).
  62. Huttlin, E. L., et al. Dual proteome-scale networks reveal cell-specific remodeling of the human interactome. Cell. 184, 3022-3040 (2021).
  63. Li, T., et al. A scored human protein-protein interaction network to catalyze genomic interpretation. Nature Methods. 14, 61-64 (2017).
  64. Wang, H., et al. Deep multiomics profiling of brain tumors identifies signaling networks downstream of cancer driver genes. Nature Communications. 10, 3718 (2019).
  65. Gerstein, M. B., et al. Architecture of the human regulatory network derived from ENCODE data. Nature. 489, 91-100 (2012).
  66. Yu, J., Peng, J., Chi, H. Systems immunology: Integrating multi-omics data to infer regulatory networks and hidden drivers of immunity. Current Opinion in Systems Biology. 15, 19-29 (2019).
  67. Califano, A., Alvarez, M. J. The recurrent architecture of tumour initiation, progression and drug sensitivity. Nature Reviews Cancer. 17, 116-130 (2017).
  68. Hein, M. Y., et al. A human interactome in three quantitative dimensions organized by stoichiometries and abundances. Cell. 163, 712-723 (2015).
  69. Liang, Z., Xu, M., Teng, M. K., Niu, L. W. Comparison of protein interaction networks reveals species conservation and divergence. BMC Bioinformatics. 7, 457 (2006).
  70. Shou, C., et al. Measuring the evolutionary rewiring of biological networks. PLOS Computational Biology. 7, 1001050 (2011).
  71. Zhou, Y., et al. Metascape provides a biologist-oriented resource for the analysis of systems-level datasets. Nature Communications. 10, 1523 (2019).
  72. Cline, M. S., et al. Integration of biological networks and gene expression data using Cytoscape. Nature Protocols. 2, 2366-2382 (2007).

Play Video

Cite This Article
Vanderwall, D., Suresh, P., Fu, Y., Cho, J., Shaw, T. I., Mishra, A., High, A. A., Peng, J., Li, Y. JUMPn: A Streamlined Application for Protein Co-Expression Clustering and Network Analysis in Proteomics. J. Vis. Exp. (176), e62796, doi:10.3791/62796 (2021).

View Video