Summary

JUMPn: Una aplicación optimizada para la agrupación de coexpresión de proteínas y el análisis de redes en proteómica

Published: October 19, 2021
doi:

Summary

Presentamos una herramienta de biología de sistemas JUMPn para realizar y visualizar análisis de red para datos proteómicos cuantitativos, con un protocolo detallado que incluye preprocesamiento de datos, agrupación de coexpresión, enriquecimiento de vías y análisis de red de interacción proteína-proteína.

Abstract

Con los recientes avances en las tecnologías de proteómica basadas en espectrometría de masas, el perfil profundo de cientos de proteomas se ha vuelto cada vez más factible. Sin embargo, derivar conocimientos biológicos de conjuntos de datos tan valiosos es un desafío. Aquí presentamos un software basado en biología de sistemas JUMPn, y su protocolo asociado para organizar el proteoma en grupos de coexpresión de proteínas a través de muestras y redes de interacción proteína-proteína (PPI) conectadas por módulos (por ejemplo, complejos de proteínas). Utilizando la plataforma R/Shiny, el software JUMPn agiliza el análisis de la agrupación en clústeres de coexpresión, el enriquecimiento de vías y la detección de módulos PPI, con visualización de datos integrada y una interfaz fácil de usar. Los pasos principales del protocolo incluyen la instalación del software JUMPn, la definición de proteínas expresadas diferencialmente o el proteoma (dis)regulado, la determinación de grupos de coexpresión significativos y módulos PPI, y la visualización de resultados. Si bien el protocolo se demuestra utilizando un perfil de proteoma basado en el etiquetado isobárico, JUMPn es generalmente aplicable a una amplia gama de conjuntos de datos cuantitativos (por ejemplo, proteómica sin etiquetas). El software y el protocolo JUMPn proporcionan así una poderosa herramienta para facilitar la interpretación biológica en proteómica cuantitativa.

Introduction

La proteómica de escopeta basada en espectrometría de masas se ha convertido en el enfoque clave para analizar la diversidad de proteomas de muestras complejas1. Con los recientes avances en instrumentación de espectrometríade masas 2,3, cromatografía 4,5, detección de movilidad iónica6, métodos de adquisición (adquisición independiente de datos7 y adquisición dependiente de datos8), enfoques de cuantificación (método de etiquetado de péptidos isobáricos multiplex, por ejemplo, TMT 9,10 y cuantificación sin etiquetas11,12) y estrategias de análisis de datos / desarrollo de software 13,14,15,16,17,18, cuantificación de todo el proteoma (por ejemplo, más de 10,000 proteínas) es ahora rutinario 19,20,21. Sin embargo, cómo obtener información mecanicista a partir de conjuntos de datos cuantitativos tan profundos sigue siendo un desafío22. Los intentos iniciales de investigar estos conjuntos de datos se basaron predominantemente en la anotación de elementos individuales de los datos, tratando cada componente (proteína) de forma independiente. Sin embargo, los sistemas biológicos y su comportamiento no pueden explicarse únicamente examinando componentes individuales23. Por lo tanto, un enfoque sistémico que coloque las biomoléculas cuantificadas en el contexto de las redes de interacción es esencial para la comprensión de los sistemas complejos y los procesos asociados, como la embriogénesis, la respuesta inmune y la patogénesis de las enfermedades humanas24.

La biología de sistemas basada en redes se ha convertido en un poderoso paradigma para analizar datos de proteómica cuantitativa a gran escala 25,26,27,28,29,30,31,32,33. Conceptualmente, los sistemas complejos como las células de mamíferos podrían modelarse como una red jerárquica34,35, en la que todo el sistema está representado en niveles: primero por una serie de componentes grandes, cada uno de los cuales luego modelado iterativamente por subsistemas más pequeños. Técnicamente, la estructura de la dinámica del proteoma puede ser presentada por redes interconectadas de grupos de proteínas coexpresadas (porque los genes/proteínas coexpresados a menudo comparten funciones biológicas similares o mecanismos de regulación36) y módulos PPI que interactúan físicamente37. Como ejemplo reciente25, generamos perfiles temporales de proteoma y fosfoproteoma completos durante la activación de células T y utilizamos redes integradoras de coexpresión con IBP para identificar módulos funcionales que median la salida de inactividad de células T. Se destacaron múltiples módulos relacionados con la bioenergética y se validaron experimentalmente (por ejemplo, el mitoribosoma y los módulos IVcomplejos 25, y el módulo de un carbono38). En otro ejemplo26, ampliamos aún más nuestro enfoque para estudiar la patogénesis de la enfermedad de Alzheimer y priorizamos con éxito los módulos y moléculas de proteínas asociadas a la progresión de la enfermedad. Es importante destacar que muchos de nuestros descubrimientos imparciales fueron validados por cohortes de pacientes independientes26,29 y / o modelos de ratón de enfermedad26. Estos ejemplos ilustraron el poder del enfoque de la biología de sistemas para diseccionar mecanismos moleculares con proteómica cuantitativa y otras integraciones ómicas.

Aquí presentamos JUMPn, un software optimizado que explora datos proteómicos cuantitativos utilizando enfoques de biología de sistemas basados en redes. JUMPn sirve como el componente posterior de la suite de software de proteómica JUMP establecida 13,14,39, y tiene como objetivo llenar el vacío desde cuantificaciones de proteínas individuales hasta vías biológicamente significativas y módulos de proteínas utilizando el enfoque de biología de sistemas. Al tomar la matriz de cuantificación de proteínas expresadas diferencialmente (o las más variables) como entrada, JUMPn tiene como objetivo organizar el proteoma en una jerarquía escalonada de grupos de proteínas coexpresados a través de muestras y módulos PPI densamente conectados (por ejemplo, complejos de proteínas), que se anotan aún más con bases de datos de vías públicas mediante análisis de sobrerrepresentación (o enriquecimiento) (Figura 1). JUMPn está desarrollado con la plataforma R/Shiny40 para una interfaz fácil de usar e integra tres módulos funcionales principales: análisis de agrupación de coexpresión, análisis de enriquecimiento de vías y análisis de red PPI (Figura 1). Después de cada análisis, los resultados se visualizan automáticamente y se ajustablen a través de las funciones de widget R/shiny y se pueden descargar fácilmente como tablas de publicación en formato Microsoft Excel. En el siguiente protocolo, utilizamos datos cuantitativos de proteoma completo como ejemplo y describimos los principales pasos del uso de JUMPn, incluida la instalación del software JUMPn, la definición de proteínas expresadas diferencialmente o el proteoma (desregulado) regulado, el análisis de redes de coexpresión y el análisis del módulo PPI, la visualización e interpretación de resultados y la resolución de problemas. El software JUMPn está disponible gratuitamente en GitHub41.

Protocol

NOTA: En este protocolo, el uso de JUMPn se ilustra utilizando un conjunto de datos publicado de perfiles de proteoma completo durante la diferenciación de células B cuantificado por el reactivo de etiqueta isobárica TMT27. 1. Configuración del software JUMPn NOTA: Se proporcionan dos opciones para configurar el software JUMPn: (i) instalación en un equipo local para uso personal; y (ii) implementación de JUMPn en un shiny server remoto p…

Representative Results

Utilizamos nuestros conjuntos de datos de proteómica profunda publicados 25,26,27,30 (Figuras 5 y Figura 6), así como simulaciones de datos57 (Tabla 1) para optimizar y evaluar el rendimiento de JUMPn. Para el análisis de agrupación de proteínas de coexpresión a través de WGCNA, recomenda…

Discussion

Aquí presentamos nuestro software JUMPn y su protocolo, que se han aplicado en múltiples proyectos para diseccionar mecanismos moleculares utilizando datos proteómicos cuantitativos profundos 25,26,27,30,64. El software y el protocolo JUMPn se han optimizado por completo, incluida la consideración de las proteínas DE para el análisis de redes de coexpres…

Disclosures

The authors have nothing to disclose.

Acknowledgements

El apoyo financiero fue proporcionado por los Institutos Nacionales de Salud (NIH) (R01AG047928, R01AG053987, RF1AG064909, RF1AG068581 y U54NS110435) y ALSAC (American Lebanese Syrian Associated Charities). El análisis de EM se llevó a cabo en el Centro de Proteómica y Metabolómica del St. Jude Children’s Research Hospital, que fue parcialmente apoyado por la Subvención de Apoyo del Centro de Cáncer de los NIH (P30CA021765). El contenido es responsabilidad exclusiva de los autores y no representa necesariamente las opiniones oficiales de los Institutos Nacionales de Salud.

Materials

MacBook Pro with a 2.3 GHz Quad-Core Processor running OS 10.15.7. Apple Inc. MacBook Pro 13'' Hardware used for software development and testing
Anoconda Anaconda, Inc. version 4.9.2 https://docs.anaconda.com/anaconda/install/
miniconda Anaconda, Inc. version 4.9.2 https://docs.conda.io/en/latest/miniconda.html
RStudio RStudio Public-benefit corporation version 4.0.3 https://www.rstudio.com/products/rstudio/download/
Shiny Server RStudio Public-benefit corporation https://shiny.rstudio.com/articles/shinyapps.html

References

  1. Aebersold, R., Mann, M. Mass-spectrometric exploration of proteome structure and function. Nature. 537, 347-355 (2016).
  2. Senko, M. W., et al. Novel parallelized quadrupole/linear ion trap/orbitrap tribrid mass spectrometer improving proteome coverage and peptide identification rates. Analytical Chemistry. 85, 11710-11714 (2013).
  3. Eliuk, S., Makarov, A. Evolution of orbitrap mass spectrometry instrumentation. Annual Review of Analytical Chemistry. 8, 61-80 (2015).
  4. Wang, H., et al. Systematic optimization of long gradient chromatography mass spectrometry for deep analysis of brain proteome. Journal of Proteome Research. 14, 829-838 (2015).
  5. Blue, L. E. Recent advances in capillary ultrahigh pressure liquid chromatography. Journal of Chromatography A. 1523, 17-39 (2017).
  6. Meier, F., et al. Online parallel accumulation-serial fragmentation (PASEF) with a novel trapped ion mobility mass spectrometer. Molecular & Cellular Proteomics. 17, 2534-2545 (2018).
  7. Ludwig, C., et al. Data-independent acquisition-based SWATH-MS for quantitative proteomics: a tutorial. Molecular Systems Biology. 14 (8), 8126 (2018).
  8. Zhang, Y. Y., Fonslow, B. R., Shan, B., Baek, M. C., Yates, J. R. Protein analysis by shotgun/bottom-up proteomics. Chemical Reviews. 113, 2343-2394 (2013).
  9. Wang, Z., et al. 27-Plex tandem mass tag mass spectrometry for profiling brain proteome in Alzheimer’s disease. Analytical Chemistry. 92, 7162-7170 (2020).
  10. Li, J. M., et al. TMTpro reagents: a set of isobaric labeling mass tags enables simultaneous proteome-wide measurements across 16 samples. Nature Methods. 17 (4), 399-404 (2020).
  11. Collins, B. C., et al. Multi-laboratory assessment of reproducibility, qualitative and quantitative performance of SWATH-mass spectrometry. Nature Communications. 8 (1), 291 (2017).
  12. Navarro, P., et al. A multicenter study benchmarks software tools for label-free proteome quantification. Nature Biotechnology. 34, 1130 (2016).
  13. Wang, X. S., et al. A tag-based database search tool for peptide identification with high sensitivity and accuracy. Molecular & Cellular Proteomics. 13, 3663-3673 (2014).
  14. Li, Y. X., et al. JUMPg: An integrative proteogenomics pipeline identifying unannotated proteins in human brain and cancer cells. Journal of Proteome Research. 15, 2309-2320 (2016).
  15. Cox, J., Mann, M. MaxQuant enables high peptide identification rates, individualized p.p.b.-range mass accuracies and proteome-wide protein quantification. Nature Biotechnology. 26, 1367-1372 (2008).
  16. Kong, A. T., Leprevost, F. V., Avtonomov, D. M., Mellacheruvu, D., Nesvizhskii, A. I. MSFragger: ultrafast and comprehensive peptide identification in mass spectrometry-based proteomics. Nature Methods. 14, 513 (2017).
  17. Chi, H., et al. Comprehensive identification of peptides in tandem mass spectra using an efficient open search engine. Nature Biotechnology. 36, 1059 (2018).
  18. Demichev, V., Messner, C. B., Vernardis, S. I., Lilley, K. S., Ralser, M. DIA-NN neural networks and interference correction enable deep proteome coverage in high throughput. Nature Methods. 17, 41 (2020).
  19. High, A. A., et al. Deep proteome profiling by isobaric labeling, extensive liquid chromatography, mass spectrometry, and software-assisted quantification. Journal of Visualized Experiments: JoVE. (129), e56474 (2017).
  20. Wang, Z., et al. High-throughput and deep-proteome profiling by 16-plex tandem mass tag labeling coupled with two-dimensional chromatography and mass spectrometry. Journal of Visualized Experiments: JoVE. (162), e61684 (2020).
  21. Meier, F., Geyer, P. E., Winter, S. V., Cox, J., Mann, M. BoxCar acquisition method enables single-shot proteomics at a depth of 10,000 proteins in 100 minutes. Nature Methods. 15, 440 (2018).
  22. Sinitcyn, P., Rudolph, J. D., Cox, J. Computational methods for understanding mass spectrometry-based shotgun proteomics data. Annual Review of Biomedical Data Science. 1, 207-234 (2018).
  23. Ideker, T., Galitski, T., Hood, L. A new approach to decoding life: Systems biology. Annual Review of Genomics and Human Genetics. 2, 343-372 (2001).
  24. Barabasi, A. L., Oltvai, Z. N. Network biology: understanding the cell’s functional organization. Nature Reviews Genetics. 5, 101-113 (2004).
  25. Tan, H., et al. Integrative proteomics and phosphoproteomics profiling reveals dynamic signaling networks and bioenergetics pathways underlying T cell activation. Immunity. 46, 488-503 (2017).
  26. Bai, B., et al. Deep multilayer brain proteomics identifies molecular networks in alzheimer’s disease progression. Neuron. 105, 975-991 (2020).
  27. Zeng, H., et al. Discrete roles and bifurcation of PTEN signaling and mTORC1-mediated anabolic metabolism underlie IL-7-driven B lymphopoiesis. Science Advances. 4, 5701 (2018).
  28. Seyfried, N. T., et al. A multi-network approach identifies protein-specific co-expression in asymptomatic and symptomatic Alzheimer’s disease. Cell Systems. 4, 60-72 (2017).
  29. Johnson, E. C. B., et al. Large-scale proteomic analysis of Alzheimer’s disease brain and cerebrospinal fluid reveals early changes in energy metabolism associated with microglia and astrocyte activation. Nature Medicine. 26, 769-780 (2020).
  30. Stewart, E., et al. Identification of therapeutic targets in rhabdomyosarcoma through integrated genomic, epigenomic, and proteomic analyses. Cancer Cell. 34, 411-426 (2018).
  31. Rudolph, J. D., Cox, J. A network module for the perseus software for computational proteomics facilitates proteome interaction graph analysis. Journal of Proteome Research. 18, 2052-2064 (2019).
  32. Zhang, B., et al. Proteogenomic characterization of human colon and rectal cancer. Nature. 513, 382 (2014).
  33. Petralia, F., et al. Integrated proteogenomic characterization across major histological types of pediatric brain cancer. Cell. 183, 1962 (2020).
  34. Dutkowski, J., et al. A gene ontology inferred from molecular networks. Nature Biotechnology. 31, 38 (2013).
  35. Yu, M. K., et al. Translation of genotype to phenotype by a hierarchy of cell subsystems. Cell Systems. 2, 77-88 (2016).
  36. Jansen, R., Greenbaum, D., Gerstein, M. Relating whole-genome expression data with protein-protein interactions. Genome Research. 12, 37-46 (2002).
  37. Huttlin, E. L., et al. Architecture of the human interactome defines protein communities and disease networks. Nature. 545, 505-509 (2017).
  38. Ron-Harel, N., et al. Mitochondrial biogenesis and proteome remodeling promote one-carbon metabolism for T cell activation. Cell Metabolism. 24, 104-117 (2016).
  39. Niu, M. M., et al. Extensive peptide fractionation and y(1) ion-based interference detection method for enabling accurate quantification by isobaric labeling and mass spectrometry. Analytical Chemistry. 89, 2956-2963 (2017).
  40. Chang, W. shiny: Web Application Framework for. Nature Protocols. 11, 2301-2319 (2021).
  41. . JUMPn Available from: https://github.com/VanderwallDavid/JUMPn_1.0.0 (2021)
  42. . Anaconda Available from: https://docs.anaconda.com/anaconda/install/ (2021)
  43. . miniconda Available from: https://docs.conda.io/en/latest/miniconda.html (2021)
  44. . RStudio Available from: https://www.rstudio.com/products/rstudio/download/ (2021)
  45. . Shiny Server Available from: https://shiny.rstudio.com/articles/shinyapps.html (2021)
  46. Tyanova, S., Temu, T., Cox, J. The MaxQuant computational platform for mass spectrometry-based shotgun proteomics. Nature Protocol. 11, 2301-2319 (2016).
  47. . R code Available from: https://github.com/VanderwallDavid/JUMPn_1.0.0/tree/main/JUMPn_preprocessing (2021)
  48. Florens, L., et al. Analyzing chromatin remodeling complexes using shotgun proteomics and normalized spectral abundance factors. Methods. 40, 303-311 (2006).
  49. Zhang, B., Horvath, S. A general framework for weighted gene co-expression network analysis. Statistical Applications in Genetics and Molecular Biology. 4, (2005).
  50. Voineagu, I., et al. Transcriptomic analysis of autistic brain reveals convergent molecular pathology. Nature. 474, 380 (2011).
  51. Langfelder, P., Zhang, B., Horvath, S. Defining clusters from a hierarchical cluster tree: the Dynamic Tree Cut package for R. Bioinformatics. 24, 719-720 (2008).
  52. Ravasz, E., Somera, A. L., Mongru, D. A., Oltvai, Z. N., Barabasi, A. L. Hierarchical organization of modularity in metabolic networks. Science. 297, 1551-1555 (2002).
  53. Kuleshov, M. V., et al. Enrichr: a comprehensive gene set enrichment analysis web server 2016 update. Nucleic Acids Research. 44, 90-97 (2016).
  54. Liberzon, A., et al. Molecular signatures database (MSigDB) 3.0. Bioinformatics. 27, 1739-1740 (2011).
  55. . FlyEn rich r Available from: https://maayanlab.cloud/FlyEnrichr/#stats (2021)
  56. . JUMPn GitHub Available from: https://github.com/VanderwallDavid/JUMPn_1.0.0/tree/main/resources/example_fly (2021)
  57. Langfelder, P., Horvath, S. Eigengene networks for studying the relationships between co-expression modules. BMC Systems Biology. 1, 54 (2007).
  58. Benjamini, Y., Hochberg, Y. Controlling the false discovery rate – a practical and powerful approach to multiple testing. Journal of the Royal Statistical Society: Series B. 57, 289-300 (1995).
  59. Szklarczyk, D., et al. STRING v10: protein-protein interaction networks, integrated over the tree of life. Nucleic Acids Research. 43, 447-452 (2015).
  60. Szklarczyk, D., et al. STRING v11: protein-protein association networks with increased coverage, supporting functional discovery in genome-wide experimental datasets. Nucleic Acids Research. 47, 607-613 (2019).
  61. Huttlin, E. L., et al. The BioPlex network: A systematic exploration of the human interactome. Cell. 162, 425-440 (2015).
  62. Huttlin, E. L., et al. Dual proteome-scale networks reveal cell-specific remodeling of the human interactome. Cell. 184, 3022-3040 (2021).
  63. Li, T., et al. A scored human protein-protein interaction network to catalyze genomic interpretation. Nature Methods. 14, 61-64 (2017).
  64. Wang, H., et al. Deep multiomics profiling of brain tumors identifies signaling networks downstream of cancer driver genes. Nature Communications. 10, 3718 (2019).
  65. Gerstein, M. B., et al. Architecture of the human regulatory network derived from ENCODE data. Nature. 489, 91-100 (2012).
  66. Yu, J., Peng, J., Chi, H. Systems immunology: Integrating multi-omics data to infer regulatory networks and hidden drivers of immunity. Current Opinion in Systems Biology. 15, 19-29 (2019).
  67. Califano, A., Alvarez, M. J. The recurrent architecture of tumour initiation, progression and drug sensitivity. Nature Reviews Cancer. 17, 116-130 (2017).
  68. Hein, M. Y., et al. A human interactome in three quantitative dimensions organized by stoichiometries and abundances. Cell. 163, 712-723 (2015).
  69. Liang, Z., Xu, M., Teng, M. K., Niu, L. W. Comparison of protein interaction networks reveals species conservation and divergence. BMC Bioinformatics. 7, 457 (2006).
  70. Shou, C., et al. Measuring the evolutionary rewiring of biological networks. PLOS Computational Biology. 7, 1001050 (2011).
  71. Zhou, Y., et al. Metascape provides a biologist-oriented resource for the analysis of systems-level datasets. Nature Communications. 10, 1523 (2019).
  72. Cline, M. S., et al. Integration of biological networks and gene expression data using Cytoscape. Nature Protocols. 2, 2366-2382 (2007).

Play Video

Cite This Article
Vanderwall, D., Suresh, P., Fu, Y., Cho, J., Shaw, T. I., Mishra, A., High, A. A., Peng, J., Li, Y. JUMPn: A Streamlined Application for Protein Co-Expression Clustering and Network Analysis in Proteomics. J. Vis. Exp. (176), e62796, doi:10.3791/62796 (2021).

View Video