Summary

JUMPn: оптимизированное приложение для кластеризации коэкспрессии белка и сетевого анализа в протеомике

Published: October 19, 2021
doi:

Summary

Мы представляем инструмент системной биологии JUMPn для выполнения и визуализации сетевого анализа количественных данных протеомики с подробным протоколом, включающим предварительную обработку данных, кластеризацию коэкспрессии, обогащение путей и сетевой анализ белково-белкового взаимодействия.

Abstract

С недавними достижениями в технологиях протеомики на основе масс-спектрометрии глубокое профилирование сотен протеомов становится все более осуществимым. Однако получение биологической информации из таких ценных наборов данных является сложной задачей. Здесь мы представляем программное обеспечение JUMPn на основе системной биологии и связанный с ним протокол для организации протеома в кластеры экспрессии белка в образцах и сетях белково-белкового взаимодействия (PPI), соединенных модулями (например, белковыми комплексами). Используя платформу R/Shiny, программное обеспечение JUMPn упрощает анализ кластеризации коэкспрессии, обогащения путей и обнаружения модуля PPI с интегрированной визуализацией данных и удобным интерфейсом. Основные этапы протокола включают установку программного обеспечения JUMPn, определение дифференциально экспрессированных белков или (дис)регулируемого протеома, определение значимых кластеров коэкспрессии и модулей PPI, а также визуализацию результатов. Хотя протокол демонстрируется с использованием профиля протеома на основе изобарической маркировки, JUMPn обычно применим к широкому спектру количественных наборов данных (например, протеомика без меток). Таким образом, программное обеспечение и протокол JUMPn обеспечивают мощный инструмент для облегчения биологической интерпретации в количественной протеомике.

Introduction

Протоомика дробовика на основе масс-спектрометрии стала ключевым подходом к анализу разнообразия протеомов сложных образцов1. С последними достижениями в области масс-спектрометрических приборов 2,3, хроматографии 4,5, обнаружения подвижности ионов6, методов сбора (независимый от данных7 и зависящий от данных сбор8), подходов к количественной оценке (метод многоплексной маркировки изобарических пептидов, например, TMT 9,10 и количественной оценки без маркировки11,12) и стратегий анализа данных/ Разработка программного обеспечения 13,14,15,16,17,18, количественная оценка всего протеома (например, более 10 000 белков) теперь является рутинной 19,20,21. Тем не менее, как получить механистическое понимание из таких глубоких количественных наборов данных, все еще сложно22. Первоначальные попытки исследования этих наборов данных основывались преимущественно на аннотации отдельных элементов данных, рассматривая каждый компонент (белок) независимо. Однако биологические системы и их поведение не могут быть объяснены исключительно путем изучения отдельных компонентов23. Поэтому системный подход, который помещает количественные биомолекулы в контекст сетей взаимодействия, имеет важное значение для понимания сложных систем и связанных с ними процессов, таких как эмбриогенез, иммунный ответ и патогенез заболеваний человека24.

Сетевая системная биология стала мощной парадигмой для анализа крупномасштабных количественных данных протеомики 25,26,27,28,29,30,31,32,33. Концептуально сложные системы, такие как клетки млекопитающих, могут быть смоделированы как иерархическая сеть34,35, в которой вся система представлена в уровнях: сначала рядом крупных компонентов, каждый из которых затем итеративно моделируется более мелкими подсистемами. Технически структура динамики протеомов может быть представлена взаимосвязанными сетями коэкспрессированных белковых кластеров (поскольку коэкспрессированные гены/белки часто имеют сходные биологические функции или механизмы регуляции36) и физически взаимодействующими модулямиPPI 37. В качестве недавнего примера25 мы сгенерировали временные профили всего протеома и фосфопротеома во время активации Т-клеток и использовали интегративные сети коэкспрессии с ИПП для идентификации функциональных модулей, которые опосредуют выход Т-клеток из покоя. Было выделено и экспериментально проверено несколько модулей, связанных с биоэнергетикой (например, миторибосомы и комплексные модулиIV 25 и одноуглеродный модуль38). В другом примере26 мы еще больше расширили наш подход к изучению патогенеза болезни Альцгеймера и успешно определили приоритеты прогрессирования заболевания, связанных с белковыми модулями и молекулами. Важно отметить, что многие из наших непредвзятых открытий были подтверждены независимыми когортами пациентов26,29 и / или моделями мышей с заболеваниями26. Эти примеры проиллюстрировали силу подхода системной биологии для препарирования молекулярных механизмов с помощью количественной протеомики и других омических интеграций.

Здесь мы представляем JUMPn, оптимизированное программное обеспечение, которое исследует количественные данные протеомики с использованием сетевых системных подходов к биологии. JUMPn служит последующим компонентом установленного пакета программного обеспечения протеомики JUMP 13,14,39 и направлен на заполнение пробела от отдельных количественных оценок белка до биологически значимых путей и белковых модулей с использованием подхода системной биологии. Принимая матрицу количественной оценки дифференциально экспрессированных (или наиболее изменчивых) белков в качестве входных данных, JUMPn стремится организовать протеом в многоуровневую иерархию белковых кластеров, совместно экспрессируемых в образцах и плотно связанных модулях PPI (например, белковых комплексах), которые дополнительно аннотируются в общедоступных базах данных путей путем анализа чрезмерного представления (или обогащения) (рисунок 1). JUMPn разработан с использованием платформы R/Shiny40 для удобного интерфейса и объединяет три основных функциональных модуля: кластерный анализ коэкспрессии, анализ обогащения путей и сетевой анализ PPI (рисунок 1). После каждого анализа результаты автоматически визуализируются и настраиваются с помощью функций виджетов R/shiny и легко загружаются в виде таблиц публикации в формате Microsoft Excel. В следующем протоколе мы используем количественные данные всего протеома в качестве примера и описываем основные этапы использования JUMPn, включая установку программного обеспечения JUMPn, определение дифференциально экспрессированных белков или (дис)регулируемого протеома, анализ сети коэкспрессии и анализ модуля PPI, визуализацию и интерпретацию результатов, а также устранение неполадок. Программное обеспечение JUMPn находится в свободном доступе на GitHub41.

Protocol

ПРИМЕЧАНИЕ: В этом протоколе использование JUMPn иллюстрируется использованием опубликованного набора данных о профилировании всего протеома во время дифференцировки В-клеток, количественно определяемого изобарическим реагентомметки TMT 27. 1. Настройка прогр?…

Representative Results

Мы использовали наши опубликованные наборы данных глубокой протеомики 25,26,27,30 (рисунки 5 и 6), а также моделирование данных 57 (таблица 1) для оптимизации и оценки пр?…

Discussion

Здесь мы представили наше программное обеспечение JUMPn и его протокол, которые были применены в нескольких проектах для препарирования молекулярных механизмов с использованием глубоких количественных данных протеомики 25,26,27,30,64<…

Disclosures

The authors have nothing to disclose.

Acknowledgements

Финансовая поддержка была предоставлена Национальными институтами здравоохранения (NIH) (R01AG047928, R01AG053987, RF1AG064909, RF1AG068581 и U54NS110435) и ALSAC (Американские ливанские сирийские ассоциированные благотворительные организации). Анализ РС был проведен в Центре протеомики и метаболомики детской исследовательской больницы Святого Иуды, который был частично поддержан грантом поддержки Онкологического центра NIH (P30CA021765). Содержание является исключительной ответственностью авторов и не обязательно отражает официальную точку зрения Национальных институтов здравоохранения.

Materials

MacBook Pro with a 2.3 GHz Quad-Core Processor running OS 10.15.7. Apple Inc. MacBook Pro 13'' Hardware used for software development and testing
Anoconda Anaconda, Inc. version 4.9.2 https://docs.anaconda.com/anaconda/install/
miniconda Anaconda, Inc. version 4.9.2 https://docs.conda.io/en/latest/miniconda.html
RStudio RStudio Public-benefit corporation version 4.0.3 https://www.rstudio.com/products/rstudio/download/
Shiny Server RStudio Public-benefit corporation https://shiny.rstudio.com/articles/shinyapps.html

References

  1. Aebersold, R., Mann, M. Mass-spectrometric exploration of proteome structure and function. Nature. 537, 347-355 (2016).
  2. Senko, M. W., et al. Novel parallelized quadrupole/linear ion trap/orbitrap tribrid mass spectrometer improving proteome coverage and peptide identification rates. Analytical Chemistry. 85, 11710-11714 (2013).
  3. Eliuk, S., Makarov, A. Evolution of orbitrap mass spectrometry instrumentation. Annual Review of Analytical Chemistry. 8, 61-80 (2015).
  4. Wang, H., et al. Systematic optimization of long gradient chromatography mass spectrometry for deep analysis of brain proteome. Journal of Proteome Research. 14, 829-838 (2015).
  5. Blue, L. E. Recent advances in capillary ultrahigh pressure liquid chromatography. Journal of Chromatography A. 1523, 17-39 (2017).
  6. Meier, F., et al. Online parallel accumulation-serial fragmentation (PASEF) with a novel trapped ion mobility mass spectrometer. Molecular & Cellular Proteomics. 17, 2534-2545 (2018).
  7. Ludwig, C., et al. Data-independent acquisition-based SWATH-MS for quantitative proteomics: a tutorial. Molecular Systems Biology. 14 (8), 8126 (2018).
  8. Zhang, Y. Y., Fonslow, B. R., Shan, B., Baek, M. C., Yates, J. R. Protein analysis by shotgun/bottom-up proteomics. Chemical Reviews. 113, 2343-2394 (2013).
  9. Wang, Z., et al. 27-Plex tandem mass tag mass spectrometry for profiling brain proteome in Alzheimer’s disease. Analytical Chemistry. 92, 7162-7170 (2020).
  10. Li, J. M., et al. TMTpro reagents: a set of isobaric labeling mass tags enables simultaneous proteome-wide measurements across 16 samples. Nature Methods. 17 (4), 399-404 (2020).
  11. Collins, B. C., et al. Multi-laboratory assessment of reproducibility, qualitative and quantitative performance of SWATH-mass spectrometry. Nature Communications. 8 (1), 291 (2017).
  12. Navarro, P., et al. A multicenter study benchmarks software tools for label-free proteome quantification. Nature Biotechnology. 34, 1130 (2016).
  13. Wang, X. S., et al. A tag-based database search tool for peptide identification with high sensitivity and accuracy. Molecular & Cellular Proteomics. 13, 3663-3673 (2014).
  14. Li, Y. X., et al. JUMPg: An integrative proteogenomics pipeline identifying unannotated proteins in human brain and cancer cells. Journal of Proteome Research. 15, 2309-2320 (2016).
  15. Cox, J., Mann, M. MaxQuant enables high peptide identification rates, individualized p.p.b.-range mass accuracies and proteome-wide protein quantification. Nature Biotechnology. 26, 1367-1372 (2008).
  16. Kong, A. T., Leprevost, F. V., Avtonomov, D. M., Mellacheruvu, D., Nesvizhskii, A. I. MSFragger: ultrafast and comprehensive peptide identification in mass spectrometry-based proteomics. Nature Methods. 14, 513 (2017).
  17. Chi, H., et al. Comprehensive identification of peptides in tandem mass spectra using an efficient open search engine. Nature Biotechnology. 36, 1059 (2018).
  18. Demichev, V., Messner, C. B., Vernardis, S. I., Lilley, K. S., Ralser, M. DIA-NN neural networks and interference correction enable deep proteome coverage in high throughput. Nature Methods. 17, 41 (2020).
  19. High, A. A., et al. Deep proteome profiling by isobaric labeling, extensive liquid chromatography, mass spectrometry, and software-assisted quantification. Journal of Visualized Experiments: JoVE. (129), e56474 (2017).
  20. Wang, Z., et al. High-throughput and deep-proteome profiling by 16-plex tandem mass tag labeling coupled with two-dimensional chromatography and mass spectrometry. Journal of Visualized Experiments: JoVE. (162), e61684 (2020).
  21. Meier, F., Geyer, P. E., Winter, S. V., Cox, J., Mann, M. BoxCar acquisition method enables single-shot proteomics at a depth of 10,000 proteins in 100 minutes. Nature Methods. 15, 440 (2018).
  22. Sinitcyn, P., Rudolph, J. D., Cox, J. Computational methods for understanding mass spectrometry-based shotgun proteomics data. Annual Review of Biomedical Data Science. 1, 207-234 (2018).
  23. Ideker, T., Galitski, T., Hood, L. A new approach to decoding life: Systems biology. Annual Review of Genomics and Human Genetics. 2, 343-372 (2001).
  24. Barabasi, A. L., Oltvai, Z. N. Network biology: understanding the cell’s functional organization. Nature Reviews Genetics. 5, 101-113 (2004).
  25. Tan, H., et al. Integrative proteomics and phosphoproteomics profiling reveals dynamic signaling networks and bioenergetics pathways underlying T cell activation. Immunity. 46, 488-503 (2017).
  26. Bai, B., et al. Deep multilayer brain proteomics identifies molecular networks in alzheimer’s disease progression. Neuron. 105, 975-991 (2020).
  27. Zeng, H., et al. Discrete roles and bifurcation of PTEN signaling and mTORC1-mediated anabolic metabolism underlie IL-7-driven B lymphopoiesis. Science Advances. 4, 5701 (2018).
  28. Seyfried, N. T., et al. A multi-network approach identifies protein-specific co-expression in asymptomatic and symptomatic Alzheimer’s disease. Cell Systems. 4, 60-72 (2017).
  29. Johnson, E. C. B., et al. Large-scale proteomic analysis of Alzheimer’s disease brain and cerebrospinal fluid reveals early changes in energy metabolism associated with microglia and astrocyte activation. Nature Medicine. 26, 769-780 (2020).
  30. Stewart, E., et al. Identification of therapeutic targets in rhabdomyosarcoma through integrated genomic, epigenomic, and proteomic analyses. Cancer Cell. 34, 411-426 (2018).
  31. Rudolph, J. D., Cox, J. A network module for the perseus software for computational proteomics facilitates proteome interaction graph analysis. Journal of Proteome Research. 18, 2052-2064 (2019).
  32. Zhang, B., et al. Proteogenomic characterization of human colon and rectal cancer. Nature. 513, 382 (2014).
  33. Petralia, F., et al. Integrated proteogenomic characterization across major histological types of pediatric brain cancer. Cell. 183, 1962 (2020).
  34. Dutkowski, J., et al. A gene ontology inferred from molecular networks. Nature Biotechnology. 31, 38 (2013).
  35. Yu, M. K., et al. Translation of genotype to phenotype by a hierarchy of cell subsystems. Cell Systems. 2, 77-88 (2016).
  36. Jansen, R., Greenbaum, D., Gerstein, M. Relating whole-genome expression data with protein-protein interactions. Genome Research. 12, 37-46 (2002).
  37. Huttlin, E. L., et al. Architecture of the human interactome defines protein communities and disease networks. Nature. 545, 505-509 (2017).
  38. Ron-Harel, N., et al. Mitochondrial biogenesis and proteome remodeling promote one-carbon metabolism for T cell activation. Cell Metabolism. 24, 104-117 (2016).
  39. Niu, M. M., et al. Extensive peptide fractionation and y(1) ion-based interference detection method for enabling accurate quantification by isobaric labeling and mass spectrometry. Analytical Chemistry. 89, 2956-2963 (2017).
  40. Chang, W. shiny: Web Application Framework for. Nature Protocols. 11, 2301-2319 (2021).
  41. . JUMPn Available from: https://github.com/VanderwallDavid/JUMPn_1.0.0 (2021)
  42. . Anaconda Available from: https://docs.anaconda.com/anaconda/install/ (2021)
  43. . miniconda Available from: https://docs.conda.io/en/latest/miniconda.html (2021)
  44. . RStudio Available from: https://www.rstudio.com/products/rstudio/download/ (2021)
  45. . Shiny Server Available from: https://shiny.rstudio.com/articles/shinyapps.html (2021)
  46. Tyanova, S., Temu, T., Cox, J. The MaxQuant computational platform for mass spectrometry-based shotgun proteomics. Nature Protocol. 11, 2301-2319 (2016).
  47. . R code Available from: https://github.com/VanderwallDavid/JUMPn_1.0.0/tree/main/JUMPn_preprocessing (2021)
  48. Florens, L., et al. Analyzing chromatin remodeling complexes using shotgun proteomics and normalized spectral abundance factors. Methods. 40, 303-311 (2006).
  49. Zhang, B., Horvath, S. A general framework for weighted gene co-expression network analysis. Statistical Applications in Genetics and Molecular Biology. 4, (2005).
  50. Voineagu, I., et al. Transcriptomic analysis of autistic brain reveals convergent molecular pathology. Nature. 474, 380 (2011).
  51. Langfelder, P., Zhang, B., Horvath, S. Defining clusters from a hierarchical cluster tree: the Dynamic Tree Cut package for R. Bioinformatics. 24, 719-720 (2008).
  52. Ravasz, E., Somera, A. L., Mongru, D. A., Oltvai, Z. N., Barabasi, A. L. Hierarchical organization of modularity in metabolic networks. Science. 297, 1551-1555 (2002).
  53. Kuleshov, M. V., et al. Enrichr: a comprehensive gene set enrichment analysis web server 2016 update. Nucleic Acids Research. 44, 90-97 (2016).
  54. Liberzon, A., et al. Molecular signatures database (MSigDB) 3.0. Bioinformatics. 27, 1739-1740 (2011).
  55. . FlyEn rich r Available from: https://maayanlab.cloud/FlyEnrichr/#stats (2021)
  56. . JUMPn GitHub Available from: https://github.com/VanderwallDavid/JUMPn_1.0.0/tree/main/resources/example_fly (2021)
  57. Langfelder, P., Horvath, S. Eigengene networks for studying the relationships between co-expression modules. BMC Systems Biology. 1, 54 (2007).
  58. Benjamini, Y., Hochberg, Y. Controlling the false discovery rate – a practical and powerful approach to multiple testing. Journal of the Royal Statistical Society: Series B. 57, 289-300 (1995).
  59. Szklarczyk, D., et al. STRING v10: protein-protein interaction networks, integrated over the tree of life. Nucleic Acids Research. 43, 447-452 (2015).
  60. Szklarczyk, D., et al. STRING v11: protein-protein association networks with increased coverage, supporting functional discovery in genome-wide experimental datasets. Nucleic Acids Research. 47, 607-613 (2019).
  61. Huttlin, E. L., et al. The BioPlex network: A systematic exploration of the human interactome. Cell. 162, 425-440 (2015).
  62. Huttlin, E. L., et al. Dual proteome-scale networks reveal cell-specific remodeling of the human interactome. Cell. 184, 3022-3040 (2021).
  63. Li, T., et al. A scored human protein-protein interaction network to catalyze genomic interpretation. Nature Methods. 14, 61-64 (2017).
  64. Wang, H., et al. Deep multiomics profiling of brain tumors identifies signaling networks downstream of cancer driver genes. Nature Communications. 10, 3718 (2019).
  65. Gerstein, M. B., et al. Architecture of the human regulatory network derived from ENCODE data. Nature. 489, 91-100 (2012).
  66. Yu, J., Peng, J., Chi, H. Systems immunology: Integrating multi-omics data to infer regulatory networks and hidden drivers of immunity. Current Opinion in Systems Biology. 15, 19-29 (2019).
  67. Califano, A., Alvarez, M. J. The recurrent architecture of tumour initiation, progression and drug sensitivity. Nature Reviews Cancer. 17, 116-130 (2017).
  68. Hein, M. Y., et al. A human interactome in three quantitative dimensions organized by stoichiometries and abundances. Cell. 163, 712-723 (2015).
  69. Liang, Z., Xu, M., Teng, M. K., Niu, L. W. Comparison of protein interaction networks reveals species conservation and divergence. BMC Bioinformatics. 7, 457 (2006).
  70. Shou, C., et al. Measuring the evolutionary rewiring of biological networks. PLOS Computational Biology. 7, 1001050 (2011).
  71. Zhou, Y., et al. Metascape provides a biologist-oriented resource for the analysis of systems-level datasets. Nature Communications. 10, 1523 (2019).
  72. Cline, M. S., et al. Integration of biological networks and gene expression data using Cytoscape. Nature Protocols. 2, 2366-2382 (2007).

Play Video

Cite This Article
Vanderwall, D., Suresh, P., Fu, Y., Cho, J., Shaw, T. I., Mishra, A., High, A. A., Peng, J., Li, Y. JUMPn: A Streamlined Application for Protein Co-Expression Clustering and Network Analysis in Proteomics. J. Vis. Exp. (176), e62796, doi:10.3791/62796 (2021).

View Video