Summary

Метод графа знаний для выяснения роли органеллярных путей в заболевании с помощью биомедицинских отчетов

Published: October 13, 2023
doi:

Summary

Представлен вычислительный протокол CaseOLAP LIFT и сценарий использования для исследования митохондриальных белков и их ассоциаций с сердечно-сосудистыми заболеваниями, как описано в биомедицинских отчетах. Этот протокол может быть легко адаптирован для изучения выбранных пользователем клеточных компонентов и заболеваний.

Abstract

Быстро растущее и огромное количество биомедицинских отчетов, каждый из которых содержит множество сущностей и богатую информацию, представляет собой богатый ресурс для биомедицинских текстовых приложений. Эти инструменты позволяют исследователям интегрировать, концептуализировать и транслировать эти открытия, чтобы получить новые знания о патологии заболеваний и терапии. В этом протоколе мы представляем CaseOLAP LIFT, новый вычислительный конвейер для исследования клеточных компонентов и их ассоциаций с заболеваниями путем извлечения отобранной пользователем информации из текстовых наборов данных (например, биомедицинской литературы). Программное обеспечение идентифицирует субклеточные белки и их функциональных партнеров в документах, относящихся к заболеванию. Дополнительные документы, относящиеся к заболеванию, идентифицируются с помощью метода вменения этикеток, разработанного программным обеспечением. Для контекстуализации результирующих ассоциаций между белками и заболеваниями и интеграции информации из нескольких релевантных биомедицинских ресурсов автоматически создается граф знаний для дальнейшего анализа. Мы представляем один из вариантов использования с корпусом из ~34 миллионов текстовых документов, загруженных в Интернет, чтобы предоставить пример выяснения роли митохондриальных белков в различных фенотипах сердечно-сосудистых заболеваний с помощью этого метода. Кроме того, модель глубокого обучения была применена к полученному графу знаний для прогнозирования ранее неизвестных взаимосвязей между белками и заболеваниями, в результате чего было получено 1583 ассоциации с прогнозируемыми вероятностями >0,90 и с областью под кривой рабочих характеристик приемника (AUROC), равной 0,91 на тестовом наборе. Это программное обеспечение отличается настраиваемым и автоматизированным рабочим процессом с широким спектром необработанных данных, доступных для анализа; Таким образом, с помощью этого метода можно с повышенной надежностью идентифицировать ассоциации белков и заболеваний в пределах текстового корпуса.

Introduction

Изучение белков, связанных с заболеванием, расширяет научные знания о патогенезе и помогает определить потенциальные терапевтические средства. Несколько больших корпусов текстов биомедицинских публикаций, таких как 34 миллиона статей PubMed, содержащих названия публикаций, аннотации и полнотекстовые документы, сообщают о новых открытиях, связывающих белки с болезнями. Тем не менее, эти результаты разрознены по различным источникам и должны быть интегрированы для получения новых биомедицинских идей. Существует несколько биомедицинских ресурсов для интеграции ассоциаций белка и заболевания 1,2,3,4,5,6,7. Однако эти курируемые ресурсы часто являются неполными и могут не охватывать последние результаты исследований. Подходы, основанные на интеллектуальном анализе текстов, необходимы для извлечения и синтеза ассоциаций белков и заболеваний в больших текстовых корпусах, что привело бы к более полному пониманию этих биомедицинских концепций в научной литературе.

Существует множество биомедицинских подходов к анализу текстов для выявления взаимосвязей между белками и заболеваниями 8,9,10,11,12,13,14, и другие частично способствуют определению этих отношений, идентифицируя белки, болезни или другие биомедицинские объекты, упомянутые в тексте 13,15,16,17. 18,19. Тем не менее, многие из этих инструментов не имеют доступа к самой современной литературе, за исключением нескольких, которые периодически обновляются 8,11,13,15. Аналогичным образом, многие инструменты также имеют ограниченную область исследования, поскольку они ограничены широкими предопределенными заболеваниями или белками 9,13. Существует несколько подходов, которые также могут привести к выявлению ложных срабатываний в тексте; Другие решают эти проблемы с помощью интерпретируемого и глобального черного списка названий белков9,11 или менее интерпретируемых методов распознавания сущностей имен15,20. В то время как большинство ресурсов предоставляют только предварительно вычисленные результаты, некоторые инструменты предлагают интерактивность через веб-приложения или доступный программный код 8,9,11.

Чтобы устранить вышеуказанные ограничения, мы представляем следующий протокол, CaseOLAP с вменением меток и полным текстом (CaseOLAP LIFT), в качестве гибкой и настраиваемой платформы для исследования ассоциаций между белками (например, белками, связанными с клеточным компонентом) и заболеваниями из текстовых наборов данных. Эта платформа включает в себя автоматизированное курирование специфических для терминов белков генной онтологии (GO) (например, специфических для органелл белков), вменение отсутствующих меток тем документов, анализ полнотекстовых документов, а также инструменты анализа и прогностические инструменты (рис. 1, рис. 2 и табл. 1). CaseOLAP LIFT курирует специфические для органелл белки, используя предоставленные пользователем термины GO (например, компартмент органеллы) и функционально связанные белки с помощью STRING21, Reactome 22 и GRNdb23. Документы, посвященные изучению заболеваний, идентифицируются по меткам заголовков медицинских предметов (MeSH), аннотированным PubMed. Для ~15,1% немаркированных документов метки вменяются, если в заголовке встречается хотя бы один синоним термина MeSH или не менее двух в аннотации. Это позволяет учитывать ранее не категоризированные публикации при анализе интеллектуального анализа текста. CaseOLAP LIFT также позволяет пользователю выбирать разделы публикаций (например, только названия и аннотации, полный текст или полный текст без методов) в течение определенного периода времени (например, 2012-2022 гг.). Кроме того, программное обеспечение в полуавтоматическом режиме создает черный список названий белков для конкретных случаев использования, что существенно снижает количество ложноположительных ассоциаций между белками и заболеваниями, присутствующих в других подходах. В целом, эти улучшения обеспечивают большую настраиваемость и автоматизацию, увеличивают количество данных, доступных для анализа, и позволяют получать более достоверные связи между белками и заболеваниями из больших корпусов биомедицинских текстов.

CaseOLAP LIFT включает в себя биомедицинские знания и представляет взаимосвязь различных биомедицинских концепций с помощью графа знаний, который используется для прогнозирования скрытых взаимосвязей в графе. В последнее время методы вычислений на основе графов применяются в биологических условиях, включая интеграцию и организацию биомедицинских концепций 24,25, перепрофилирование и разработку лекарств 26,27,28, а также для принятия клинических решений на основе данных протеомики 29.

Чтобы продемонстрировать полезность CaseOLAP LIFT при построении графа знаний, мы выделим сценарий использования для исследования ассоциаций между митохондриальными белками и восемью категориями сердечно-сосудистых заболеваний. Данные из ~362 000 документов, относящихся к заболеваниям, были проанализированы, чтобы определить основные митохондриальные белки и пути, связанные с заболеваниями. Затем эти белки, их функционально связанные белки и результаты интеллектуального анализа текста были включены в граф знаний. Этот график был использован в анализе прогнозирования связей на основе глубокого обучения для прогнозирования ассоциаций между белками и заболеваниями, о которых до сих пор не сообщалось в биомедицинских публикациях.

Во вводном разделе описывается справочная информация и цели нашего протокола. В следующем разделе описываются этапы вычислительного протокола. Далее описываются репрезентативные результаты этого протокола. Наконец, мы кратко обсудим варианты использования вычислительного протокола, преимущества, недостатки и будущие приложения.

Protocol

1. Запуск docker-контейнера Скачайте docker-контейнер CaseOLAP LIFT, используя окно терминала и введя docker pull caseolap/caseolap_lift:latest. Создайте каталог, в котором будут храниться все данные программы и выходные данные (например, mkdir caseolap_lift_shared_folder). Запустите контейнер docker с помощью команды docker run –name caseolap_lift -it -v PATH_TO_FOLDER:/caseolap_lift_shared_folder caseolap/caseolap_lift:latest bash с PATH_TO_FOLDER в качестве полного пути к файлу для папки (например, /Users/caseolap/caseolap_lift_shared_folder). Последующие команды из раздела 2 будут выполняться в этом окне терминала. Запустите эластичный поиск в контейнере. В новом окне терминала введите docker exec -it –user elastic caseolap_lift bash /workspace/start_elastic_search.sh.ПРИМЕЧАНИЕ: В этом протоколе CaseOLAP LIFT запускается в интерактивном режиме, при этом каждый шаг выполняется последовательно. Этот анализ также можно выполнить от начала до конца, передав его в виде файла parameters.txt. Параметры.txt используемые в этом исследовании, находятся в / workspace/caseolap_lift/parameters.txt. Чтобы получить дополнительные сведения о каждом шаге, выполните команду с флагом – -help или посетите документацию в репозитории GitHub (https://github.com/CaseOLAP/caseolap_lift). 2. Подготовка болезней и белков Перейдите в папку caseolap_lift с помощью cd /workspace/caseolap_lift Убедитесь, что ссылки для скачивания в файле config/knowledge_base_links.json актуальны и точны для последней версии каждого ресурса базы знаний. По умолчанию файлы загружаются только один раз; Чтобы обновить эти файлы и повторно загрузить, выполните шаг предварительной обработки с параметром -r на шаге 2.4. Определите термин GO и категории заболеваний, которые будут использоваться в этом исследовании. Найдите идентификаторы для всех терминов GO и идентификаторов MeSH на http://geneontology.org/ и https://meshb.nlm.nih.gov/ соответственно. Запустите модуль предварительной обработки, используя параметры командной строки. На этом этапе предварительной обработки собираются определенные заболевания, перечисляются белки для изучения и собираются синонимы белков для интеллектуального анализа текста. Укажите пользовательские изучаемые термины GO с помощью флага -c и номера деревьев MeSH заболеваний с помощью флага -d , а аббревиатуры укажите с помощью -a.Пример команды:python caseolap_lift.py предварительная обработка -a “CM ARR CHD VD IHD CCD VOO OTH” -d “C14.280.238,C14.280.434 C14.280.067,C23.550.073 C14.280.400 C14.280.484 C14.280.647 C14.280.123 C14.280.955 C14.280.195,C14.280.282,C14.280.383,C14.280.470,C14.280.945,C14.280.459,C14.280.720” -c “GO:0005739” –include-synonyms –include-ppi -k 1 -s 0.99 –include-pw -n 4 -r 0.5 –include-tfd Проверьте файлы категорий .txt, core_proteins.txt и proteins_of_interest.txt из предыдущего шага в выходной папке. Убедитесь, что все категории болезней в категориях.txt верны и что разумное количество белков идентифицировано в пределах core_proteins.txt и proteins_of_interest.txt. При необходимости повторите шаг 2.4 и измените параметры, включив большее или меньшее количество белков.ПРИМЕЧАНИЕ: Количество белков, включенных в исследование, определяется флагами –include-ppi, –include-pw и –include-tfd, чтобы включить белок-белковые взаимодействия, белки с общими реактомными путями и белки с зависимостью от транскрипционного фактора, соответственно. Их специфическая функциональность определяется дополнительными флагами, такими как -k, -s, -n и -r (см. документацию). 3. Интеллектуальный анализ текста Убедитесь, что файлы категорий .txt, core_proteins.txt и proteins_of_interest.txt из предыдущего шага находятся в выходной папке. Используйте эти файлы в качестве входных данных для интеллектуального анализа текста. При необходимости настройте конфигурации, относящиеся к синтаксическому анализу и индексации документа в папке config . Дополнительные сведения о настройке и устранении неполадок см. в предыдущей версии протокола CaseOLAP8. Запустите модуль интеллектуального анализа текста с помощью python caseolap_lift.py text_mining. Добавьте флаг – l , чтобы вставить темы некатегоризированных документов, и флаг -t , чтобы загрузить полный текст документов, связанных с заболеванием. Другие необязательные флаги задают диапазон дат публикаций для загрузки (-d) и предоставляют опции для скрининга названий белков (описано в шаге 3.3). Пример разобранного документа показан на рисунке 3.Пример команды: python caseolap_lift.py text_mining -d “2012-10-01,2022-10-01” -l -tПРИМЕЧАНИЕ: Большая часть времени вычислительного протокола тратится на шаг 3.2, который потенциально может занять более 24 часов. Время выполнения будет зависеть от размера загружаемого текстового корпуса, который также будет зависеть от диапазона дат и от того, включены ли функции подстановки меток и полнотекстовой обработки. (Рекомендуется) Скрининг названий белков. Названия белков, идентифицированные в публикациях, связанных с заболеванием, вносят свой вклад в ассоциацию белковых заболеваний, но склонны к ложноположительным результатам (т.е. омонимам с другими словами). Чтобы решить эту проблему, перечислите возможные омонимы в черном списке (config/remove_these_synonyms.txt), чтобы исключить их из последующих шагов.Поиск имен для проверки: В папке результатов найдите названия белков с наибольшей частотой в all_proteins или core_proteins (ranked_synonyms/ranked_synonyms_TOTAL.txt) и названия белков с наибольшими баллами в папках в ranked_proteins в зависимости от интересующих оценок. Если имен много, отдайте приоритет проверке имен с наибольшей оценкой. Проверьте имена: введите python caseolap_lift.py text_mining -c , а затем имя белка, чтобы отобразить до 10 публикаций, содержащих имена. Затем для каждого названия проверьте, является ли оно специфичным для белка. Пересчитайте баллы: Введите python caseolap_lift.py text_mining -s. Повторяйте шаги 3.1, 3.2 и 3.3 до тех пор, пока имена в шаге 3.1 не станут правильными. 4. Анализ результатов Убедитесь, что результаты интеллектуального анализа текста находятся в папке результатов (например, каталоги result/all_proteins и result/core_proteins и связанные с ними файлы), которая будет использоваться в качестве входных данных для шага анализа. В частности, оценка, указывающая на силу каждой ассоциации белка и заболевания, сообщается в результатах caseolap.csv, полученных в результате интеллектуального анализа текста. Укажите, какой набор результатов интеллектуального анализа текста следует использовать для анализа, указав либо –analyze_core_proteins , чтобы включить только белки, связанные с GO-термином, либо –analyze_all_proteins , чтобы включить все функционально связанные белки. Определите основные белки и пути для каждого заболевания. Значимыми ассоциациями белковых заболеваний считаются ассоциации с баллами, превышающими определенный порог. Z-критерий преобразует баллы CaseOLAP в пределах каждой категории заболеваний и считает белки с баллами выше определенного порога (обозначенного флагом -z ) как значимые.ПРИМЕЧАНИЕ: Биологические пути, значимые для каждого заболевания, идентифицируются автоматически с использованием значимых белков в качестве входных данных для анализа реактового пути. Все такие белки сообщаются в результирующем result_table.csv в папке analysis_results, а соответствующие цифры и результаты анализа путей автоматически генерируются в папке analysis_results.Пример команды: python caseolap_lift.py analyze_results -z 3.0 –analyze_core_proteins Просмотрите результаты анализа и при необходимости внесите коррективы. Количество белков и, следовательно, обогащенных реактовых путей, значимых для каждой категории заболеваний, зависит от порога z-оценки, используемого в анализе. Таблица z-оценки, сгенерированная на выходе/analysis_results/zscore_cutoff_table.csv, указывает количество белков, значимых для каждой категории заболеваний, чтобы помочь в выборе порога z-оценки как можно выше, при этом получая несколько белков, значимых для каждой категории заболеваний. 5. Предиктивный анализ Постройте граф знаний.Убедитесь, что необходимые файлы находятся в папке results , включая папку kg , созданную в результате предварительной обработки (шаг 2.4), и caseolap.csv из результатов интеллектуального анализа текста в папках all_proteins или core_proteins (шаг 3.2). Спроектируйте граф знаний. В зависимости от нижестоящей задачи включайте или исключайте компоненты полного графа знаний. Граф знаний состоит из оценок белковых заболеваний, полученных в результате интеллектуального анализа текста, и соединений с ресурсами базы знаний, используемыми на шаге 2.4 (рис. 4). Включите дерево заболеваний MeSH с флагом –include_mesh , белок-белковые взаимодействия из STRING с –include_ppi, общие пути реактома с –include_pw и зависимость транскрипционного фактора от GRNdb/GTEx с –include_tfd. Запустите модуль построения графа знаний. Укажите, какой набор результатов интеллектуального анализа текста следует использовать для анализа, указав –analyze_core_proteins для включения только белков, связанных с термином GO, или –analyze_all_proteins для включения всех функционально связанных белков. По умолчанию необработанные баллы CaseOLAP загружаются в виде весовых коэффициентов ребер между узлами белка и заболевания; Чтобы масштабировать веса ребер, укажите –use_z_score или неотрицательные z-оценки с помощью –scale_z_score.Пример команды: python caseolap_lift.py prepare_knowledge_graph –scale_z_score Прогнозирование новых ассоциаций белков и заболеваний.Убедитесь, что файлы графа знаний merged_edges.tsv и merged_nodes.tsv являются выходными данными предыдущего шага (шаг 5.1.3). Запустите скрипт прогнозирования графа знаний, чтобы предсказать связи между белками и заболеваниями, о которых до сих пор не сообщалось в научной литературе, введя python kg_analysis/run_kg_analysis.py. Это реализовано с помощью GraPE30 и использует DistMult31 для создания встраивания графов знаний, которые многослойный персептрон использует для прогнозирования ассоциаций белка и заболевания. В папке output/kg_analysis сохраняются прогнозы с прогнозируемой вероятностью >0,90 (прогнозы.csv) и метрики оценки модели (eval_results.csv).ПРИМЕЧАНИЕ: В данной работе выбранные параметры модели (например, метод встраивания, модель прогнозирования связи, гиперпараметры) были адаптированы для репрезентативного исследования. Этот код служит примером и отправной точкой для других анализов. Сведения о параметрах модели см. в документации GraPE (https://github.com/AnacletoLAB/grape).

Representative Results

В соответствии с этим протоколом были получены репрезентативные результаты для изучения ассоциаций между митохондриальными белками (Таблица 2) и восемью категориями сердечно-сосудистых заболеваний (Таблица 3). В этих категориях мы нашли 363 567 публикаций, опубликованных с 2012 года по октябрь 2022 года (362 878 категоризированных по метаданным MeSH, 6 923 классифицированных по вменению ярлыков). Все публикации имели названия, 276 524 – аннотации, 51 065 – полный текст. В целом, 584 из 1687 опрошенных митохондриальных белков были идентифицированы в публикациях, в то время как 3284 из 8026 функционально связанных белков были идентифицированы. В общей сложности было идентифицировано 14 уникальных белков со значимыми показателями по всем категориям заболеваний с пороговым значением z-оценки 3,0 (рис. 5). Анализ реактомного пути этих белков выявил 12 путей, значимых для всех заболеваний (рис. 6). Все белки, пути, заболевания и баллы были интегрированы в граф знаний (табл. 4). Этот граф знаний был использован для прогнозирования 12 688 новых ассоциаций белков и заболеваний и отфильтрован с оценкой вероятности 0,90, чтобы получить 1 583 прогноза с высокой степенью достоверности. На рисунке 7 показан пример двух ассоциаций белка и заболевания, проиллюстрированный в контексте других соответствующих биологических объектов, функционально связанных с белками. Показатели оценки модели представлены в таблице 5. Рисунок 1: Динамический вид рабочего процесса. На этом рисунке показаны четыре основных этапа этого рабочего процесса. Во-первых, соответствующие белки отбираются на основе терминов GO, предоставленных пользователем (например, клеточные компоненты), а категории заболеваний подготавливаются на основе предоставленных пользователем идентификаторов MeSH. Во-вторых, ассоциации между белками и заболеваниями вычисляются на этапе интеллектуального анализа текста. Публикации в определенном диапазоне дат загружаются и индексируются. Публикации, посвященные изучению болезней, идентифицируются (с помощью меток MeSH и, возможно, с помощью вмененных меток), а их полные тексты загружаются и индексируются. Названия белков запрашиваются в публикациях и используются для расчета баллов связи между белком и заболеванием. Затем, после интеллектуального анализа текста, эти оценки помогают определить основные ассоциации белков и путей. Наконец, строится граф знаний, охватывающий эти белки, болезни и их взаимосвязи в базе биомедицинских знаний. Новые ассоциации между белками и заболеваниями предсказываются на основе построенного графа знаний. В этих шагах используются самые последние доступные данные из биомедицинских баз знаний и PubMed. Пожалуйста, нажмите здесь, чтобы увидеть увеличенную версию этого рисунка. Рисунок 2: Техническая архитектура рабочего процесса. Технические детали этого рабочего процесса проиллюстрированы на этом рисунке. Пользователь предоставляет номера MeSH-деревьев категорий заболеваний и термин(ы) GO. Текстовые документы загружаются из PubMed, документы, относящиеся к заболеванию, идентифицируются на основе предоставленных меток MeSH, а документы без меток MeSH, указывающих на тему, получают метки вмененных категорий. Белки, ассоциированные с предоставленным термином (членами) GO, приобретаются. Этот белковый набор расширяется за счет включения белков, которые функционально связаны через белок-белковые взаимодействия, общие биологические пути и зависимость от транскрипционных факторов. Эти белки запрашиваются в документах, относящихся к заболеванию, и оцениваются CaseOLAP. Пожалуйста, нажмите здесь, чтобы увидеть увеличенную версию этого рисунка. Рисунок 3: Пример обработанного документа. Пример разобранного, индексированного текстового документа представлен здесь. По порядку в соответствующих полях указывается название индекса (_index, _type), идентификатор PubMed (_id, pmid), подразделы документа (название, аннотация, full_text, введение, методы, результаты, обсуждение) и другие метаданные (год, MeSH, местоположение, журнал). Только в целях отображения подразделы документа усекаются с помощью многоточия. Поле MeSH содержит темы документа, которые иногда могут быть предоставлены нашим шагом импутации метки. Пожалуйста, нажмите здесь, чтобы увидеть увеличенную версию этого рисунка. Рисунок 4: Схема графа знаний и биомедицинские ресурсы. На этом рисунке показана схема графа знаний. Каждый узел и ребро представляют собой узел или тип ребра соответственно. Границы между сердечно-сосудистыми заболеваниями (ССЗ) и белками взвешиваются по шкале CaseOLAP. Границы белок-белкового взаимодействия (ИПП) взвешиваются по доверительным оценкам STRING. Ребра зависимости транскрипционного фактора (TFD), полученные от GRNdb/GTEx, ребра дерева заболеваний, производные от MeSH, и ребра путей, полученные от реактома, являются невзвешенными. Пожалуйста, нажмите здесь, чтобы увидеть увеличенную версию этого рисунка. Рисунок 5: Основные ассоциации белковых заболеваний. На этом рисунке представлены митохондриальные белки, значимые для каждой категории заболеваний. Преобразование Z-критерия было применено к баллам CaseOLAP в каждой категории для идентификации значимых белков с использованием порогового значения 3,0. (Наверх) Количество митохондриальных белков, значимых для каждого заболевания: Эти графики показывают распределение z-оценок для белков в каждой категории заболеваний. Общее количество белков, значимых для каждой категории заболеваний, показано над каждым графиком скрипки. В общей сложности 14 уникальных белков были идентифицированы как значимые для всех заболеваний, а некоторые белки были значимыми для нескольких заболеваний. (Внизу) Белки, набравшие наибольшее количество баллов: Тепловая карта отображает 10 белков, получивших самые высокие средние z-баллы по всем заболеваниям. Пустые значения не представляют собой полученную оценку между белком и болезнью. Пожалуйста, нажмите здесь, чтобы увидеть увеличенную версию этого рисунка. Рисунок 6: Основные ассоциации между путями и заболеваниями. На этом рисунке показаны основные биологические пути, связанные с изучаемыми категориями заболеваний, определенные с помощью анализа реактомного пути. Все анализы путей были отфильтрованы с p < 0,05. Значения тепловой карты представляют собой среднюю z-оценку всех белков в пути. (Наверх) Пути сохранения среди всех заболеваний: В целом, было идентифицировано 14 белков, имеющих отношение ко всем категориям заболеваний, и было выявлено 12 консервативных путей среди всех категорий заболеваний. На основе иерархической структуры путей была построена дендрограмма, связывающая эти пути со сходными биологическими функциями. Высота древовидной диаграммы представляет собой относительную глубину в иерархии путей; Широкие биологические функции имеют более длинные конечности, а более специфические пути имеют более короткие конечности. (Внизу) Пути, отличающиеся от категории заболевания: Анализ путей был проведен с использованием белков, достигших значимого z-показателя при каждом заболевании. Три основных пути с наименьшими p-значениями, связанными с каждым заболеванием, показаны и обозначены звездочками. Эти пути могут входить в тройку лидеров при нескольких заболеваниях. Пожалуйста, нажмите здесь, чтобы увидеть увеличенную версию этого рисунка. Рисунок 7: Применение глубокого обучения для завершения графа знаний. Пример применения глубокого обучения к графу знаний по конкретному заболеванию представлен на этом рисунке. Скрытые взаимосвязи между белками и болезнями предсказываются, и они обозначены синим цветом. Отображаются вычисленные вероятности для обоих прогнозов со значениями в диапазоне от 0,0 до 1,0 и 1,0, указывающими на сильный прогноз. Включены несколько белков с известными взаимодействиями, представляющими белок-белковые взаимодействия, зависимость от транскрипционных факторов и общие биологические пути. Для визуализации показан подграф из нескольких узлов, имеющих отношение к выделенному примеру. Ключевые признаки: ИБС = ишемическая болезнь сердца; R-HSA-1430728 = метаболизм; O14949 = субъединица 8 комплекса цитохрома b-c1; P17568 = НАДН-дегидрогеназа (убихинон) 1 бета-субъединица 7; Q9NYF8 Bcl-2-ассоциированный транскрипционный фактор 1, оценка: 7,24 x 10−7; P49821 = НАДН-дегидрогеназа (убихинон) флавопротеин 1, митохондриальный, оценка: 1,06 x 10−5; P31930 = субъединица комплекса цитохрома b-c1 1, митохондриальная, оценка: 4,98 x 10−5; P99999 = цитохром С, балл: 0,399. Пожалуйста, нажмите здесь, чтобы увидеть увеличенную версию этого рисунка. Таблица 1: Этапы рабочего процесса и ограничения скорости. В этой таблице представлены приблизительные оценки времени вычислений для каждого этапа рабочего процесса. Параметры включения компонентов конвейера изменят общее время выполнения, необходимое для завершения анализа. Общая оценка времени зависит от доступных вычислительных ресурсов, включая технические характеристики оборудования и настройки программного обеспечения. По приблизительным подсчетам, протокол занял 36 часов активного времени работы на нашем вычислительном сервере с шестью ядрами, 32 Гб оперативной памяти и 2 Тб хранилища, но это может быть быстрее или медленнее на других устройствах. Пожалуйста, нажмите здесь, чтобы скачать эту таблицу. Таблица 2: Автоматическая сборка белков клеточного компонента. В этой таблице показано количество белков, ассоциированных с данным клеточным компонентом (т.е. термином GO), белков, функционально связанных с ними через белок-белковые взаимодействия (PPI), общие пути (PW) и зависимость от транскрипционного фактора (TFD). Общее количество белков — это количество белков из всех предыдущих категорий вместе взятых. Все функционально связанные белки были получены с использованием параметров CaseOLAP LIFT по умолчанию. Пожалуйста, нажмите здесь, чтобы скачать эту таблицу. Таблица 3: Статистика вменения меток MeSH. В этой таблице отображаются категории заболеваний, номера деревьев MeSH, используемые в качестве родительского термина для всех заболеваний, включенных в категорию, количество статей PubMed, найденных в каждой категории с 2012 по 2022 год, и количество дополнительных статей, включенных на этапе вменения меток. Пожалуйста, нажмите здесь, чтобы скачать эту таблицу. Таблица 4: Статистика построения графа знаний. В этой таблице описаны статистические данные по размеру построенного графа знаний, включая различные узлы и типы ребер. Баллы CaseOLAP отражают взаимосвязь между белком и категорией сердечно-сосудистых заболеваний (ССЗ). Пожалуйста, нажмите здесь, чтобы скачать эту таблицу. Таблица 5: Статистика прогнозирования и валидация графа знаний. В этой таблице представлены оценочные метрики для прогнозирования связи графа знаний для новых и скрытых ассоциаций белков и заболеваний. Ребра графа знаний были разделены на обучающие и тестовые наборы данных в соотношении 70/30, а графовая связность ребер была сохранена в обоих наборах данных. Точность указывает долю правильно классифицированных прогнозов, а сбалансированная точность корректирует дисбаланс классов. Специфичность указывает на долю правильно классифицированных негативных прогнозов. Точность указывает на долю правильных положительных прогнозов из всех положительных прогнозов, в то время как отзыв указывает на долю правильных положительных прогнозов из всех положительных ребер (т. е. ассоциаций белка с заболеванием, выявленных с помощью интеллектуального анализа текста). Оценка F1 — это среднее гармоническое значение точности и запоминаемости. Область под кривой рабочих характеристик приемника (AUROC) показывает, насколько хорошо модель различает положительные и отрицательные прогнозы, при этом 1,0 указывает на идеальный классификатор. Область под кривой точности-полноты (AUPRC) измеряет компромисс между точностью и полнотой при различных пороговых значениях вероятности, при этом более высокие значения указывают на лучшую производительность. Пожалуйста, нажмите здесь, чтобы скачать эту таблицу.

Discussion

CaseOLAP LIFT позволяет исследователям исследовать связи между функциональными белками (например, белками, связанными с клеточным компонентом, биологическим процессом или молекулярной функцией) и биологическими категориями (например, болезнями). Описанный протокол должен быть выполнен в указанной последовательности, при этом наиболее критическими шагами являются раздел протокола 2 и раздел протокола 3, так как от их результатов зависят разделы протокола 4 и 5 протокола. В качестве альтернативы разделу 1 протокола код CaseOLAP LIFT можно клонировать и получить к нему доступ из репозитория GitHub (https://github.com/CaseOLAP/caseolap_lift). Следует отметить, что, несмотря на тестирование в процессе разработки программного обеспечения, могут возникать ошибки. Если это так, неудачный шаг следует повторить. Если проблема не устранена, рекомендуется повторить раздел протокола 1, чтобы убедиться, что используется последняя версия контейнера Docker. Дополнительную помощь можно получить, создав проблему в репозитории GitHub для получения дополнительной поддержки.

Этот метод поддерживает генерацию гипотез, позволяя исследователям идентифицировать интересующие объекты и выявлять потенциальные связи между ними, которые могут быть недоступны в существующих биомедицинских ресурсах. Полученные в результате связи между белками и заболеваниями позволяют исследователям получить новое представление с помощью интерпретируемых метрик оценок: баллы популярности указывают на наиболее изученные белки по отношению к заболеванию, показатели различимости указывают на заболевания, наиболее уникальные для белка, а комбинированная оценка CaseOLAP представляет собой комбинацию этих двух показателей. Чтобы предотвратить ложноположительные идентификации (например, из-за омонимов), некоторые инструменты интеллектуального анализа текста используют черный список терминов, чтобы избежать 9,11. Аналогичным образом, CaseOLAP LIFT также использует черный список, но позволяет пользователю адаптировать черный список к своему сценарию использования. Например, при изучении ишемической болезни сердца (ИБС) «ИБС» не следует считать названием белка «каспаза-активируемая дезоксирибонуклеаза». Тем не менее, при изучении других тем, «ИБС» обычно может относиться к белку.

CaseOLAP LIFT адаптируется к объему данных, доступных для интеллектуального анализа текста. Функциональность диапазона дат снижает вычислительную нагрузку и обеспечивает гибкость для генерации гипотез (например, изучение того, как научные знания о связи белка и заболевания менялись с течением времени). В то же время компоненты импутации меток и полнотекстовые компоненты расширяют объем данных, доступных для интеллектуального анализа текста. Оба компонента по умолчанию отключены, чтобы снизить вычислительные затраты, но пользователь может включить любой из них. Маркировка является консервативной, и она правильно классифицирует большинство публикаций (точность 87%), но пропускает другие ярлыки категорий (2% отзывов). В настоящее время этот метод основан на эвристике на основе правил, которая соответствует ключевым словам заболевания, и планируется повысить производительность за счет использования методов моделирования тем документов. Поскольку многие некатегоризированные отчеты, как правило, являются недавними публикациями, исследованиям, изучающим недавний диапазон дат (например, все публикации за последние 3 года), лучше отключить вменение ярлыков. Полнотекстовый компонент увеличивает требования к среде выполнения и хранилищу. Примечательно, что только меньшая часть документов имеет доступ к полному тексту (~14% документов в нашем исследовании). Предполагая, что названия белков, упомянутые в разделе методов публикаций, с меньшей вероятностью связаны с темами заболеваний, рекомендуется запрашивать полные тексты статей, исключая раздел методов.

Полученные в результате оценки ассоциаций белка и заболевания полезны для традиционных анализов, таких как кластеризация, уменьшение размерности или анализ обогащения (например, GO, pathways), с некоторой реализацией, включенной в этот программный пакет. Чтобы контекстуализировать эти оценки в рамках существующих биомедицинских знаний, автоматически строится граф знаний, который может быть изучен с помощью инструментов визуализации графов (например, Neo4j32, Cytoscape33). Граф знаний также может быть использован для прогностического анализа (например, прогнозирование связей между незарегистрированными белками и заболеваниями, обнаружение белковых сетей в сообществе, методы сбора призов).

Мы рассмотрели метрики оценки модели для прогнозируемых ассоциаций белка и заболевания (табл. 5). Модель присваивает оценку вероятности от 0,0 до 1,0 каждой ассоциации белка и заболевания, при этом оценки, близкие к 1,0, указывают на более высокий уровень достоверности прогноза. Внутренняя оценка производительности модели, которая была основана на различных показателях, включая AUROC, точность, сбалансированную точность, специфичность и полноту, показала отличную общую производительность в его работе. Тем не менее, оценка также выявила довольно низкую оценку точности (0,15) модели, что привело к более низкой оценке как AUPRC, так и F1. Будущие исследования, направленные на улучшение этой метрики, помогут повысить общую производительность модели. Мы полагаем, что это может быть достигнуто путем внедрения более сложных моделей встраивания графов знаний и прогнозирования графов. Основываясь на точности модели, равной 0,15, исследователи должны ожидать примерно 15% положительных идентификаций; В частности, из всех 12 688 ассоциаций белка и заболевания, предсказанных моделью, примерно 15% являются истинно-положительными ассоциациями. Это можно смягчить, рассматривая только ассоциации белка и заболевания с высокой оценкой вероятности (например, >0,90); В нашем примере фильтрация с порогом вероятности 0,90 привела к высокодостоверным предсказаниям 1 583 ассоциаций. Исследователям может быть полезно также вручную проверить эти прогнозы, чтобы убедиться в высокой достоверности (см. рис. 7 в качестве примера). Внешняя оценка наших прогнозов показала, что из 310 ассоциаций белковых заболеваний из обширной курируемой базы данных DisGeNet19 103 были идентифицированы в нашем исследовании интеллектуального анализа текста, а 88 дополнительных ассоциаций были предсказаны с помощью анализа графа знаний с оценкой вероятности >0,90.

В целом, CaseOLAP LIFT отличается повышенной гибкостью и удобством использования при разработке пользовательских анализов ассоциаций между функциональными группами белков и несколькими категориями заболеваний в больших текстовых корпусах. Этот пакет оптимизирован в новом удобном интерфейсе командной строки и выпущен в виде контейнера Docker, что уменьшает проблемы, связанные с настройкой сред программирования и зависимостей программного обеспечения. Конвейер CaseOLAP LIFT для изучения митохондриальных белков при сердечно-сосудистых заболеваниях может быть легко адаптирован; Например, будущие применения этого метода могут включать в себя исследование ассоциаций между любыми белками, связанными с любыми терминами GO и любой биомедицинской категорией. Кроме того, ранжированные ассоциации белков и заболеваний, выявленные этой платформой интеллектуального анализа текста, важны для подготовки набора данных для использования передовых методов естественного языка. Полученный граф знаний позволяет исследователям преобразовать эти результаты в биологически информативные знания и закладывает основу для последующего анализа на основе графов.

Disclosures

The authors have nothing to disclose.

Acknowledgements

Эта работа была поддержана Национальными институтами здравоохранения (NIH) R35 HL135772 для P.P., NIH T32 HL13945 для A.R.P. и D.S., NIH T32 EB016640 для A.R.P., Национальным научным фондом исследовательской стажировки (NRT) 1829071 для A.R.P. и D.S., NIH R01 HL146739 для I.A., J.R., A.V., K.B. и TC Laubisch Endowment to P.P. в Калифорнийском университете в Лос-Анджелесе.

Materials

Software – Docker Docker N/A docker.com

References

  1. The UniProt Consortium et al. UniProt: The universal protein knowledgebase in 2021. Nucleic Acids Research. 49, D480-D489 (2021).
  2. Davis, A. P., et al. Comparative toxicogenomics database (CTD): Update 2023. Nucleic Acids Research. 51, D1257-D1262 (2023).
  3. Mohtashamian, M., Abeysinghe, R., Hao, X., Cui, L. Identifying missing IS-A relations in orphanet rare disease ontology. Proceedings. IEEE International Conference on Bioinformatics and Biomedicine. 2022, 3274-3279 (2022).
  4. Rehm, H. L., et al. ClinGen – The clinical genome resource. New England Journal of Medicine. 372 (23), 2235-2242 (2015).
  5. Caulfield, M., et al. . The National Genomics Research and Healthcare Knowledgebase. , (2019).
  6. Ma, X., Lee, H., Wang, L., Sun, F. CGI: A new approach for prioritizing genes by combining gene expression and protein-protein interaction data. Bioinformatics. 23 (2), 215-221 (2007).
  7. Gutiérrez-Sacristán, A., et al. Text mining and expert curation to develop a database on psychiatric diseases and their genes. Database. 2017, 043 (2017).
  8. Sigdel, D., et al. Cloud-based phrase mining and analysis of user-defined phrase-category association in biomedical publications. Journal of Visualized Experiments. (144), e59108 (2019).
  9. Yu, K. -. H., et al. Systematic protein prioritization for targeted proteomics studies through literature mining. Journal of Proteome Research. 17 (4), 1383-1396 (2018).
  10. Lau, E., et al. Identifying high-priority proteins across the human diseasome using semantic similarity. Journal of Proteome Research. 17 (12), 4267-4278 (2018).
  11. Pletscher-Frankild, S., Pallejà, A., Tsafou, K., Binder, J. X., Jensen, L. J. DISEASES: Text mining and data integration of disease-gene associations. Methods. 74, 83-89 (2015).
  12. Liu, Y., Liang, Y., Wishart, D. PolySearch2: A significantly improved text-mining system for discovering associations between human diseases, genes, drugs, metabolites, toxins and more. Nucleic Acids Research. 43, W535-W542 (2015).
  13. Minot, S. S., Barry, K. C., Kasman, C., Golob, J. L., Willis, A. D. geneshot: Gene-level metagenomics identifies genome islands associated with immunotherapy response. Genome Biology. 22 (1), 135 (2021).
  14. Lee, S., et al. BEST: Next-generation biomedical entity search tool for knowledge discovery from biomedical literature. PloS One. 11 (10), 0164680 (2016).
  15. Wei, C. -. H., Allot, A., Leaman, R., Lu, Z. PubTator central: Automated concept annotation for biomedical full text articles. Nucleic Acids Research. 47 (W1), W587-W593 (2019).
  16. Jimeno-Yepes, A. J., Sticco, J. C., Mork, J. G., Aronson, A. R. GeneRIF indexing: Sentence selection based on machine learning. BMC Bioinformatics. 14 (1), 171 (2013).
  17. Wei, C. -. H., et al. tmVar 2.0: Integrating genomic variant information from literature with dbSNP and ClinVar for precision medicine. Bioinformatics. 34 (1), 80-87 (2018).
  18. Maglott, D., Ostell, J., Pruitt, K. D., Tatusova, T. Entrez Gene: Gene-centered information at NCBI. Nucleic Acids Research. 33, D54-D58 (2005).
  19. Piñero, J., et al. The DisGeNET knowledge platform for disease genomics: 2019 update. Nucleic Acids Research. 48, D845-D855 (2019).
  20. Lee, J., et al. BioBERT: A pre-trained biomedical language representation model for biomedical text mining. Bioinformatics. 36 (4), 1234-1240 (2020).
  21. Szklarczyk, D., et al. STRING v11: Protein-protein association networks with increased coverage, supporting functional discovery in genome-wide experimental datasets. Nucleic Acids Research. 47, D607-D613 (2019).
  22. Gillespie, M., et al. The reactome pathway knowledgebase 2022. Nucleic Acids Research. 50, D687-D692 (2022).
  23. Fang, L., et al. GRNdb: Decoding the gene regulatory networks in diverse human and mouse conditions. Nucleic Acids Research. 49, D97-D103 (2021).
  24. Doğan, T., et al. CROssBAR: Comprehensive resource of biomedical relations with knowledge graph representations. Nucleic Acids Research. 49 (16), 96 (2021).
  25. Fernández-Torras, A., Duran-Frigola, M., Bertoni, M., Locatelli, M., Aloy, P. Integrating and formatting biomedical data as pre-calculated knowledge graph embeddings in the Bioteque. Nature Communications. 13 (1), 5304 (2022).
  26. Himmelstein, D. S., et al. Systematic integration of biomedical knowledge prioritizes drugs for repurposing. eLife. 6, e26726 (2017).
  27. Zheng, S., et al. PharmKG: A dedicated knowledge graph benchmark for biomedical data mining. Briefings in Bioinformatics. 22 (4), (2021).
  28. Morselli Gysi, D., et al. Network medicine framework for identifying drug-repurposing opportunities for COVID-19. Proceedings of the National Academy of Sciences of the United States of America. 118 (19), 2025581118 (2021).
  29. Santos, A., et al. A knowledge graph to interpret clinical proteomics data. Nature Biotechnology. 40 (5), 692-702 (2022).
  30. Cappelletti, L., et al. GraPE: Fast and scalable graph processing and embedding. arXiv. , (2021).
  31. Yang, B., Yih, W., He, X., Gao, J., Deng, L. Embedding entities and relations for learning and inference in knowledge bases. arXiv. , (2014).
  32. . Neo4j Graph Data Platform Available from: https://neo4j.com/ (2022)
  33. Shannon, P., et al. Cytoscape: A software environment for integrated models of biomolecular interaction networks. Genome Research. 13 (11), 2498-2504 (2003).

Play Video

Cite This Article
Pelletier, A. R., Steinecke, D., Sigdel, D., Adam, I., Caufield, J. H., Guevara-Gonzalez, V., Ramirez, J., Verma, A., Bali, K., Downs, K., Wang, W., Bui, A., Ping, P. A Knowledge Graph Approach to Elucidate the Role of Organellar Pathways in Disease via Biomedical Reports. J. Vis. Exp. (200), e65084, doi:10.3791/65084 (2023).

View Video