Представлен вычислительный протокол CaseOLAP LIFT и сценарий использования для исследования митохондриальных белков и их ассоциаций с сердечно-сосудистыми заболеваниями, как описано в биомедицинских отчетах. Этот протокол может быть легко адаптирован для изучения выбранных пользователем клеточных компонентов и заболеваний.
Быстро растущее и огромное количество биомедицинских отчетов, каждый из которых содержит множество сущностей и богатую информацию, представляет собой богатый ресурс для биомедицинских текстовых приложений. Эти инструменты позволяют исследователям интегрировать, концептуализировать и транслировать эти открытия, чтобы получить новые знания о патологии заболеваний и терапии. В этом протоколе мы представляем CaseOLAP LIFT, новый вычислительный конвейер для исследования клеточных компонентов и их ассоциаций с заболеваниями путем извлечения отобранной пользователем информации из текстовых наборов данных (например, биомедицинской литературы). Программное обеспечение идентифицирует субклеточные белки и их функциональных партнеров в документах, относящихся к заболеванию. Дополнительные документы, относящиеся к заболеванию, идентифицируются с помощью метода вменения этикеток, разработанного программным обеспечением. Для контекстуализации результирующих ассоциаций между белками и заболеваниями и интеграции информации из нескольких релевантных биомедицинских ресурсов автоматически создается граф знаний для дальнейшего анализа. Мы представляем один из вариантов использования с корпусом из ~34 миллионов текстовых документов, загруженных в Интернет, чтобы предоставить пример выяснения роли митохондриальных белков в различных фенотипах сердечно-сосудистых заболеваний с помощью этого метода. Кроме того, модель глубокого обучения была применена к полученному графу знаний для прогнозирования ранее неизвестных взаимосвязей между белками и заболеваниями, в результате чего было получено 1583 ассоциации с прогнозируемыми вероятностями >0,90 и с областью под кривой рабочих характеристик приемника (AUROC), равной 0,91 на тестовом наборе. Это программное обеспечение отличается настраиваемым и автоматизированным рабочим процессом с широким спектром необработанных данных, доступных для анализа; Таким образом, с помощью этого метода можно с повышенной надежностью идентифицировать ассоциации белков и заболеваний в пределах текстового корпуса.
Изучение белков, связанных с заболеванием, расширяет научные знания о патогенезе и помогает определить потенциальные терапевтические средства. Несколько больших корпусов текстов биомедицинских публикаций, таких как 34 миллиона статей PubMed, содержащих названия публикаций, аннотации и полнотекстовые документы, сообщают о новых открытиях, связывающих белки с болезнями. Тем не менее, эти результаты разрознены по различным источникам и должны быть интегрированы для получения новых биомедицинских идей. Существует несколько биомедицинских ресурсов для интеграции ассоциаций белка и заболевания 1,2,3,4,5,6,7. Однако эти курируемые ресурсы часто являются неполными и могут не охватывать последние результаты исследований. Подходы, основанные на интеллектуальном анализе текстов, необходимы для извлечения и синтеза ассоциаций белков и заболеваний в больших текстовых корпусах, что привело бы к более полному пониманию этих биомедицинских концепций в научной литературе.
Существует множество биомедицинских подходов к анализу текстов для выявления взаимосвязей между белками и заболеваниями 8,9,10,11,12,13,14, и другие частично способствуют определению этих отношений, идентифицируя белки, болезни или другие биомедицинские объекты, упомянутые в тексте 13,15,16,17. 18,19. Тем не менее, многие из этих инструментов не имеют доступа к самой современной литературе, за исключением нескольких, которые периодически обновляются 8,11,13,15. Аналогичным образом, многие инструменты также имеют ограниченную область исследования, поскольку они ограничены широкими предопределенными заболеваниями или белками 9,13. Существует несколько подходов, которые также могут привести к выявлению ложных срабатываний в тексте; Другие решают эти проблемы с помощью интерпретируемого и глобального черного списка названий белков9,11 или менее интерпретируемых методов распознавания сущностей имен15,20. В то время как большинство ресурсов предоставляют только предварительно вычисленные результаты, некоторые инструменты предлагают интерактивность через веб-приложения или доступный программный код 8,9,11.
Чтобы устранить вышеуказанные ограничения, мы представляем следующий протокол, CaseOLAP с вменением меток и полным текстом (CaseOLAP LIFT), в качестве гибкой и настраиваемой платформы для исследования ассоциаций между белками (например, белками, связанными с клеточным компонентом) и заболеваниями из текстовых наборов данных. Эта платформа включает в себя автоматизированное курирование специфических для терминов белков генной онтологии (GO) (например, специфических для органелл белков), вменение отсутствующих меток тем документов, анализ полнотекстовых документов, а также инструменты анализа и прогностические инструменты (рис. 1, рис. 2 и табл. 1). CaseOLAP LIFT курирует специфические для органелл белки, используя предоставленные пользователем термины GO (например, компартмент органеллы) и функционально связанные белки с помощью STRING21, Reactome 22 и GRNdb23. Документы, посвященные изучению заболеваний, идентифицируются по меткам заголовков медицинских предметов (MeSH), аннотированным PubMed. Для ~15,1% немаркированных документов метки вменяются, если в заголовке встречается хотя бы один синоним термина MeSH или не менее двух в аннотации. Это позволяет учитывать ранее не категоризированные публикации при анализе интеллектуального анализа текста. CaseOLAP LIFT также позволяет пользователю выбирать разделы публикаций (например, только названия и аннотации, полный текст или полный текст без методов) в течение определенного периода времени (например, 2012-2022 гг.). Кроме того, программное обеспечение в полуавтоматическом режиме создает черный список названий белков для конкретных случаев использования, что существенно снижает количество ложноположительных ассоциаций между белками и заболеваниями, присутствующих в других подходах. В целом, эти улучшения обеспечивают большую настраиваемость и автоматизацию, увеличивают количество данных, доступных для анализа, и позволяют получать более достоверные связи между белками и заболеваниями из больших корпусов биомедицинских текстов.
CaseOLAP LIFT включает в себя биомедицинские знания и представляет взаимосвязь различных биомедицинских концепций с помощью графа знаний, который используется для прогнозирования скрытых взаимосвязей в графе. В последнее время методы вычислений на основе графов применяются в биологических условиях, включая интеграцию и организацию биомедицинских концепций 24,25, перепрофилирование и разработку лекарств 26,27,28, а также для принятия клинических решений на основе данных протеомики 29.
Чтобы продемонстрировать полезность CaseOLAP LIFT при построении графа знаний, мы выделим сценарий использования для исследования ассоциаций между митохондриальными белками и восемью категориями сердечно-сосудистых заболеваний. Данные из ~362 000 документов, относящихся к заболеваниям, были проанализированы, чтобы определить основные митохондриальные белки и пути, связанные с заболеваниями. Затем эти белки, их функционально связанные белки и результаты интеллектуального анализа текста были включены в граф знаний. Этот график был использован в анализе прогнозирования связей на основе глубокого обучения для прогнозирования ассоциаций между белками и заболеваниями, о которых до сих пор не сообщалось в биомедицинских публикациях.
Во вводном разделе описывается справочная информация и цели нашего протокола. В следующем разделе описываются этапы вычислительного протокола. Далее описываются репрезентативные результаты этого протокола. Наконец, мы кратко обсудим варианты использования вычислительного протокола, преимущества, недостатки и будущие приложения.
CaseOLAP LIFT позволяет исследователям исследовать связи между функциональными белками (например, белками, связанными с клеточным компонентом, биологическим процессом или молекулярной функцией) и биологическими категориями (например, болезнями). Описанный протокол должен быть выполнен в указанной последовательности, при этом наиболее критическими шагами являются раздел протокола 2 и раздел протокола 3, так как от их результатов зависят разделы протокола 4 и 5 протокола. В качестве альтернативы разделу 1 протокола код CaseOLAP LIFT можно клонировать и получить к нему доступ из репозитория GitHub (https://github.com/CaseOLAP/caseolap_lift). Следует отметить, что, несмотря на тестирование в процессе разработки программного обеспечения, могут возникать ошибки. Если это так, неудачный шаг следует повторить. Если проблема не устранена, рекомендуется повторить раздел протокола 1, чтобы убедиться, что используется последняя версия контейнера Docker. Дополнительную помощь можно получить, создав проблему в репозитории GitHub для получения дополнительной поддержки.
Этот метод поддерживает генерацию гипотез, позволяя исследователям идентифицировать интересующие объекты и выявлять потенциальные связи между ними, которые могут быть недоступны в существующих биомедицинских ресурсах. Полученные в результате связи между белками и заболеваниями позволяют исследователям получить новое представление с помощью интерпретируемых метрик оценок: баллы популярности указывают на наиболее изученные белки по отношению к заболеванию, показатели различимости указывают на заболевания, наиболее уникальные для белка, а комбинированная оценка CaseOLAP представляет собой комбинацию этих двух показателей. Чтобы предотвратить ложноположительные идентификации (например, из-за омонимов), некоторые инструменты интеллектуального анализа текста используют черный список терминов, чтобы избежать 9,11. Аналогичным образом, CaseOLAP LIFT также использует черный список, но позволяет пользователю адаптировать черный список к своему сценарию использования. Например, при изучении ишемической болезни сердца (ИБС) «ИБС» не следует считать названием белка «каспаза-активируемая дезоксирибонуклеаза». Тем не менее, при изучении других тем, «ИБС» обычно может относиться к белку.
CaseOLAP LIFT адаптируется к объему данных, доступных для интеллектуального анализа текста. Функциональность диапазона дат снижает вычислительную нагрузку и обеспечивает гибкость для генерации гипотез (например, изучение того, как научные знания о связи белка и заболевания менялись с течением времени). В то же время компоненты импутации меток и полнотекстовые компоненты расширяют объем данных, доступных для интеллектуального анализа текста. Оба компонента по умолчанию отключены, чтобы снизить вычислительные затраты, но пользователь может включить любой из них. Маркировка является консервативной, и она правильно классифицирует большинство публикаций (точность 87%), но пропускает другие ярлыки категорий (2% отзывов). В настоящее время этот метод основан на эвристике на основе правил, которая соответствует ключевым словам заболевания, и планируется повысить производительность за счет использования методов моделирования тем документов. Поскольку многие некатегоризированные отчеты, как правило, являются недавними публикациями, исследованиям, изучающим недавний диапазон дат (например, все публикации за последние 3 года), лучше отключить вменение ярлыков. Полнотекстовый компонент увеличивает требования к среде выполнения и хранилищу. Примечательно, что только меньшая часть документов имеет доступ к полному тексту (~14% документов в нашем исследовании). Предполагая, что названия белков, упомянутые в разделе методов публикаций, с меньшей вероятностью связаны с темами заболеваний, рекомендуется запрашивать полные тексты статей, исключая раздел методов.
Полученные в результате оценки ассоциаций белка и заболевания полезны для традиционных анализов, таких как кластеризация, уменьшение размерности или анализ обогащения (например, GO, pathways), с некоторой реализацией, включенной в этот программный пакет. Чтобы контекстуализировать эти оценки в рамках существующих биомедицинских знаний, автоматически строится граф знаний, который может быть изучен с помощью инструментов визуализации графов (например, Neo4j32, Cytoscape33). Граф знаний также может быть использован для прогностического анализа (например, прогнозирование связей между незарегистрированными белками и заболеваниями, обнаружение белковых сетей в сообществе, методы сбора призов).
Мы рассмотрели метрики оценки модели для прогнозируемых ассоциаций белка и заболевания (табл. 5). Модель присваивает оценку вероятности от 0,0 до 1,0 каждой ассоциации белка и заболевания, при этом оценки, близкие к 1,0, указывают на более высокий уровень достоверности прогноза. Внутренняя оценка производительности модели, которая была основана на различных показателях, включая AUROC, точность, сбалансированную точность, специфичность и полноту, показала отличную общую производительность в его работе. Тем не менее, оценка также выявила довольно низкую оценку точности (0,15) модели, что привело к более низкой оценке как AUPRC, так и F1. Будущие исследования, направленные на улучшение этой метрики, помогут повысить общую производительность модели. Мы полагаем, что это может быть достигнуто путем внедрения более сложных моделей встраивания графов знаний и прогнозирования графов. Основываясь на точности модели, равной 0,15, исследователи должны ожидать примерно 15% положительных идентификаций; В частности, из всех 12 688 ассоциаций белка и заболевания, предсказанных моделью, примерно 15% являются истинно-положительными ассоциациями. Это можно смягчить, рассматривая только ассоциации белка и заболевания с высокой оценкой вероятности (например, >0,90); В нашем примере фильтрация с порогом вероятности 0,90 привела к высокодостоверным предсказаниям 1 583 ассоциаций. Исследователям может быть полезно также вручную проверить эти прогнозы, чтобы убедиться в высокой достоверности (см. рис. 7 в качестве примера). Внешняя оценка наших прогнозов показала, что из 310 ассоциаций белковых заболеваний из обширной курируемой базы данных DisGeNet19 103 были идентифицированы в нашем исследовании интеллектуального анализа текста, а 88 дополнительных ассоциаций были предсказаны с помощью анализа графа знаний с оценкой вероятности >0,90.
В целом, CaseOLAP LIFT отличается повышенной гибкостью и удобством использования при разработке пользовательских анализов ассоциаций между функциональными группами белков и несколькими категориями заболеваний в больших текстовых корпусах. Этот пакет оптимизирован в новом удобном интерфейсе командной строки и выпущен в виде контейнера Docker, что уменьшает проблемы, связанные с настройкой сред программирования и зависимостей программного обеспечения. Конвейер CaseOLAP LIFT для изучения митохондриальных белков при сердечно-сосудистых заболеваниях может быть легко адаптирован; Например, будущие применения этого метода могут включать в себя исследование ассоциаций между любыми белками, связанными с любыми терминами GO и любой биомедицинской категорией. Кроме того, ранжированные ассоциации белков и заболеваний, выявленные этой платформой интеллектуального анализа текста, важны для подготовки набора данных для использования передовых методов естественного языка. Полученный граф знаний позволяет исследователям преобразовать эти результаты в биологически информативные знания и закладывает основу для последующего анализа на основе графов.
The authors have nothing to disclose.
Эта работа была поддержана Национальными институтами здравоохранения (NIH) R35 HL135772 для P.P., NIH T32 HL13945 для A.R.P. и D.S., NIH T32 EB016640 для A.R.P., Национальным научным фондом исследовательской стажировки (NRT) 1829071 для A.R.P. и D.S., NIH R01 HL146739 для I.A., J.R., A.V., K.B. и TC Laubisch Endowment to P.P. в Калифорнийском университете в Лос-Анджелесе.