Мы представляем протокол и связанного программного кода, а также образцы метаданных для поддержки облачной автоматической идентификации фразы Категория ассоциации, представляющие уникальные концепции в домене выбранного знания пользователя в биомедицинских литературе. Фраза Категория Ассоциация количественно этот протокол может облегчить в глубине анализа в домене выбранного знаний.
Быстрое накопление биомедицинских текстовых данных намного превышает человеческого потенциала ручного курирование и анализ, требующий Роман инструменты интеллектуального анализа текста для извлечения биологических идеи из большого количества научных докладов. Контекстно зависимые семантической онлайн аналитическая обработка (CaseOLAP) трубопровода, разработанная в 2016 году, успешно количественно определяемых пользователем фразы Категория отношения путем анализа текстовых данных. CaseOLAP имеет много биомедицинских приложений.
Мы разработали протокол для облачной среды, поддержке конец в конец фразы добыча и анализ платформы. Наш протокол включает в себя данные предварительной обработки (например, загрузки, извлечения и анализа текстовых документов), индексация и поиск с Elasticsearch, создание функциональной структуры под названием текст-куб и количественного определения фразы Категория отношения Использование основной алгоритм CaseOLAP.
Наши данные препроцессирование генерирует ключ значение сопоставления для всех документов. Предварительно обработанные данные индексируются осуществлять поиск документов, включая сущности, который далее облегчает создание текста-куб и CaseOLAP Оценка вычисления. Полученные оценки сырья CaseOLAP интерпретируются с помощью ряда комплексных анализов, включая сокращение размерности, кластеризация, височной и географических анализов. Кроме того CaseOLAP оценки используются для создания графической базы данных, которая позволяет семантическое сопоставление документов.
CaseOLAP определяет фразу Категория отношения в точной (определяет отношения), последовательные (высокую воспроизводимость) и эффективным образом (процессы 100 000 слов/сек). После этого протокола пользователи могут получить доступ к среде облачных вычислений для поддержки их собственных конфигураций и приложений CaseOLAP. Эта платформа предлагает расширение доступности и уполномочивает биомедицинского сообщества с горнодобывающей промышленности фраза инструменты для приложений широко биомедицинских исследований.
Ручная оценка миллионов текстовых файлов для изучения фразу Категория ассоциации (например., возрастной группы Ассоциации белка) сравнима с методом автоматизированной вычислительной эффективностью. Мы хотим познакомить облачной платформы контекстно зависимые семантической онлайн аналитическая обработка (CaseOLAP) как метод горнодобывающей промышленности фраза для автоматического вычисления фразу Категория ассоциации в контексте биомедицинского.
CaseOLAP платформа, которая впервые была определена в 20161, является весьма эффективным по сравнению с традиционными методами управления данными и вычислений из-за своей функциональной документооборота, называется текст-куб2,3, 4, который распределяет документы при сохранении основополагающих иерархии и микрорайонов. Она применялась в5 биомедицинских исследований для изучения сущности Категория ассоциации. CaseOLAP платформа состоит из шести основных этапов, включая загрузки и извлечения данных, разбор, индексации, создания текста-куб, количество сущностей, и CaseOLAP Оценка расчет; которая является основным направлением протокола (рис. 1, рис. 2, Таблица 1).
Для реализации алгоритма CaseOLAP, пользователь устанавливает категории интересов (например, болезнь, признаки и симптомы, возрастных групп, диагностика) и подразделений, представляющих интерес (например, белки, наркотики). Одним из примеров категории, включенные в этой статье является возрастных групп, которые имеет «Детей», «ребенок», «подростков», и «взрослый» подкатегории как клетки текста-куб и белков (синонимы) полных и сокращенных названий как сущности. Медицинские предметные рубрики (MeSH) реализованы для получения публикаций, соответствующих определенной категории (Таблица 2). Дескрипторы сетки организованы в иерархическую древовидную структуру разрешить поиск публикаций на различных уровнях специфичности (образец, показанный на рисунке 3). CaseOLAP платформа использует функции индексирования и поиска данных для курирование документов, связанных с сущностью, которые еще более облегчить документ сущности количество карт и CaseOLAP Оценка вычисления.
Подробная информация о расчетах Оценка CaseOLAP доступен в предыдущих публикаций1,5. Эта оценка вычисляется с помощью конкретных ранжирование критериев, на основе базовой структуры документа текст-куб. Окончательная оценка является продуктом целостности, популярностии самобытности. Целостность описывает, является ли представитель сущность семантической целое, которое коллективно относится к значимой концепции. Целостность пользовательская фраза берется быть 1.0, потому что он стоит как стандартная фраза в литературе. Особенностей представляет относительную значимость фразы в одно подмножество документов по сравнению с остальной частью других клеток. Он сначала вычисляет значение сущности для конкретной ячейки, сравнивая вхождения имени белка в наборе данных и обеспечивает нормализованный показатель своеобразность . Популярность представляет тот факт, что фраза с показатель популярности более часто появляется в одно подмножество документов. Имена редких белка в клетке ранжируются низкий, в то время как увеличение их частоты упоминания имеет сокращается прибыль за счет осуществления логарифмической функции частоты. Количественное измерение эти три понятия зависит от (1) срок частоты сущности над клетки и клетки и (2) количество документов этой сущности (документ частоты) внутри клетки и клетки.
Мы изучили два представителя сценариев с использованием набора данных PubMed и наш алгоритм. Мы заинтересованы в как митохондриальных протеинов связаны с двух уникальных категориях дескрипторов MeSH; «Возрастных групп» и «питания и метаболических заболеваний». В частности мы получить 15,728,250 публикаций из 20 лет публикаций, собранные PubMed (1998-2018 годы), среди них, 8,123,458 уникальных рефератов имели полный дескрипторов MeSH. Соответственно, 1842 человека митохондриальных белок имена (включая аббревиатуры и синонимы), полученные от UniProt (uniprot.org), а также от MitoCarta2.0 (http://mitominer.mrc-mbu.cam.ac.uk/release-4.0/begin.do >), систематически рассмотрены. Их ассоциации с этими 8,899,019 изданий и организаций были изучены с помощью нашего протокола; Мы построен текст-куб и рассчитаны соответствующие оценки CaseOLAP.
Мы продемонстрировали, что алгоритм CaseOLAP можно создать фразы на основе количественных ассоциации в категорию на основе знаний через большие объемы текстовых данных для извлечения значимые идеи. После нашего протокола можно построить CaseOLAP рамки для создания желаемого текста-куб и количественного определения сущности категории ассоциаций путем вычисления Оценка CaseOLAP. Полученные оценки сырья CaseOLAP могут быть приняты для комплексных анализов, включая сокращение размерности, кластеризации, анализа временных и географических, а также создание графической базы данных, которая позволяет семантическое сопоставление документов.
Применение алгоритма. Примеры определяемых пользователем сущностей, помимо белков, может быть список имена гена, наркотики, конкретные признаки и симптомы, включая их сокращения и синонимы. Кроме того есть много вариантов для выбора категории для облегчения конкретные определяемые пользователем биомедицинских анализов (например, Анатомия [A], дисциплина и оккупации [H], явлений и процессов [G]). В наших двух случаев использования, всех научных публикаций и их текстовые данные извлекаются из базы данных MEDLINE, используя PubMed в качестве поисковой системы, как управляется Национальной медицинской библиотекой. Однако CaseOLAP платформа может применяться к другим базам данных интерес, содержащих биомедицинских документы текстовых данных как FDA неблагоприятных событий отчетности системы (FAERS). Это открытые базы данных, содержащей информацию о медицинских побочных эффектов и лечение ошибка доклады, представляемые FDA. В отличие от MEDLINE и FAERS базы данных в больницах, содержащие электронных медицинских записей из больных не открыты для публики и ограничены медицинское страхование портативности и акт об ответственности, известный как HIPAA.
CaseOLAP алгоритм успешно применяется для различных типов данных (например, статьи новостей)1. Реализация этого алгоритма в биомедицинских документов был достигнут в 20185. Требования для применения алгоритма CaseOLAP является, что каждый из документов должны быть назначены с ключевых слов, связанных с понятиями (например, дескрипторов MeSH в биомедицинских публикациях, ключевые слова в новостных статей). Если ключевые слова не найдены, можно применять Autophrase6,7 для сбора Топ представитель фраз и построить список сущностей перед реализацией нашего протокола. Наш протокол не предусматривает шаг для выполнения Autophrase.
Сравнение с другими алгоритмами. Концепция с использованием куба данных8,9,10 и текст-куб2,,34 развивается с 2005 года с новых достижений более применимым для интеллектуального анализа данных. Концепция оперативной аналитической обработки (OLAP)11,12,13,14,15 интеллектуального анализа данных и бизнес-аналитики восходит к 1993 году. OLAP, в общем, собирает информацию из нескольких систем и сохраняет его в многомерный формат. Существуют различные типы систем OLAP, реализованы в интеллектуальном анализе данных. К примеру обработки транзакций/аналитический (1) гибрид (ПЗВП)16,17,18,(2) многомерного OLAP (MOLAP)19-куб на основе и (3) реляционного OLAP (ROLAP)20.
В частности, алгоритм CaseOLAP была по сравнению с многочисленными существующих алгоритмов, в частности, с их слова сегментации усовершенствований, включая TF-ИДФ + Seg, MCX + Seg, MCX и SegPhrase. Кроме того, RepPhrase (RP, также известный как SegPhrase +) была по сравнению с собственной абляции вариации, включая (1) RP без целостности мера включена (RP No INT), (2) RP без популярности мера включена (RP нет POP) и (3) RP без Своеобразность мера включена (RP нет DIS). В исследовании Fangbo Tao et al.1показаны результаты тестов.
Есть еще проблемы интеллектуального анализа данных, который можно добавить дополнительные функциональные возможности сохранения и извлечения данных из базы данных. Контекстно зависимые семантической аналитическая обработка (CaseOLAP) систематически реализует Elasticsearch для построения индексации базы данных миллионов документов (протокол 5). Текст-куб — это структура документа, построен над индексированных данных, предоставленных пользователем категорий (Протокол 6). Это повышает функциональность документов внутри и через ячейку текста-Куба и позволит нам рассчитать срок частоты образований над документ и документ частоты над определенной ячейке (протокол 8). Окончательная оценка CaseOLAP использует эти вычисления частоты для вывода итоговый счет (Протокол 9). В 2018 году мы внедрили этот алгоритм для изучения белков ECM и шести заболеваний сердца для анализа белка болезнь ассоциаций. Подробности этого исследования можно найти в исследовании, лием, д.а. et al.5. Указывает, что CaseOLAP могут широко использоваться в биомедицинских сообщество изучает различные заболевания и механизмов.
Ограничения алгоритма. Горнодобывающей промышленности фраза сама методика управлять и извлекать важные концепции от текстовых данных. Открывая сущности Категория Ассоциация как математические количество (вектор), этот метод не может выяснить, полярность (например, положительный или отрицательный наклон) ассоциации. Одно может построить количественных сводных данных, используя структуру документа текст-Cude с назначенным подразделениями и категории, но качественной концепции с микроскопическим гранулярности не может быть достигнуто. Некоторые концепции из прошлого до сих теперь постоянно эволюционируют. Уплотнения для конкретной сущности категории ассоциации включает в себя все случаи всей литературе. Это может отсутствие временного распространения инноваций. В будущем мы планируем решить эти ограничения.
Будущих приложений. Около 90% накопленных данных в мире находится в неструктурированных текстовых данных. Найти представителя фразу и отношение к сущности, внедренный в текст является очень важной задачей для внедрения новых технологий (например, машинное обучение, извлечения информации, искусственного интеллекта). Чтобы сделать текст данные машины для чтения, данные должны быть организованы в базе данных, над которой может осуществляться следующий слой инструментов. В будущем этот алгоритм может быть решающим шагом в создании более функциональным для поиска информации и количественной оценки ассоциаций сущности Категория интеллектуального анализа данных.
The authors have nothing to disclose.
Эта работа частично поддержали национальные сердца, легких и крови института: R35 HL135772 (для P. Ping); Национальный институт Генеральной медицинских наук: U54 GM114833 (для P. Ping, K. Уотсон и W. Wang); U54 GM114838 (с J. Han); подарок от Элен и Ларри Хоаг фонда и Dr. S. Сетти; и T.C. Laubisch облечение в Калифорнийском университете (для P. Ping).