Мы представляем веб-портал CorExplorer, ресурс для исследования факторов секвенирования РНК опухоли, найденный алгоритмом машинного обучения CorEx (Объяснение корреляции), и показываем, как факторы могут быть проанализированы относительно выживания, аннотации базы данных, белково-белковых взаимодействий, и друг с другом, чтобы получить представление о биологии опухоли и терапевтических вмешательств.
Дифференциальный анализ экспрессии генов является важным методом для понимания состояния болезни. Алгоритм машинного обучения CorEx показал полезность в анализе дифференциальной экспрессии групп генов в опухолевой РНК-сек таким образом, что это может быть полезно для продвижения точной онкологии. Тем не менее, CorEx производит много факторов, которые могут быть сложными для анализа и подключения к существующему пониманию. Для облегчения таких подключений мы создали веб-сайт CorExplorer, который позволяет пользователям интерактивно изучать данные и отвечать на общие вопросы, связанные с его анализом. Мы обучили CorEx данным экспрессии генов РНК-сек для четырех типов опухолей: яичников, легких, меланомы и колоректального. Затем мы включили соответствующие выживания, белково-белковые взаимодействия, Ген онтологии (GO) и Киото Энциклопедия генов и геномов (KEGG) пути обогащения, и тепловые карты на веб-сайте для связи с фактором граф визуализации. Здесь мы используем примеры протоколов, чтобы проиллюстрировать использование базы данных для осмысления значения изученных факторов опухоли в контексте этих внешних данных.
С момента своего введения чуть более десяти лет назад, РНК-сек стал вездесущим инструментом для измерения экспрессиигенов 1. Это потому, что она позволяет быстро и дешево de novo профилирования всего транскриптома образца. Тем не менее, данные о опухолях РНК-сек отражают биологию, которая по своей сути сложна и часто недостаточно пробы, в то время как сами данные являются высокомерными и шумными. Это представляет собой серьезную проблему для извлечения надежных сигналов. Алгоритм CorEx использует многовариантную взаимную информацию, чтобы найти тонкие закономерности в таких ситуациях2,3 . Этот метод был ранее адаптирован для анализа опухоли яичников РНК-сек образцов из атласа генома рака (TCGA) и в этом контексте, как представляется, имеют значительные преимущества по сравнению с более часто используемых методов анализа4.
Хотя использование РНК-сек чрезвычайно широко распространено в научно-исследовательских приложениях, в том числе в онкологии, эти усилия не привели к широкому использованию для целей клинических вмешательств5. Одной из причин этого является отсутствие удобных для пользователя алгоритмов и программного обеспечения, предназначенных для этих конкретных проблем. Чтобы помочь преодолеть этот пробел, мы разработали веб-портал CorExplorer, чтобы позволить исследователям из различных слоев общества изучать факторы экспрессии генов образцов РНК-сек опухоли, найденные алгоритмом машинного обучения CorEx. Портал CorExplorer поддерживает интерактивную визуализацию и запрос факторов из нескольких различных типов опухолей, включая легкие, толстой кишки, меланомы и яичников6,7,8,9, 10, с целью помочь исследователям просеять через данные корреляции и определить кандидат пути для расслоения пациентов в терапевтических целях.
Мы ожидаем, что портал CorExplorer может быть полезен нескольким типам пользователей. Портал был разработан с учетом пользователя, который хочет понять общие факторы, приводя к различиям в экспрессии генов в публичных базах данных и, возможно, также разместить отдельные профили экспрессии генов в контексте опухолей с аналогичными Характеристики. В дополнение к репрезентативным протоколам, изложенным здесь, исследования CorExplorer могут служить отправной точкой для высказывающих гипотезы для дальнейшего тестирования, для сравнения и контрастации выводов CorEx на наборах данных за пределами CorExplorer, а также для подключения патологические экспрессионные подписи одного или нескольких генов в отдельной опухоли к более крупным группам, которые могут быть координантно затронуты. Наконец, он может служить удобным введением в приложение машинного обучения к RNA-seq для тех, кто начинает работать в этой области.
Мы представили сайт CorExplorer, общедоступный веб-сервер для интерактивного исследования максимально коррелированных факторов экспрессии генов, извлеченных из опухолевых РНК-сек по алгоритму CorEx. Мы показали, как веб-сайт может быть использован для расслоения пациентов в соответствии с экспрессией генов опухоли, и как такое стратификация соответствует биологической функции и выживанию.
Были построены другие веб-серверы для анализа РНК-сек. Дифференциальный и коэкспрессиальный анализ опухолей может быть исследован и интегрирован с другими типами данных в cbioPortal19,20. Серверы GenePattern21, Mev22и Morpheus23включают в себя установленные методы кластеризации, такие как анализ основных компонентов (PCA), kmeans или самоорганизующиеся карты (SOM). Более инновационные усилия включают CamurWeb24, на основе автоматизированного классификатора, генерирующего правила, и TACCO25, который реализует случайные классификаторы лесов и lassos. Используемый здесь алгоритм CorEx оптимизирует многовариантную информацию, чтобы найти иерархию факторов, объясняющие закономерности в данных. Нелинейный и иерархический фактор обучения, как представляется, дают улучшенную интерпретацию по отношению к линейным глобальным факторам, найденным через PCA4. Кроме того, тонкозернистый анализ пробных сигналов метода позволяет точно сравнивать опухоли по сравнению с более часто используемыми широкими подтипами. Такое сочетание перекрывающегося и иерархического анализа факторов отличает CorExplorer от большинства других подходов и требует новых инструментов для визуализации и обобщения.
Важной частью анализа факторов CorExplorer является возможность исследовать не только несколько, но и более 100 факторов с информативными генными моделями, которые находятся в перекрывающейся иерархии. CorExplorer облегчает добычу этих множества факторов для биологических и клинических ассоциаций и позволяет исключительно подробную характеристику отдельных опухолей. Неконтролируемое изучение такого большого количества факторов означает, что не все будут иметь отношение к биологии болезней. В таком случае, важно либо использовать аннотации или известные гены, чтобы вытащить факторы интереса или поиск факторов, связанных с клиническими данными, такими как выживание. Таким образом, CorExplorer позволяет пользователям реализовать этот очень важный шаг фильтрации. Наличие факторных генных моделей в опухоли может даже предложить подход к персонализированному лечению онкологии. Кроме того, многообразие коэффициентов для каждой опухоли позволяет обнаружить потенциально полезные терапевтические комбинации.
Иногда бывает так, что не появляется никаких значительных аннотаций GO для факторов, сильно коррелированных с выживанием. Хотя это может произойти из-за шумных или под выборочными данными, есть и другие возможные причины, такие как размер кластера, который слишком мал, чтобы регистрировать значительные оценки обогащения или группа является «корзиной» отдельных генов из различных путей без согласованных биологических Ассоциации. Кроме того, может быть уместно йенотации, отличающиеся от биологического процесса KEGG и GO, например, клеточный отсек. К ним можно получить доступ, связавшись с StringDB, как показано в протоколе. Анализ обогащения генонологии на сайте CorExplorer в настоящее время не учитывает взвешивание гена в факторе, хотя это, вероятно, будет исправлено в ближайшем будущем. Обратите внимание, что опция списка генов доступна в рамках “Добавить окно”, что позволяет скачать полный список генов фактора для дальнейшего анализа с помощью внешних инструментов.
Для целей веб-сайта CorEx запускался на каждом из наборов данных пять раз, и запуск, который привел к наибольшему общему общему корреляции, был сохранен. Наличие статистического представления результатов нескольких запусков может быть более информативным и является целью будущей работы. Кроме того, набор типов опухолей, доступных на сервере, довольно мал, но мы ожидаем, что это будет расширяться с течением времени в зависимости от интереса пользователей.
Как указано выше, CorExplorer визуализирует CorEx РНК-сек фактор отношений наряду с клинической и базы данных информации, что позволяет целый ряд различных способов допроса. Мы надеемся, что этот инструмент приведет к дальнейшей работе по использованию силы анализа РНК-сек для открытия и клинического применения в онкологии.
The authors have nothing to disclose.
GV была поддержана наградой DARPA W911NF-16-0575.
Public server for CorExplorer website | USC | http://corex.isi.edu | Intel Xeon E5-2690 4-core 2.6 GHz, 8GB RAM. Backend architecture is LAMP: Linux, Apache, MySQL, PHP. |
Web browser | Google/Apple | Chrome/Safari | Verified web browsers. |