Summary

Анализ факторов экспрессии генов опухоли с веб-порталом CorExplorer

Published: October 11, 2019
doi:

Summary

Мы представляем веб-портал CorExplorer, ресурс для исследования факторов секвенирования РНК опухоли, найденный алгоритмом машинного обучения CorEx (Объяснение корреляции), и показываем, как факторы могут быть проанализированы относительно выживания, аннотации базы данных, белково-белковых взаимодействий, и друг с другом, чтобы получить представление о биологии опухоли и терапевтических вмешательств.

Abstract

Дифференциальный анализ экспрессии генов является важным методом для понимания состояния болезни. Алгоритм машинного обучения CorEx показал полезность в анализе дифференциальной экспрессии групп генов в опухолевой РНК-сек таким образом, что это может быть полезно для продвижения точной онкологии. Тем не менее, CorEx производит много факторов, которые могут быть сложными для анализа и подключения к существующему пониманию. Для облегчения таких подключений мы создали веб-сайт CorExplorer, который позволяет пользователям интерактивно изучать данные и отвечать на общие вопросы, связанные с его анализом. Мы обучили CorEx данным экспрессии генов РНК-сек для четырех типов опухолей: яичников, легких, меланомы и колоректального. Затем мы включили соответствующие выживания, белково-белковые взаимодействия, Ген онтологии (GO) и Киото Энциклопедия генов и геномов (KEGG) пути обогащения, и тепловые карты на веб-сайте для связи с фактором граф визуализации. Здесь мы используем примеры протоколов, чтобы проиллюстрировать использование базы данных для осмысления значения изученных факторов опухоли в контексте этих внешних данных.

Introduction

С момента своего введения чуть более десяти лет назад, РНК-сек стал вездесущим инструментом для измерения экспрессиигенов 1. Это потому, что она позволяет быстро и дешево de novo профилирования всего транскриптома образца. Тем не менее, данные о опухолях РНК-сек отражают биологию, которая по своей сути сложна и часто недостаточно пробы, в то время как сами данные являются высокомерными и шумными. Это представляет собой серьезную проблему для извлечения надежных сигналов. Алгоритм CorEx использует многовариантную взаимную информацию, чтобы найти тонкие закономерности в таких ситуациях2,3 . Этот метод был ранее адаптирован для анализа опухоли яичников РНК-сек образцов из атласа генома рака (TCGA) и в этом контексте, как представляется, имеют значительные преимущества по сравнению с более часто используемых методов анализа4.

Хотя использование РНК-сек чрезвычайно широко распространено в научно-исследовательских приложениях, в том числе в онкологии, эти усилия не привели к широкому использованию для целей клинических вмешательств5. Одной из причин этого является отсутствие удобных для пользователя алгоритмов и программного обеспечения, предназначенных для этих конкретных проблем. Чтобы помочь преодолеть этот пробел, мы разработали веб-портал CorExplorer, чтобы позволить исследователям из различных слоев общества изучать факторы экспрессии генов образцов РНК-сек опухоли, найденные алгоритмом машинного обучения CorEx. Портал CorExplorer поддерживает интерактивную визуализацию и запрос факторов из нескольких различных типов опухолей, включая легкие, толстой кишки, меланомы и яичников6,7,8,9, 10, с целью помочь исследователям просеять через данные корреляции и определить кандидат пути для расслоения пациентов в терапевтических целях.

Мы ожидаем, что портал CorExplorer может быть полезен нескольким типам пользователей. Портал был разработан с учетом пользователя, который хочет понять общие факторы, приводя к различиям в экспрессии генов в публичных базах данных и, возможно, также разместить отдельные профили экспрессии генов в контексте опухолей с аналогичными Характеристики. В дополнение к репрезентативным протоколам, изложенным здесь, исследования CorExplorer могут служить отправной точкой для высказывающих гипотезы для дальнейшего тестирования, для сравнения и контрастации выводов CorEx на наборах данных за пределами CorExplorer, а также для подключения патологические экспрессионные подписи одного или нескольких генов в отдельной опухоли к более крупным группам, которые могут быть координантно затронуты. Наконец, он может служить удобным введением в приложение машинного обучения к RNA-seq для тех, кто начинает работать в этой области.

Protocol

1. Изучение факторов, содержащих интересующий ген Откройте веб-браузер и перейдите на http://corex.isi.edu, домашнюю страницу CorExplorer. На правой стороне под Быстрые ссылки, нажмите на кнопку “расширить рядом с яичников (TCGA-OV), чтобы увидеть резюме CorEx фактор график, который был обучен на TCGA данных рака яичников (показано на рисунке 1). Дополнительно нажмите на других, чтобы сравнить. После завершения проверки факторных графиков нажмите наЛегкий (TCGA-LUAD)для доступа к странице CorExplorer для рака легких РНК-сек.Исследуйте график фактора CorEx для гена, представляющих интерес, используя окно CorExplorer ‘Фактор Граф’. Переместите курсор мыши по окну дисплея факторного графика. Увеличьте значение для факторного графика с помощью колеса прокрутки мыши или трекпада, чтобы увидеть детали графика, такие как наиболее важные гены в каждом факторе и связи между узлами в разных слоях. Кроме того, нажмите кнопку и перетащите, чтобы переместить область представления или любой узла. Чтобы найти ген-мишень (здесь мы будем использовать BRCA1), нажмите на меню выпадения гена в верхней части окна факторного графика. Тип ‘BRCA1’, чтобы выбрать его в списке выпадающих и нажмите Return, чтобы сделать представление увеличить фактор 26, фактор, с которым BRCA1 наиболее сильно коррелирует. Переположите мышь поэкрантиву графика и прокрутите, чтобы увеличить, чтобы увидеть узло уровня 2, L2-8, и связанные с ними факторы, которые являются соседями фактор 26. Обратите внимание, что только гены с весом больше порога, указанного на ползунке веса Min link. Чтобы увидеть все гены, связанные с фактором, нажмите на узл L1’26 и выберите дополнительные гены Load во всплывающем окне. Когда появляется слово “Готово”, закройте всплывающее окно. Теперь вернитесь к разделу заголовка над окном факторного графика и захватить и перетащите Min ссылка вес модификатор. Теперь, когда ползунок веса соединения двинут вниз до 0.05, другие гены в факторе L1’26, включая BRCA2, появятся в заказе веса. Дополнительно, изменить положение узлов, захватив и перетаскивания для улучшения макета. Определите, как стратификация пациентов по отношению к фактору влияет на выживание, задав вопрос в окне выживания. В окне выживания, отменить Сортировать по р-валь, а затем выбрать фактор 26 в меню выпадения одного фактора, чтобы показать кривые выживания для фактора 26. Прокрутите вниз график выживания, чтобы показать количество пациентов, подверженных риску вдоль оси x. Найдите ассоциации с биологической функцией, запросив в окне аннотации. В окне аннотации, чтобы сортировать меню выпадения фактора по факторному номеру, а не ложному коэффициенту обнаружения (FDR), отоверьте сорт FDR. Прокрутите и нажмите, чтобы выбрать фактор 26 в аннотации окна выпадения, чтобы показать аннотации обогащения для фактора. Прокрутите вниз список аннотации, пока ремонт ДНК не будет виден и нажмите на него, чтобы немедленно увидеть связанные гены, выделенные желтым цветом на дисплее графика. Смотрите среднюю панель рисунка 2. Обратите внимание, что факторы исчезают или появляются по мере того, как выбираются различные термины GO, независимо от того, обогащаются они для генов с выбранной аннотацией, например, «внутренний апоптотический сигнальный путь в ответ на повреждение ДНК». Изучите факторы дальше, добавляя окна с различной функциональностью. Из верхней панели меню добавьте окно сети взаимодействия белково-белкового белка (PPI), выбрав ИЦП из выпадения окна Add Window, а затем нажмите кнопку Добавить, чтобы добавить окно графика PPI в область дисплея. В окне графика PPI выберите фактор ‘Layer1: 26’, чтобы показать взаимодействия белка и белка. Обратите внимание на плотность соединений. Из верхней панели меню, вместо PPI, выберите Heatmap из выпадения окна Добавить, а затем нажмите кнопку Добавить, чтобы добавить окно тепловой карты в область дисплея. В окне тепловой карты выберите фактор ‘Layer1: 26’, чтобы показать модели экспрессии генов. Захватите и переоденьте окно тепловой карты так, чтобы окно выживания также было видно. Вдоль верхней части тепловой карты, наблюдать, как оранжевый / синий / серый цветной бар соответствует пациенту группы риска на графике выживания. Результаты показаны в нижней части рисунка 2. 2. Фильтрация и интерпретация факторов CorEx с использованием данных о весе, выживаемости и аннотации генов Фильтр для факторов, представляющих интерес, используя выживание и качество кластера. Из меню выпадения данных в верхней части, выберите TCGA-OVCA, чтобы перейти на страницу CorExplorer для TCGA рака яичников РНК-сек. После загрузки страницы из окна выживания обратите внимание, что коэффициент с наибольшим дифференциалом выживания для различных слоев составляет 114. В верхней части окна факторного графика выберите ‘Layer1: 114’ из выпадения фактора. Захватите слайдер веса ссылки с помощью мыши и переместите его до 0,5. Обратите внимание, что большое количество генов в факторе 114 (1609), при этом ни один из них не имеет веса, указывает на относительно слабую кластеризм. Затем расширьте список факторов в окне выживания и выберите следующий лучший фактор в выпадении окна выживания, фактор 39, чтобы показать связанные с ним кривые выживания. Выберите коэффициент 39 в окне аннотации, нажав на него. Показаны значительные аннотации GO и KEGG. Чтобы лучше понять биологическую роль генов в факторе 39, интерпретируйте факторы, используя информацию об аннотации соседства следующим образом. В верхней части окна факторного графика выберите коэффициент ‘Layer1: 39’ в снижении коэффициента. Затем переместите мышь по окну факторного графика и увеличьте, чтобы выявить весь кластер L2’14 с 6 факторами: 14, 32, 39, 42, 52 и 82 (показано на рисунке 3). Чтобы понять относительную значимость факторов, связанных с узлом L2-14, начните с просмотра дифференциалей выживаемости для каждого из факторов L2-14. Uncheck Сортировать по р-валь в окне выживания, а затем нажмите на каждый из факторов номера подряд. Делая это, обратите внимание, что только факторы 14, 32 и 39 отображения ассоциации выживания. Теперь из верхней панели меню, выберите PPI из добавить окно выпадения еще раз. Нажмите Добавить, чтобы добавить окно графика PPI в область дисплея. В окне графика PPI выберите фактор ‘Layer1: 52’, чтобы показать важные взаимодействия белка и белка. Пример макета окон на этой точке отображается на рисунке 3. Нажмите на ссылку StringDB в нижней части окна PPI, чтобы выйти на онлайн-базу данных StringDB. Нажмите Продолжить с первого экрана, а затем выберите вкладку Анализ ниже сетевого графика, как и раньше, чтобы получить онлайн-анализ GO для генов сети PPI. Верхний клеточный компонент – это белковый комплекс «MHC класса II». Вернитесь к вкладке CorExplorer и окну ИЦП и выберите фактор 32, на этот раз из-за снижения коэффициента. Нажмите на ссылку Просмотр на StringDB из анализа StringDB. Верхний клеточный компонент ‘MHC класс I белковый комплекс,’ в отличие от класса II для фактора 52 в предыдущем шаге! Наконец, вернитесь к окну ИЦП и выберите ‘Layer1: 39’ из меню выпадения факторов в верхней части. Нажмите на ссылку View на StringDB, чтобы выйти на анализ StringDB. Нажмите Продолжить с первого экрана, а затем выберите вкладку Анализ ниже сетевого графика, чтобы получить онлайн-анализ GO для генов сети PPI. Обратите внимание, что верхняя молекулярная функция “CXCR3 хемокин рецепторов связывания. 3. Использование аннотаций о выживании и базы данных для поиска перспективных терапевтических комбинаций Переключитесь на меланому TCGA CorExplorer, выбрав TCGA-SKCM из меню выпадения данных. Обратите внимание, что фактор с наибольшим дифференциалом выживаемости является фактором 171. Изучите фактор 171 аннотации путем прокрутки и обратите внимание, что “иммунный ответ” и “цитокин-опосредованный сигнальный путь” находятся в верхней части (как они были для верхней яичников фактор). Чтобы найти дополнительный фактор, изучите верхние факторы, связанные с выживанием, а также их верхние термины аннотации. Для этого нажмите на ссылку обзора набора данных в верхней панели меню, чтобы открыть отдельную вкладку, содержащую таблицу с деталями обработки наборов данных, а также резюме верхних факторов в соответствии с p-значением дифференциала выживания. Обратите внимание, что первый неиммунный фактор составляет 88. Вернуться к вкладке браузера TCGA-SKCM. Выберите коэффициент 88 в окнах выживания, аннотации и графика. Несколько верхних терминов GO связаны с «обработкой RRNA» и «организацией митохондриона», подтверждая его в отличие от факторов, связанных с иммунитетом. В окне выживания, на парных факторов падения, выберите ’88’171 ‘, чтобы увидеть, как выживание улучшается для пациентов в среднем слое для комбинированных 171 и 88 факторов выражения. Аннотация и сравнение выживания иллюстрируются на рисунке 4. 4. Поиск общих черт и различий вариации экспрессии генов по типам опухолей с помощью страницы поиска Нажмите на CorExplorer заголовок, чтобы вернуться на главную страницу. Нажмите на поиск в верхней панели меню, чтобы перейти на страницу, позволяющую искать все наборы данных на сайте CorExplorer. В поле поиска Гена введите ‘FLT1’ (VEGFR1) и нажмите Return или нажмите Search. FLT1 встречается с относительно высоким весом в следующих факторах: OVCA – 76, LUAD – 162, SKCM – 195 и SKCM – 184, а также COAD – 112 и COAD – 74. Кроме того, ищите соответствующий термин GO во всех наборах данных. Попробуйте это в поле “GO Search”, введя ‘ангиогенез’ и попав Возвращение или нажатие поиска. Все факторы FLT1, за исключением SKCM-195, перечислены как статистически обогащенные для генов -фактор ангиогенеза 195, на самом деле, имеют аннотацию, но ниже порога 10-8 по умолчанию. Результаты поиска для этого и предыдущего шага отображаются на рисунке 5. В качестве дальнейших примеров, в поле поиска GO, первый тип ‘эпидермального рецептора фактора роста. Только LUAD обогащается для этого термина, известный фактор стратификации для рака легких. Далее, введите ‘mesenchymal’ в поле поиска. Этот термин обогащается в группах экспрессии генов для OVCA, где это хорошо изученный фактор стратификации.

Representative Results

Поиск гена ‘BRCA1′ в наборе данных рака легких показывает, что он наиболее тесно связан с фактором CorEx 26 (Рисунок 2). GO срок обогащения для этого фактора считается чрезвычайно высоким, с репарации ДНК выставке FDR только 1 х 10-19. Выбор также обращает внимание на кластер второго уровня L2’8, который имеет шесть тесно связанных факторов, как дети. Выбор “ДНК ремонт” либо в GO срок аннотации или фактор графика GO обогащенных dropdown подчеркивает связанных генов в каждом из факторов, с фактором 26, имеющих на сегодняшний день большинство, как и ожидалось11. Сеть взаимодействия протеиново-протеинового взаимодействия сильно соединена, более добавочно поддерживая плотно соединенную функциональность генов в факторе 26. Связанный график выживания предполагает возможную связь с выживанием пациентов, но это должно быть подтверждено в более широком наборе данных. Начиная с выживания может позволить вскрытие причин для улучшения выживания, связанные с конкретными группами экспрессии генов. Например, главным фактором, влияющим на выживание рака яичников, считается номер 39, который сильно обогащен для генов, связанных с иммунной системой (Рисунок 3). Пять других факторов, связанных с тем же узлом 2 уровня, также указываются на иммунные связи, однако воздействие на выживание, как представляется, сильно изменчиво среди них, причем 39 из них являются самыми высокими, а 52 – самыми низкими. Добавление белка-белка взаимодействия окно для фактора показывает немедленное взаимодействие сети и позволяет ссылку на сайт StringDB12 для запроса различных обогащений для генов сети PPI. Делая это для каждого из факторов L2’14, в свою очередь, можно обнаружить, что обогащение StringDB для генов сети PPI предлагает следующее возможное объяснение ассоциаций с выживанием. Фактор 32 содержит гены, которые составляют основной комплекс гистосовместимости (MHC) класса I белковый комплекс, который признается цитотоксических Т-лимфоцитов. Фактор 39 соответствует цитокиновой сигнализации и связыванию рецепторов CXCR3, связанным с ЛИмфоцитами CD8’T. Оба этих фактора, как представляется, дают значительное преимущество выживания для пациентов, демонстрирующих относительно высокую экспрессию соответствующих генов. Цитотоксические ЛИмфоциты CD8’ T в первую очередь отвечают за противоопухолевый иммунитет. Фактор 52, с другой стороны, состоит из генов кодирования белков в комплексе класса MHC II, которые признаются в первую очередь CD4 “T клетки-помощники, а не непосредственно цитотоксических Т лимфоцитов. Остальные факторы L2-14 отражают обобщенную активацию иммунной системы, которая не дифференцирует два типа популяций лимфоцитов. Ассоциация выживания, специфичная для цитотоксического Т-лимфоцита распознавания MCH класса I клеточных антигенов согласуется с нашим пониманием противоопухолевого иммунитета в целом и от других видов рака, таких как меланома13,14. Веб-портал поддерживает открытие пар факторов с дополнительными функциями, которые могут предложить эффективные опухолевые комбинированные методы лечения. Обзор набора данных можно отсканировать на факторы, которые показывают корреляцию с выживанием, но имеют различные обогатительств GO. Для меланомы (ТКГАЗСКМ; Рисунок 4), видно, что верхний фактор выживания 171 является иммунной связи, в то время как фактор 88 вниз список показывает обогащение для генов, связанных с организацией митохондриона. Действительно, это было предложено в качестве мишени в меланоме15. Добавление окон выживания на страницу CorExplorer позволяет сравнить стратификации с помощью факторной пары к паре каждого фактора в отдельности, показывая, что благоприятные модели экспрессии генов из обеих групп демонстрируют тенденцию выживания лучше, чем для любого фактор в одиночку. Верхний слой, как представляется, не улучшается однако, предполагая, иммунотерапия только может быть лучшим вариантом для некоторых пациентов. Общие черты и различия между опухолями можно увидеть путем поиска через наборы данных для генов или GO терминов(рисунок 5). В качестве примера, FLT1 (ака VEGFR1) является хорошо изученным про-ангиогенный маркер16,17. Когда он ставится в панель поиска, все опухоли имеют факторы, в которых FLT1 играет важную роль. И наоборот, когда термин GO ‘ангиогенез’ ввода на странице поиска, 5 из 6 групп FLT1 появляются с этим обогащением. Все факторы FLT1, за исключением SKCM-195, перечислены как статистически обогащенные для генов «ангиогенеза». Шестой фактор, по сути, имеет аннотацию, но ниже порога по умолчанию 10-8. Когда взвешивание в списке факторов используется в альтернативном калькуляторе обогащения, например, Gene Set Enrichment Analysis (GSEA)18, шестой фактор оказывается значительно обогащенным для генов «ангиогенеза». Важно проверить тепловые карты, чтобы убедиться, что модель экспрессии генов имеет адекватное качество для поддержки биологических интерпретаций. Тепловые карты, которые показывают сильные четкие изменения могут проявлять либо скоординированное выражение генов фактора, начиная от низких до высоких или более сложных моделей с некоторыми генами, имеющими низкую экспрессию, коррелирующую с другими, имеющимивысокий (Рисунок 6). Ключевым маркером высококачественной группировки является наличие нескольких генов с плавной разноявлением экспрессии в качестве функции факторного балла. Фактор heatmaps показать образцы приказал в соответствии с фактором оценка, таким образом, не должно быть гладкой градиент движется слева направо. Тем не менее, это может не произойти, по крайней мере двумя различными способами. Чаще всего корреляции могут быть чрезвычайно шумными(рисунок 5C),ставя под сомнение надежность и полезность любых выводов относительно выживания и/или биологической функции. Кроме того, шаблоны, которые происходят только в небольшом меньшинстве образцов, могут не соответствовать модели трех состояний выражения, принятых алгоритмом CorEx, что приводит к вводящей в заблуждение классификации образцов (правая сторона рисунка 5D). Рисунок 1: CorExplorer титульная страница. После нажатия на кнопку «Рядом с раком яичников» под быстрыми ссылкамипоказаны детали факторного графика. Иерархическая модель CorEx состоит из входных переменных (экспрессия генов в данном случае) на нижнем слое и выводных скрытых факторов в более высоких слоях. Пожалуйста, нажмите здесь, чтобы просмотреть большую версию этой цифры. Рисунок 2: Использование имени гена для руководства разведкой. На рисунке показана серия скриншотов, иллюстрирующих исследование факторов рака легких CorEx, сильно связанных с BRCA1. Во-первых, выбор ‘BRCA1’ в поле для снижения числа факторов приводит к увеличению представления графика на фактор, для которого BRCA1 имеет наибольший вес. Масштабирование немного кадры слой два узла L2’8 подключения этого фактора к другим связанным с ними из них. Выживание и аннотации можно сравнить: нажав на GO срок репарации ДНК подчеркивает аннотированные гены. Добавлено окно PPI, чтобы показать сетевые взаимодействия генов в факторе. Использование кнопки Добавить окно, чтобы добавить тепловую карту показывает связь моделей выражения с выживанием, предполагая, что увеличение экспрессии генов репарации ДНК может быть связано с снижением выживаемости. Пожалуйста, нажмите здесь, чтобы просмотреть большую версию этой цифры. Рисунок 3: Использование клинических данных (выживание) для руководства разведкой. Изучение верхней выживаемости связанных фактор (39) для рака яичников показывает интересные отношения между соседними факторами. После выбора фактора 39 в графике фактора и масштабирования немного, слой два фактора, связанные с фактором 39, как представляется, пять других связанных факторов. Дополнительное окно выживания позволяет прямо едить связанные различия в выживаемости. Факторы 39 и 32 показывают положительную корреляцию выживания, в отличие от фактора 52, который этого не делает. Сети взаимодействия белково-белковых все четко определены. Связь с StringDB позволяет сравнивать аннотации GO (не показано): Фактор 39 связан с цитокинов сигнализации сети, связанные с цитотоксическимCD8 “T лимфоцитов активации и фактор 32 доминируют MHC класса I антиген представления белков, которые вызвать признание такими лимфоцитами; соседние факторы, однако, доминируют другие компоненты иммунной системы, такие как CD4 “помощник Т-клеток и не показывают корреляции выживания. Пожалуйста, нажмите здесь, чтобы просмотреть большую версию этой цифры. Рисунок 4: Изучение основных факторов выживания предполагает потенциальные терапевтические комбинации. Ссылка ‘Datasets’ в панели меню главной страницы приводит к краткой таблице факторов выживания, заказанных p-value, наряду с верхней аннотацией GO (не показана). Используя эту информацию для меланомы, сочетание фактора 171 для иммунной функции с фактором 88 для организации митохондриона кажется взаимодополняемым. На рисунке показаны окна аннотации для каждого из факторов, чтобы противопоставить их. Кривые выживания для пациентов, стратифицированных двумя факторами по отдельности или вместе, указывают на то, что комбинация увеличивает дифференциал выживаемости по сравнению с любым фактором в одиночку. Пожалуйста, нажмите здесь, чтобы просмотреть большую версию этой цифры. Рисунок 5: Страница поиска облегчает анализ рака. Гены или УСЛОВИЯ биологического процесса GO можно искать во всех наборах данных с помощью ссылки поиска с главной страницы. На рисунке показаны результаты поиска гена FLT1 и термина GO «ангиогенез». Результаты показывают наличие FLT1 в факторах, аннотированных с термином “ангиогенез” через рак. Пожалуйста, нажмите здесь, чтобы просмотреть большую версию этой цифры. Рисунок 6: Тепловые карты могут быть использованы для качественной оценки корреляций между генами и образцами в соответствии с коэффициентом. Высокое качество отношений экспрессии генов проявляется гладкой градации, когда пациенты приказал фактор оценка в тепловые карты. Leftmost heatmap для фактора 18 является одним из примеров. Шаблоны могут также включать сложные подписи выражения вверх и вниз, как в средней большой тепловой карте для фактора 11. Более низкие модели качества иногда показывают резкие изменения в выражении для подгруппы пациентов, как в факторе 9 тепловой карты справа или простой очень шумной корреляции, как в факторе 161 тепловой карты в правом нижнем правом. Пожалуйста, нажмите здесь, чтобы просмотреть большую версию этой цифры.

Discussion

Мы представили сайт CorExplorer, общедоступный веб-сервер для интерактивного исследования максимально коррелированных факторов экспрессии генов, извлеченных из опухолевых РНК-сек по алгоритму CorEx. Мы показали, как веб-сайт может быть использован для расслоения пациентов в соответствии с экспрессией генов опухоли, и как такое стратификация соответствует биологической функции и выживанию.

Были построены другие веб-серверы для анализа РНК-сек. Дифференциальный и коэкспрессиальный анализ опухолей может быть исследован и интегрирован с другими типами данных в cbioPortal19,20. Серверы GenePattern21, Mev22и Morpheus23включают в себя установленные методы кластеризации, такие как анализ основных компонентов (PCA), kmeans или самоорганизующиеся карты (SOM). Более инновационные усилия включают CamurWeb24, на основе автоматизированного классификатора, генерирующего правила, и TACCO25, который реализует случайные классификаторы лесов и lassos. Используемый здесь алгоритм CorEx оптимизирует многовариантную информацию, чтобы найти иерархию факторов, объясняющие закономерности в данных. Нелинейный и иерархический фактор обучения, как представляется, дают улучшенную интерпретацию по отношению к линейным глобальным факторам, найденным через PCA4. Кроме того, тонкозернистый анализ пробных сигналов метода позволяет точно сравнивать опухоли по сравнению с более часто используемыми широкими подтипами. Такое сочетание перекрывающегося и иерархического анализа факторов отличает CorExplorer от большинства других подходов и требует новых инструментов для визуализации и обобщения.

Важной частью анализа факторов CorExplorer является возможность исследовать не только несколько, но и более 100 факторов с информативными генными моделями, которые находятся в перекрывающейся иерархии. CorExplorer облегчает добычу этих множества факторов для биологических и клинических ассоциаций и позволяет исключительно подробную характеристику отдельных опухолей. Неконтролируемое изучение такого большого количества факторов означает, что не все будут иметь отношение к биологии болезней. В таком случае, важно либо использовать аннотации или известные гены, чтобы вытащить факторы интереса или поиск факторов, связанных с клиническими данными, такими как выживание. Таким образом, CorExplorer позволяет пользователям реализовать этот очень важный шаг фильтрации. Наличие факторных генных моделей в опухоли может даже предложить подход к персонализированному лечению онкологии. Кроме того, многообразие коэффициентов для каждой опухоли позволяет обнаружить потенциально полезные терапевтические комбинации.

Иногда бывает так, что не появляется никаких значительных аннотаций GO для факторов, сильно коррелированных с выживанием. Хотя это может произойти из-за шумных или под выборочными данными, есть и другие возможные причины, такие как размер кластера, который слишком мал, чтобы регистрировать значительные оценки обогащения или группа является «корзиной» отдельных генов из различных путей без согласованных биологических Ассоциации. Кроме того, может быть уместно йенотации, отличающиеся от биологического процесса KEGG и GO, например, клеточный отсек. К ним можно получить доступ, связавшись с StringDB, как показано в протоколе. Анализ обогащения генонологии на сайте CorExplorer в настоящее время не учитывает взвешивание гена в факторе, хотя это, вероятно, будет исправлено в ближайшем будущем. Обратите внимание, что опция списка генов доступна в рамках “Добавить окно”, что позволяет скачать полный список генов фактора для дальнейшего анализа с помощью внешних инструментов.

Для целей веб-сайта CorEx запускался на каждом из наборов данных пять раз, и запуск, который привел к наибольшему общему общему корреляции, был сохранен. Наличие статистического представления результатов нескольких запусков может быть более информативным и является целью будущей работы. Кроме того, набор типов опухолей, доступных на сервере, довольно мал, но мы ожидаем, что это будет расширяться с течением времени в зависимости от интереса пользователей.

Как указано выше, CorExplorer визуализирует CorEx РНК-сек фактор отношений наряду с клинической и базы данных информации, что позволяет целый ряд различных способов допроса. Мы надеемся, что этот инструмент приведет к дальнейшей работе по использованию силы анализа РНК-сек для открытия и клинического применения в онкологии.

Disclosures

The authors have nothing to disclose.

Acknowledgements

GV была поддержана наградой DARPA W911NF-16-0575.

Materials

Public server for CorExplorer website USC http://corex.isi.edu Intel Xeon E5-2690 4-core 2.6 GHz, 8GB RAM. Backend architecture is LAMP: Linux, Apache, MySQL, PHP.
Web browser Google/Apple Chrome/Safari Verified web browsers.

References

  1. Petryszak, R., et al. The RNASeq-er API-a gateway to systematically updated analysis of public RNA-seq data. Bioinformatics. 33, 2218-2220 (2017).
  2. Steeg, G. V., Galstyan, A. Maximally Informative Hierarchical Representations of High-Dimensional Data. Proceedings of the Eighteenth International Conference on Artificial Intelligence and Statistics (AISTATS). , (2015).
  3. Ver Steeg, G., Galstyan, A. Discovering structure in high-dimensional data through correlation explanation. Advances in Neural Information Processing Systems. , (2014).
  4. Pepke, S., Ver Steeg, G. Comprehensive discovery of subsample gene expression components by information explanation: therapeutic implications in cancer. BMC medical Genomics. 10, 12 (2017).
  5. Byron, S. A., Van Keuren-Jensen, K. R., Engelthaler, D. M., Carpten, J. D., Craig, D. W. Translating RNA sequencing into clinical diagnostics: opportunities and challenges. Nature Reviews Genetics. 17, 257 (2016).
  6. Cancer Genome Atlas Research Network. Comprehensive molecular profiling of lung adenocarcinoma. Nature. 511, 543 (2014).
  7. Cancer Genome Atlas Network. Comprehensive molecular characterization of human colon and rectal cancer. Nature. 487, 330 (2012).
  8. Akbani, R., et al. Genomic classification of cutaneous melanoma. Cell. 161, 1681-1696 (2015).
  9. Cancer Genome Atlas Research Network. Integrated genomic analyses of ovarian carcinoma. Nature. 474, 609 (2011).
  10. Grossman, R. L., et al. Toward a shared vision for cancer genomic data. New England Journal of Medicine. 375, 1109-1112 (2016).
  11. Moynahan, M. E., Chiu, J. W., Koller, B. H., Jasin, M. Brca1 controls homology-directed DNA repair. Molecular Cell. 4, 511-518 (1999).
  12. Szklarczyk, D., et al. STRING v11: protein–protein association networks with increased coverage, supporting functional discovery in genome-wide experimental datasets. Nucleic Acids Research. 47, 607-613 (2018).
  13. Durgeau, A., Virk, Y., Corgnac, S., Mami-Chouaib, F. Recent advances in targeting CD8 T-cell immunity for more effective cancer immunotherapy. Frontiers in Immunology. 9, 14 (2018).
  14. Sato, E., et al. Intraepithelial CD8+ tumor-infiltrating lymphocytes and a high CD8+/regulatory T cell ratio are associated with favorable prognosis in ovarian cancer. Proceedings of the National Academy of Sciences of the United States of America. 102, 18538-18543 (2005).
  15. De Moura, M. B., et al. Mitochondrial respiration-an important therapeutic target in melanoma. PLoS One. 7, 40690 (2012).
  16. Folkman, J., Merler, E., Abernathy, C., Williams, G. Isolation of a tumor factor responsible for angiogenesis. Journal of Experimental Medicine. 133, 275-288 (1971).
  17. Takahashi, S. Vascular endothelial growth factor (VEGF), VEGF receptors and their inhibitors for antiangiogenic tumor therapy. Biological and Pharmaceutical Bulletin. 34, 1785-1788 (2011).
  18. Subramanian, A., et al. Gene set enrichment analysis: a knowledge-based approach for interpreting genome-wide expression profiles. Proceedings of the National Academy of Sciences of the United States of America. 102, 15545-15550 (2005).
  19. Cerami, E., et al. The cBio Cancer Genomics Portal: An Open Platform for Exploring Multidimensional Cancer Genomics Data. Cancer Discovery. 2, 401-404 (2012).
  20. Gao, J., et al. Integrative Analysis of Complex Cancer Genomics and Clinical Profiles Using the cBioPortal. Science Signalling. 6, 1 (2013).
  21. Reich, M., et al. GenePattern 2.0. Nature Genetics. 38, 500 (2006).
  22. Wang, Y. E., Kutnetsov, L., Partensky, A., Farid, J., Quackenbush, J. WebMeV: A Cloud Platform for Analyzing and Visualizing Cancer Genomic Data. Cancer Research. 77, 11-14 (2017).
  23. . Morpheus Available from: https://software.broadinstitute.org/morpheus (2019)
  24. Weitschek, E., Lauro, S. D., Cappelli, E., Bertolazzi, P., Felici, G. CamurWeb: a classification software and a large knowledge base for gene expression data of cancer. BMC Bioinformatics. 19, 354 (2018).
  25. Chou, P. -. H., et al. tACCo, a Database Connecting transcriptome Alterations, pathway Alterations and Clinical outcomes in Cancers. Scientific Reports. 9, 3877 (2019).

Play Video

Cite This Article
Pepke, S., Nelson, W. M., Ver Steeg, G. Analyzing Tumor Gene Expression Factors with the CorExplorer Web Portal. J. Vis. Exp. (152), e60431, doi:10.3791/60431 (2019).

View Video