Summary

Поиск на основе Epigenomic данных, с помощью GeNemo

Published: October 08, 2017
doi:

Summary

В отличие от данных последовательности ДНК epigenomic данные не подвергаются легко текстовый поиск. Здесь представлены процедуры для использования обновленной версии GeNemo, биоинформатики, веб-инструмент, для проведения на основе шаблонов поиска для сходства в epigenomic данных, сравнение доступных онлайн баз данных, включая Энциклопедия элементов ДНК с данные пользователя.

Abstract

По сравнению с надежной текстовый поиск инструментов для геномной или РНК последовательности данных, текущей методологии на основе шаблонов поиска epigenomic и другие функциональные геномных данных весьма ограничены. GeNemo это первый инструмент онлайн поиск, который выполняет эту цель. Пользователи ввода их функциональной геномных данных в браузер расширяемый данных (кровать), пики и воротила форматов и может искать данные в любом из трех форматов. Пользователи могут указать какие типы наборов данных для поиска, выбирая из различных наборов данных онлайн, с энциклопедия из ДНК элементы (кодирования) представляющих различные epigenomic знаков, сайтов связывания транскрипционный анализ факторов и хроматина Гиперчувствительность или уровни доступности типов конкретных клеток и этапы развития или видов (мышь или человека). GeNemo возвращает список геномной регионов с подходящей модели для входных данных, которые могут быть в браузере, а также в формате файла кровати. Обновленный GeNemo улучшилось графическое отображение, имеет более мощный интерфейс и больше не подвержены ошибкам из-за изменений в университете Калифорнии, Санта-Крус (UCSC) генома браузер. Описаны действия по устранению неполадок для общих проблем. Поскольку количество функциональных геномных данных расширяется экспоненциально, есть острую необходимость развивать и совершенствовать новые инструменты bioinformatic например GeNemo для анализа данных и интерпретации.

Introduction

Последние технологические достижения позволили для быстрого расширения epigenomic или функциональных геномных данных депозитариев, которые опережают развитие соответствующих аналитических инструментов для извлечения биологических идеи. Одним из важных способов для анализа данных о epigenomic — для поиска пользователя генерируемые данные от хранилища данных и особенно из проектов1 Энциклопедия элементов ДНК (кодирования) для сопоставления шаблонов, которые могут привести к новым знаниям. Например выявление сходства в характере два разных epigenomic знаков на определенных локусов через генома может свидетельствовать о скоординированных действий различных молекулярных игроков на конформацию хроматина и регуляцию2 ,3,4.

Обычных текстовых поисковых систем являются неэффективными в этом потому, что, в отличие от последовательности ДНК, epigenomic данных существует преимущественно в формате интенсивности или функциональных геномной регионов. GeNemo, стоя для гена Nemo (как в поисках Немо), был разработан для удовлетворения этой неудовлетворенные потребности, используя шаблону поиска5. Алгоритм использует марковские цепи Монте-Карло максимизации процесс5. Пользователи принимают свои собственные данные, или набор данных, загруженных из депозитариев и поиск массив онлайн epigenomic данных для определения схожести в структуре.

Текущая версия GeNemo имеет обновленный дисплей, интерфейсы более надежно с в университете Калифорнии, Санта-Крус (UCSC) генома браузер6и менее подвержен проблем, вызванных изменениями в последнем. В частности в то время как GeNemo на странице результатов используется для быть основаны на интерфейсе браузера геноме UCSC, текущая версия GeNemo поддерживает свою собственную страницу результатов и следовательно больше не отрицательно влияют структурные изменения в браузере геноме UCSC. GeNemo можно использовать любой геномной сигнал, включая связывания белков, изменения гистона, доступность хроматина, топологических доменов и так далее, как запрос, чтобы найти colocalized/аналогичные сегменты среди известных наборов данных из крупных консорциумов. Таким образом он является важным инструментом для изучения взаимосвязи между различными epigenomic данных, представляющих интерес и известные данные, полученные в больших масштабах геномных проектов.

Protocol

Примечание: протокол может быть приостановлена нигде. 1. Базовая установка получить кровать, пики формат, или воротила 7 файл, содержащий данные для ввода в геноме. Файл должен иметь расширение имени " кровать ", " broadpeaks " " narrowpeaks ", или " воротила " соответственно. ​ Примечание: сжатые версии этих типов файлов также будут работать. Использовать Интернет-браузер для перехода к genemo.org. Любой операционной системы, способной работать наиболее распространенных Интернет-браузеры должны быть в состоянии пользоваться GeNemo. Выбрать какие виды поиска с помощью раскрывающегося меню. В настоящее время доступных видов включают человека и мыши,. Загрузить файл пользователя с помощью URL-адреса или прямой загрузки. Воротила файлы работают только с методом загрузки url. КРОВАТИ и вершины формат работы файлы с обоих методов (покачивание файлы могут быть загружены как основные данные по состоянию на сейчас). 2. Установки дополнительных предоставить адрес электронной почты в соответствующее поле для того, чтобы получить результаты поиска по электронной почте, когда поиск производится. ​ Примечание: при поиске большую часть генома и/или против большое количество треков (см. ниже), рекомендуется, что пользователь предоставляет его электронной почты, так как поиск может занять много времени. Например, поиск 100 megabase занимает около 15 s. Ссылка на результаты поиска будут отправлены на адрес электронной почты, когда завершения поиска. Связь истекает через 7 дней после завершения поиска. Предоставляют воротила файл или файл отображения покачиваться может быть от URL-адреса. Этот файл отображения не повлияет на результаты; Он только будет показан наряду с результаты. Задать диапазон поиска (в том числе положения хромосомы и пары) в соответствующее поле. Хромосомы, начать пары и список конец пары. Использования ' chrN ' для формата хромосомы, где ' N '-хромосома номер/буква (1, 2, … X или Y). Для пар оснований, просто введите цифры. Включают пробелы между все три записи, или использовать двоеточие (:) между число хромосом и пара первой базы и/или дефис между двумя парами базы. Например: chr1:1000000-2000000, chr1 1000000 2000000, chr1 1000000-2000000, chr1:1000000 2000000. Примечание: Шаги 2.1-2.3 являются необязательными. Рисунок 1 : GeNemo ' s первой странице с необходимыми областями, заполнили. Пользователю необходимо ввода видов, поиск файлов и диапазон поиска и выберите дорожки, которые он/она желает поиска против. Адрес электронной почты и вывода файла являются необязательными. пожалуйста, нажмите здесь, чтобы посмотреть большую версию этой фигуры. 3. Выбор данных Рисунок 2 : окно выбора трека. Это принесло, нажав " выбор данных " кнопка на первой странице. Здесь пользователи выбрать треки для поиска входного файла на соответствие. Некоторые треки уже выбранный по умолчанию пожалуйста, нажмите здесь, чтобы посмотреть большую версию этой фигуры. После нажатия кнопки выбора данных, выбрать, какие типы треков для поиска против (то есть, чтобы добавить в запрос). Трек коллекция включает в себя множество различных наборов данных от лабораторий по всему миру. Как довольно длинный список треков, пользователям может потребоваться использовать кнопку filter (на вершине) для облегчения выбора дорожки. Треки могут быть отфильтрованы по эксперимент, тканей, клеток линии или Lab. Есть пять кнопок на дно, чтобы помочь выполнить выбор трека: выбрать все, выберите None, исключить добавить, фильтр,. Выделить все " и " выделение " очевидны. " Установка " кнопка добавляет в настоящее время выбранных треков в запрос. Он служит ворота логики " или ". Обратите внимание, что выбор фильтров выше (например, определенные эксперименты, тканей, клеток линии или Labs) автоматически не добавляет соответствующие треков в поисковый запрос. Пользователи должны сначала выбрать треки (например, мозг, печень под ткани) и затем нажмите кнопку " добавить " кнопку для добавления их в запрос. При выборе треков, обратите внимание, что только фильтры, указанные в открывшейся вкладке в окне Фильтр будет применяться к поисковому запросу. Параметры на других вкладках будут сохранены в окне фильтра, но не применяется к поисковому запросу. " Фильтр " кнопку сохраняет только типы треков, выбранного в окне фильтра в запросе и удаляет все другие виды треков. Он служит логика ворота " и ". По сути " фильтр " позволяет выбор взаимодействия между двумя категориями треков (например, некоторых тканях с некоторых лабораториях). Обратите внимание, что " фильтр " не добавить выбранные типы треков в запрос, если они уже не в запросе. " Исключить " кнопка удаляет все типы треков, которые в настоящее время выбраны в окне фильтра из запроса. Он служит ворота логики " не ", в противовключении к " фильтр " функции. Опять же " исключить " не добавляет каких-либо следов, в настоящее время не выбран в окне Фильтр запроса. Рисунок 3 : окно фильтра . Это принесло, нажав " фильтр " кнопку в окне выбора дорожки. Здесь пользователи могут выбрать много треков в то же время, с относительной легкостью. пожалуйста, нажмите здесь, чтобы посмотреть большую версию этой фигуры. Рисунок 4 : как использовать функцию фильтра. пожалуйста, нажмите здесь, чтобы посмотреть большую версию этой фигуры. после добавления запроса нужные дорожки, нажмите кнопку " обновление " кнопку в правом нижнем углу. Это необходимо для того, чтобы вместить два способа выбора данных: выбор индивидуальных данных треков или фильтрация/исключая. " Сбросить вид " кнопка сбрасывает запроса по умолчанию треков, относящиеся к правилам выражение гена в эмбриональных стволовых клеток человека/мыши. Примечание: Выбор треков для поиска против через " выбор данных " является обязательным, но рекомендуется бытьПричина по умолчанию поиск треков, скорее всего, не подходит для пользователей ' потребности ф. 4. Поиск и результаты нажмите " Поиск " кнопку после выбора данных. Поиск может занять некоторое время. После завершения поиска, пользователи будут видеть различные поля на странице результатов. Каждое поле представляет раздел генома, где пользователь ' файл данных s имеет тесно шаблон с одним или более треков, запрос пользователя. , Если есть не видно, попробуйте коробки поиска больше типов треков или сделать больше с тем же файлом входной диапазон поиска. Простой способ сделать это без переделать все нажатия " ☰ " кнопку рядом с логотипом. Это откроет боковую панель, что позволяет пользователю изменять Поиск. Результаты могут быть экспортированы в виде файла кровати, нажав на " скачать файл кровать " кнопки в нижней части страницы результатов. Нажмите кнопку визуализировать на верхней части справа от каждого поля для визуализации результатов. Группа в визуализации на правой, несколько вещей отображаются, включая данные, который включает входной файл пользователя, файл отображения, если один был введен, соответствия треков, и отслеживает некоторые по умолчанию. От результатов пользователь может сравнить известные кодирования наборов данных против предоставленный набор данных для дальнейшего расследования. Пользователь может также относиться к UCSC гены, чтобы увидеть контексте результаты запроса. Если выбраны треки из нескольких линий клеток/тканей, пользователь может использовать такие результаты получить представление о специфике ткани сходства между данного набора данных и наборы данных кодирования. На результаты страницы, пользователь может перетащить на любой треков для перемещения вверх или вниз по течению генома; когда курсор мыши находится на координаты, пользователь может использовать колесо мыши и/или изменить масштаб изображения в и. Рисунок 5 : страница результатов. Этот особый поиск вернулся 363 соответствующих регионов. Отображение первого соответствия региона можно сделать, нажав " Показать " кнопка на нижней левой части каждого результирующего поля региона. В левой части окна можно увидеть, что два файла данных (ввода и выбранного трека) похожи на шаблон сила сигнала. пожалуйста, нажмите здесь, чтобы посмотреть большую версию этой фигуры.

Representative Results

Здесь показано на рисунке 5 это имитируемых Поиск. Человеческий род был выбран, и соответствующий файл образца был использован в качестве входных данных файла. Кроме того были отобраны треков по умолчанию, как показано на рисунке 3. Там были в общей сложности 363 соответствующих регионов, и первый регион показан на странице отображения. Можно увидеть, что интенсивность шаблон из базы 17036000 к 17038000 на хромосоме 1 для входного файла и один из выбранных треков очень похожи.

Discussion

Для достижения в полной мере потенциал человеческого генома в предоставлении новых биологических идеи8требуется глубокое понимание epigenome. В настоящее время есть только способы поиска наборов данных онлайн epigenomic их описание данных и название (например, метаданные)1. Это серьезно ограничивает типы поиска, которые можно сделать с epigenomic данными. Инструменты на основе шаблонов поиска для epigenomic данных необходимы для изучения взаимосвязи между различными epigenomic знаки, которые могут привести к новым биологические исследования. GeNemo, который ищет содержание данных и не метаданные, является служба первый в своем роде для сравнения моделей в epigenomic данные из опубликованных депозитариев, например базы данных кодирования с пользователя генерируемые или загрузить набор5. Это знаменует собой начало доступности epigenomic инструмент поиска, который широко доступна для исследователей по всему миру просто как инструмент поиска текстовые последовательности стали широко доступны в 1990-х. В настоящее время есть нет альтернативы на основе шаблонов онлайн поиск инструментов для epigenomic данных, отличных от GeNemo.

Одним из возможных примеров использования GeNemo является для поиска совместного появления изменения гистона и других эпигенетических меток с транскрипционный анализ фактора E2F6 в эмбриональных стволовых клеток человека (пример E2F6 файла привязки сигнал доступен на портале кодирования данных или HTTPS://sysbio.UCSD.edu/Public/xcao3/ENCODESample/ENCFF001UBC.Bed). Используя этот файл в качестве запроса для поиска против всех кодирования наборов данных в H1-Госкомсанэпиднадзором, GeNemo покажет, что H3K4me1, H3K4me2, H3K4me3 и H3K27me3, который соглашается с существующих исследований, показывающих, что E2F6 регулирует некоторые гены через сильно обогащенный E2F6 привязки сигнала Метилирование H3K279. С другой стороны как представляется, быть colocalization E2F6 и CtBP2 сайтов связывания, который известен взаимодействовать с фактором же семьи, E2F710. Эти результаты для всего генома против большое количество эпигенетических меток, транскрипционный анализ факторов привязки сигналов и других сигналов, включены в КОДИРОВАНИИ можно достаточно легко получить с GeNemo, который может обеспечить все потенциальные цели для дальнейшего анализа.

С момента первой публикации5 GeNemo как инструмент поиска данных веб-epigenomic иметь соответствующий внешний вид с GeNemo на первой странице был обновлен раздел результатов GeNemo. Старый раздел результаты тесно зеркальный раздел результаты браузера геноме UCSC и в значительной степени зависит от удаленного сервера UCSC для отображения. С новым интерфейсом GeNemo является более удобным для пользователей и больше не зависит от сервера геноме UCSC (хотя данные по-прежнему выбираются дистанционно). Это делает GeNemo более надежную и менее восприимчивы к проблемам из-за изменения кода на сервере UCSC. Кроме того новый, более быстрый полимер интерфейс GeNemo дает пользователю больше инструментов для визуализации и анализа закономерностей в данных.

Важнейшие шаги включают предоставление соответствующей входной файл и выбрав дорожки данных для поиска против. Пользователям настоятельно рекомендуется поэкспериментировать с различными трек выбор функции для ознакомления с процессом отбора и как различные команды могут быть объединены для достижения намеченных результатов. В частности, обратите внимание, что функцию «Добавить» для добавления нужных дорожек, выбранных для запроса, в то время как «Фильтр» или «Исключить» может использоваться как логика ворота команды требуется «И» и «Или», соответственно. Функцию «Обновление» требуется влияет на все параметры до выполнения поиска. Когда результаты не возвращаются, пользователь может проверить файл входных данных, поиск более треков или увеличить диапазон поиска. Всякий раз, когда есть ошибка, там будет окно хлопающ вверх определение, что такое точно ошибка. Есть некоторые неоднозначные ошибки, хотя. Например когда окно говорит, что «файл не был загружен», либо файл не был загружен, или загруженный файл не был приемлемого формата и, следовательно, программа не смог прочитать его правильно. Приемлемых форматов для загрузки файлов включают кровать и вершины файла форматирования для как методы загрузки и воротила онлайн ссылку Загрузить только. Сжатые версии этих файлов форматов также являются приемлемыми.

Текущие ограничения этого подхода включают в себя еще оптимизированных алгоритмов и функций, используемых в GeNemo. GeNemo еще не может предоставить никаких указаний о толковании любых наборов данных, которые возвращаются. Эта задача до пользователей, который требует значительных знаний и опыта в биологии генома и epigenome. Кроме того еще один ограничение тока является, что пользователи не могут изменить чувствительность и уровень шума поисков. Мы ожидаем продолжать совершенствовать и расширять GeNemo на его шаблон поиска возможностей и сбора данных в будущем.

Disclosures

The authors have nothing to disclose.

Acknowledgements

Эта работа была поддержана NIH грантов, включая DP1HD087990 от NICHD, R01HG008135 от NHGRI. Мы благодарим членов Чжун лаборатории для ценную обратную связь.

Автор взносы:
X.C. и A.T.Z. обновление GeNemo, разработав новый интерфейс и функции; A.T.Z. производства собственного образца видео; A.T.Z., X.C и с.з. написал бумагу.

Materials

GENEMO https://www.genemo.org Comparative Epigenome Browser

References

  1. The ENCODE Project Consortium. An integrated encyclopedia of DNA elements in the human genome. Nature. 489, 57-74 (2012).
  2. Barski, A., et al. High-Resolution Profiling of Histone Methylations in the Human Genome. Cell. 129 (4), 823-837 (2007).
  3. Meaney, M. J., Ferguson-Smith, A. C. Epigenetic regulation of the neural transcriptome: the meaning of the marks. Nature Neuroscience. 13, 1313-1318 (2010).
  4. Roh, T. -. Y., Cuddapah, S., Cui, K., Zhao, K. The genomic landscape of histone modifications in human T cells. PNAS. 103 (43), 15782-15787 (2006).
  5. Zhang, Y., Cao, X., Zhong, S. GeNemo: a search engine for web-based functional genomic data. Nucleic Acids Res. 44, W122-W127 (2016).
  6. Fujita, P. A., Rhead, B., Zweig, A. S., Hinrichs, A. S., Karolchik, D., Cline, M. S., Goldman, M., Barber, G. P., Clawson, H., Coelho, A., et al. The UCSC Genome Browser database: update 2011. Nucleic Acids Res. 39, 876-882 (2011).
  7. Neph, S., Vierstra, J., Stergachis, A. B., Reynolds, A. P., Haugen, E., Vernot, B., Thurman, R. E., John, S., Sandstrom, R., Johnson, A. K., et al. An expansive human regulatory lexicon encoded in transcription factor footprints. Nature. 489, 83-90 (2012).
  8. Sarda, S., Hannenhalli, S. Next-generation sequencing and epigenomics research: a hammer in search of nails. Genomics Inform. 12 (1), 2-11 (2014).
  9. Storre, J., et al. Silencing of the Meiotic Genes SMC1β and STAG3 in Somatic Cells by E2F6. J Biol Chem. 280, 41380-41386 (2005).
  10. Liu, B., Shats, I., Angus, S. P., Gatza, M. L., Nevins, J. R. Interaction of E2F7 Transcription Factor with E2F1 and C-terminal-binding Protein (CtBP) Provides a Mechanism for E2F7-dependent Transcription Repression. J Biol Chem. 288, 24581-24589 (2013).

Play Video

Cite This Article
Zheng, A., Cao, X., Zhong, S. Pattern-based Search of Epigenomic Data Using GeNemo. J. Vis. Exp. (128), e56136, doi:10.3791/56136 (2017).

View Video