В отличие от данных последовательности ДНК epigenomic данные не подвергаются легко текстовый поиск. Здесь представлены процедуры для использования обновленной версии GeNemo, биоинформатики, веб-инструмент, для проведения на основе шаблонов поиска для сходства в epigenomic данных, сравнение доступных онлайн баз данных, включая Энциклопедия элементов ДНК с данные пользователя.
По сравнению с надежной текстовый поиск инструментов для геномной или РНК последовательности данных, текущей методологии на основе шаблонов поиска epigenomic и другие функциональные геномных данных весьма ограничены. GeNemo это первый инструмент онлайн поиск, который выполняет эту цель. Пользователи ввода их функциональной геномных данных в браузер расширяемый данных (кровать), пики и воротила форматов и может искать данные в любом из трех форматов. Пользователи могут указать какие типы наборов данных для поиска, выбирая из различных наборов данных онлайн, с энциклопедия из ДНК элементы (кодирования) представляющих различные epigenomic знаков, сайтов связывания транскрипционный анализ факторов и хроматина Гиперчувствительность или уровни доступности типов конкретных клеток и этапы развития или видов (мышь или человека). GeNemo возвращает список геномной регионов с подходящей модели для входных данных, которые могут быть в браузере, а также в формате файла кровати. Обновленный GeNemo улучшилось графическое отображение, имеет более мощный интерфейс и больше не подвержены ошибкам из-за изменений в университете Калифорнии, Санта-Крус (UCSC) генома браузер. Описаны действия по устранению неполадок для общих проблем. Поскольку количество функциональных геномных данных расширяется экспоненциально, есть острую необходимость развивать и совершенствовать новые инструменты bioinformatic например GeNemo для анализа данных и интерпретации.
Последние технологические достижения позволили для быстрого расширения epigenomic или функциональных геномных данных депозитариев, которые опережают развитие соответствующих аналитических инструментов для извлечения биологических идеи. Одним из важных способов для анализа данных о epigenomic — для поиска пользователя генерируемые данные от хранилища данных и особенно из проектов1 Энциклопедия элементов ДНК (кодирования) для сопоставления шаблонов, которые могут привести к новым знаниям. Например выявление сходства в характере два разных epigenomic знаков на определенных локусов через генома может свидетельствовать о скоординированных действий различных молекулярных игроков на конформацию хроматина и регуляцию2 ,3,4.
Обычных текстовых поисковых систем являются неэффективными в этом потому, что, в отличие от последовательности ДНК, epigenomic данных существует преимущественно в формате интенсивности или функциональных геномной регионов. GeNemo, стоя для гена Nemo (как в поисках Немо), был разработан для удовлетворения этой неудовлетворенные потребности, используя шаблону поиска5. Алгоритм использует марковские цепи Монте-Карло максимизации процесс5. Пользователи принимают свои собственные данные, или набор данных, загруженных из депозитариев и поиск массив онлайн epigenomic данных для определения схожести в структуре.
Текущая версия GeNemo имеет обновленный дисплей, интерфейсы более надежно с в университете Калифорнии, Санта-Крус (UCSC) генома браузер6и менее подвержен проблем, вызванных изменениями в последнем. В частности в то время как GeNemo на странице результатов используется для быть основаны на интерфейсе браузера геноме UCSC, текущая версия GeNemo поддерживает свою собственную страницу результатов и следовательно больше не отрицательно влияют структурные изменения в браузере геноме UCSC. GeNemo можно использовать любой геномной сигнал, включая связывания белков, изменения гистона, доступность хроматина, топологических доменов и так далее, как запрос, чтобы найти colocalized/аналогичные сегменты среди известных наборов данных из крупных консорциумов. Таким образом он является важным инструментом для изучения взаимосвязи между различными epigenomic данных, представляющих интерес и известные данные, полученные в больших масштабах геномных проектов.
Для достижения в полной мере потенциал человеческого генома в предоставлении новых биологических идеи8требуется глубокое понимание epigenome. В настоящее время есть только способы поиска наборов данных онлайн epigenomic их описание данных и название (например, метаданные)1. Это серьезно ограничивает типы поиска, которые можно сделать с epigenomic данными. Инструменты на основе шаблонов поиска для epigenomic данных необходимы для изучения взаимосвязи между различными epigenomic знаки, которые могут привести к новым биологические исследования. GeNemo, который ищет содержание данных и не метаданные, является служба первый в своем роде для сравнения моделей в epigenomic данные из опубликованных депозитариев, например базы данных кодирования с пользователя генерируемые или загрузить набор5. Это знаменует собой начало доступности epigenomic инструмент поиска, который широко доступна для исследователей по всему миру просто как инструмент поиска текстовые последовательности стали широко доступны в 1990-х. В настоящее время есть нет альтернативы на основе шаблонов онлайн поиск инструментов для epigenomic данных, отличных от GeNemo.
Одним из возможных примеров использования GeNemo является для поиска совместного появления изменения гистона и других эпигенетических меток с транскрипционный анализ фактора E2F6 в эмбриональных стволовых клеток человека (пример E2F6 файла привязки сигнал доступен на портале кодирования данных или HTTPS://sysbio.UCSD.edu/Public/xcao3/ENCODESample/ENCFF001UBC.Bed). Используя этот файл в качестве запроса для поиска против всех кодирования наборов данных в H1-Госкомсанэпиднадзором, GeNemo покажет, что H3K4me1, H3K4me2, H3K4me3 и H3K27me3, который соглашается с существующих исследований, показывающих, что E2F6 регулирует некоторые гены через сильно обогащенный E2F6 привязки сигнала Метилирование H3K279. С другой стороны как представляется, быть colocalization E2F6 и CtBP2 сайтов связывания, который известен взаимодействовать с фактором же семьи, E2F710. Эти результаты для всего генома против большое количество эпигенетических меток, транскрипционный анализ факторов привязки сигналов и других сигналов, включены в КОДИРОВАНИИ можно достаточно легко получить с GeNemo, который может обеспечить все потенциальные цели для дальнейшего анализа.
С момента первой публикации5 GeNemo как инструмент поиска данных веб-epigenomic иметь соответствующий внешний вид с GeNemo на первой странице был обновлен раздел результатов GeNemo. Старый раздел результаты тесно зеркальный раздел результаты браузера геноме UCSC и в значительной степени зависит от удаленного сервера UCSC для отображения. С новым интерфейсом GeNemo является более удобным для пользователей и больше не зависит от сервера геноме UCSC (хотя данные по-прежнему выбираются дистанционно). Это делает GeNemo более надежную и менее восприимчивы к проблемам из-за изменения кода на сервере UCSC. Кроме того новый, более быстрый полимер интерфейс GeNemo дает пользователю больше инструментов для визуализации и анализа закономерностей в данных.
Важнейшие шаги включают предоставление соответствующей входной файл и выбрав дорожки данных для поиска против. Пользователям настоятельно рекомендуется поэкспериментировать с различными трек выбор функции для ознакомления с процессом отбора и как различные команды могут быть объединены для достижения намеченных результатов. В частности, обратите внимание, что функцию «Добавить» для добавления нужных дорожек, выбранных для запроса, в то время как «Фильтр» или «Исключить» может использоваться как логика ворота команды требуется «И» и «Или», соответственно. Функцию «Обновление» требуется влияет на все параметры до выполнения поиска. Когда результаты не возвращаются, пользователь может проверить файл входных данных, поиск более треков или увеличить диапазон поиска. Всякий раз, когда есть ошибка, там будет окно хлопающ вверх определение, что такое точно ошибка. Есть некоторые неоднозначные ошибки, хотя. Например когда окно говорит, что «файл не был загружен», либо файл не был загружен, или загруженный файл не был приемлемого формата и, следовательно, программа не смог прочитать его правильно. Приемлемых форматов для загрузки файлов включают кровать и вершины файла форматирования для как методы загрузки и воротила онлайн ссылку Загрузить только. Сжатые версии этих файлов форматов также являются приемлемыми.
Текущие ограничения этого подхода включают в себя еще оптимизированных алгоритмов и функций, используемых в GeNemo. GeNemo еще не может предоставить никаких указаний о толковании любых наборов данных, которые возвращаются. Эта задача до пользователей, который требует значительных знаний и опыта в биологии генома и epigenome. Кроме того еще один ограничение тока является, что пользователи не могут изменить чувствительность и уровень шума поисков. Мы ожидаем продолжать совершенствовать и расширять GeNemo на его шаблон поиска возможностей и сбора данных в будущем.
The authors have nothing to disclose.
Эта работа была поддержана NIH грантов, включая DP1HD087990 от NICHD, R01HG008135 от NHGRI. Мы благодарим членов Чжун лаборатории для ценную обратную связь.
Автор взносы:
X.C. и A.T.Z. обновление GeNemo, разработав новый интерфейс и функции; A.T.Z. производства собственного образца видео; A.T.Z., X.C и с.з. написал бумагу.