Summary

Использование СФЕРА для выявления потенциальных регулирования мотивы в Coregulated Гены

Published: May 31, 2011
doi:

Summary

Прямой и надежный метод для выявления потенциальных нормативных мотивы совместно регулируемых генов представлена. СФЕРА не требует каких-либо параметров пользователя и возвращает мотивы, которые представляют собой превосходные кандидаты для регуляторных сигналов. Выявление таких регуляторных сигналов помогает понять основные биологии.

Abstract

SCOPE is an ensemble motif finder that uses three component algorithms in parallel to identify potential regulatory motifs by over-representation and motif position preference1. Each component algorithm is optimized to find a different kind of motif. By taking the best of these three approaches, SCOPE performs better than any single algorithm, even in the presence of noisy data1. In this article, we utilize a web version of SCOPE2 to examine genes that are involved in telomere maintenance. SCOPE has been incorporated into at least two other motif finding programs3,4 and has been used in other studies5-8.

The three algorithms that comprise SCOPE are BEAM9, which finds non-degenerate motifs (ACCGGT), PRISM10, which finds degenerate motifs (ASCGWT), and SPACER11, which finds longer bipartite motifs (ACCnnnnnnnnGGT). These three algorithms have been optimized to find their corresponding type of motif. Together, they allow SCOPE to perform extremely well.

Once a gene set has been analyzed and candidate motifs identified, SCOPE can look for other genes that contain the motif which, when added to the original set, will improve the motif score. This can occur through over-representation or motif position preference. Working with partial gene sets that have biologically verified transcription factor binding sites, SCOPE was able to identify most of the rest of the genes also regulated by the given transcription factor.

Output from SCOPE shows candidate motifs, their significance, and other information both as a table and as a graphical motif map. FAQs and video tutorials are available at the SCOPE web site which also includes a “Sample Search” button that allows the user to perform a trial run.

Scope has a very friendly user interface that enables novice users to access the algorithm’s full power without having to become an expert in the bioinformatics of motif finding. As input, SCOPE can take a list of genes, or FASTA sequences. These can be entered in browser text fields, or read from a file. The output from SCOPE contains a list of all identified motifs with their scores, number of occurrences, fraction of genes containing the motif, and the algorithm used to identify the motif. For each motif, result details include a consensus representation of the motif, a sequence logo, a position weight matrix, and a list of instances for every motif occurrence (with exact positions and “strand” indicated). Results are returned in a browser window and also optionally by email. Previous papers describe the SCOPE algorithms in detail1,2,9-11.

Protocol

<p class="jove_title"> 1. Подготовьте список имен для генов, которые вы считаете, являются со-регулируемые для анализа SCOPE.</p><p class="jove_content"> Сохранить список в виде текстового файла или скопировать его в буфер обмена, чтобы вставить в область в шаге 3. Файл должен содержать один ген имени в строке без дополнительной информации. Кроме того, вы можете подготовить список в виде файла FASTA содержащие фактические последовательности для анализа.</p><p class="jove_title"> 2. Начните свой веб-браузер и подключение к URL:<a href="http://genie.dartmouth.edu/SCOPE/"> Http://genie.dartmouth.edu/SCOPE/</a</p><p class="jove_title"> 3. Введите информацию, которая СФЕРА необходимо выполнить анализ.</p><p class="jove_content"> Начальная страница СФЕРА показано на рисунке 1. Различные разделы адресованы в этом шаге.</p><ol><li> С помощью всплывающего меню "Вид", чтобы выбрать вид вам будет рассматривать. Важно выбрать правильный вид, потому СФЕРА относится к генома для расчета фоновых частот появления за любого кандидата мотив его изучает.</li><li> Использовать "вверх по течению последовательности" переключателей выбрать либо межгенных или фиксированной длины. Межгенных проанализирует все последовательности между гена вы смотрите на и предыдущий (вверх по течению) гена. Это будет означать, что различные длины вверх будут использоваться для каждого гена. Выбор фиксированной длины будет выглядеть точно, что число нуклеотидов, вверх по течению от начала текущего гена. В этом случае, СФЕРА рассмотрим ту же длину предшествующих последовательность для каждого гена, даже если это продолжается в предыдущие ген (или нет). Как правило, 800 НТС является лучшим длина на выбор, но это может меняться в зависимости от вида.</li><li> Далее сказать СФЕРА, что ген набор для анализа либо путем вставки в геном список в текстовом поле списка генов, или, нажав на кнопку "выбрать файл", чтобы выбрать файл, содержащий список генов, которые вы создали ранее. Вы можете, как вариант, вставьте в файл FASTA последовательности в одном текстовом поле.</li><li> В следующем разделе страница содержит флажок "Изучение генома для других генов, содержащих найден мотив (ы)? Эта опция может добавить немало времени анализа, так как СФЕРА должен оценить каждый второй ген в геноме. Однако, это может быть очень полезным в выявлении других генов, которые являются хорошими кандидатами на совместное с регулируемых генов в геном начиная множество. С СФЕРА анализы относительно быстрый, предполагается, что вы оставите эту опцию в вашем первоначального анализа. Он всегда может быть включен на странице результатов повторного анализа, как описано в разделе результатов.</li><li> 'Результаты должны включать' секция может быть использована для ввода мотив, который вы хотите СФЕРА включить в свой анализ. Возможно, вы захотите сделать это, если Вы ищете конкретный мотив.</li><li> В последнем разделе на странице может быть использована для ввода адреса электронной почты и комментарий, чтобы спастись с анализом. Если это заполнены, СФЕРА будет отправить письмо с ссылкой на веб-страницу, содержащую результаты, и он также будет включать в себя два вложения. Одним из них является обычный текстовый файл, который имеет все результаты анализа в удобном для человека формате. Второе вложение содержит XML-файл, который имеет каждый результат, который СФЕРА нашел в машиночитаемой форме. Если вы хотите, чтобы сделать некоторые дополнительные анализ результатов, файл XML является очень полезным. Оба файла "молнии" перед отправкой с электронной почтой.</li><li> Для этой демонстрации, мы начнем с той же информации. Это может быть легко достигнута, нажав 'Тест Поиск "кнопку, которая будет заполнить необходимую информацию. Нажмите на эту кнопку сейчас. Три гены будут введены для вас и соответствующие выборы, сделанные для других областей. Оставьте эти так как они установлены. Трех генов, которые участвуют в теломер содержание в<em> Saccharomyces CEREVISIAE</em>. Заполненную анкету показано на рисунке 2. Нажмите кнопку "Выполнить СФЕРА" в нижней части страницы, чтобы начать анализ.</li></ol><p class="jove_title"> 4. Представитель Результаты:</p><p class="jove_content"> Основные результаты анализа представлены на рисунке 3. В верхней части страницы содержит таблицу с информацией о мотивах, которые были найдены по области. Первый столбец содержит список мотивов, которые были найдены и малых разноцветных квадратиков служить легенда для графической карты мотив показано ниже. Отображение любой мотив может быть включается и выключается нажатием на цветные окна (или где цветная коробка будет). Это может быть очень полезно, чтобы скрыть отображение высоко повторяющихся мотивов, которые могли бы сделать это трудно понять, менее распространены модели мотив.</p><p class="jove_content"> Другие колонки данные Count (количество вхождений, что мотив во всей генной набор), Sig значение (указание на значение этого мотива), Охват (процент представленных генов, которые содержат хотя бы один экземпляр что мотив), и алгоритм (какой из трех алгоритмов компонент используется для обнаружения мотив).</p><p class="jove_content"> При нажатии на любой из перечисленных мотивов займет пользователя на страницу, содержащую подробную информацию о том, что мотивом. Результаты подробно показаны для мотива голубой (atgnnnnttg) на рисунке 4. На этой странице мотив представлен тремя способами: последовательность логотип, матрица позиции вес, и список всех случаях мотив с их позиций, прядей и гены.</p><p class="jove_content"> Немного дальше вниз по странице приведены некоторые дополнительные сведения о результатах искать другие гены, содержащие этот мотив. Как видно, в данном случае было 1344 других генов, содержащих мотив, все из которых даже улучшило его значение Sig при добавлении в исходный набор генов. Нажатие на "Добавить проверили гены для поиска" вернется на странице установки СФЕРА с этими генами добавлены в исходный набор генов и параметры, установленные, как они были ранее. В этом случае, 10 дополнительных генов добавляются к первоначальному три.</p><p class="jove_content"> На рисунке 5 представлены результаты анализа содержащих дополнительные гены для этого мотива. Оригинальные три гена находятся на нижней части результатов (в нижнем регистре). Глядя на картину мотивов в верховьях области этих дополнительных генов ясно показывает, что они похожи. На самом деле, многие из этих генов участвуют в обслуживании, как теломеры были оригинальные трех генов. Отметим также, что первоначальный мотив в настоящее время самым результативным мотив в этом наборе.</p><p class="jove_content"> Еще один набор СФЕРА результаты показано на рисунке 6. В этом случае набор генов являются те, которые участвуют в рибосомы биогенеза в CEREVISIAE Saccharomyces. Эти гены не являются на самом деле часть рибосомы, но отвечают за сборку рибосом и включают в себя ряд модификация ферментов. То, что ясно из рисунка является то, что красные и зеленые мотивы образуют надежную модель, которая, скорее всего, участвует в регуляции генов в этом наборе. Мы исследуем этот образец "модулей" более подробно и сообщит об этом в более поздней публикации.</p><p class="jove_content"<img src="/files/ftp_upload/2703/2703fig1.jpg" alt="Figure 1"><strong> Рисунок 1</strong>. Главная вход SCOPE. Эта страница используется для ввода генов, которые будут проанализированы и определить виды и длина области вверх по течению на экспертизу. При желании пользователь может запросить результаты по электронной почте или ограничить поиск какой-либо указанному мотиву. Видео помощь также доступна.</p><p class="jove_content"<img src="/files/ftp_upload/2703/2703fig2.jpg" alt="Figure 2"><strong> Рисунок 2</strong>. Главная вход СФЕРА со значениями заполнены для выполнения поиска. Эти параметры являются результатом нажав на кнопку 'Пример поиска ". В этом случае флажок, чтобы найти других генов, содержащих мотивы найдены СФЕРА проверяется. Этот вариант требует больше времени, чтобы вычислить (каждый ген в геноме должно быть рассмотрено), но может дать интересные результаты.</p><p class="jove_content"<img src="/files/ftp_upload/2703/2703fig3.jpg" alt="Figure 3"><strong> Рисунок 3</strong>. Основная сфера странице результатов. Эта страница суммирует результаты СФЕРА поиска. Список всех высоких мотивов забив обеспечивается и цветом мотив карте показано расположение определили мотивы в набор генов проанализированы. Нажав на цветной флажок рядом с мотивом будет включать и отключать отображение, что мотив или отключить в мотив карте. В дополнение к значимость балл (Sig значение), доля генов, содержащих мотив (охват), а алгоритм, используемый, чтобы найти, что мотив также предоставляются.</p><p class="jove_content"<img src="/files/ftp_upload/2703/2703fig4_1.jpg" alt="Figure 4 top"><img src="/files/ftp_upload/2703/2703fig4_2.jpg" alt="Figure 4 bottom"> Рисунок 4</strong>. На этой странице результатов подробно воспитывается, когда конкретный мотив нажатии на главной странице результатов. Здесь содержится детальная информация отдельные мотивы. Последовательность логотип, матрица позиции вес, и консенсусной последовательности каждого представляют различные виды резюме список мотив случаях и на странице. Так как "найти дополнительные гены» было проверено в первоначальной установки поиска, есть также информация на этой странице, о каких-либо других генов в геноме, которые содержат этот мотив. С этой страницы можно также запустить другой СФЕРА работать в том числе дополнительных генов, выявленных на этой странице.</p><p class="jove_content"<img src="/files/ftp_upload/2703/2703fig5.jpg" alt="Figure 5"> Рисунок 5</strong>. На этом рисунке показаны результаты ищет дополнительные гены для «atgnnnnttg" мотив показано на рисунке 4. Оригинальные три гена находятся в нижнем регистре в нижней части мотива карте. Дополнительных генов показаны в верхнем регистре. Существует четкая картина, чтобы мотивы в регионах выше по течению этих генов. Отметим также, что указанный мотив показывает алгоритм, как "ПРОСМОТР", потому что то, как это было определено. Это фактически соответствует 5<sup> Й</sup> Мотив найден SPACER в этом анализе.</p><p class="jove_content"<img src="/files/ftp_upload/2703/2703fig6.jpg" alt="Figure 6"> На рисунке 6</strong>. СФЕРА выход для генов, участвующих в рибосомы биогенеза в CEREVISIAE Saccharomyces. Обратите внимание, сохраняется структура модулей, состоящих из мотивов "aaawtttbh '(красный) и' abctcatcd '(зеленый), разделенных примерно на 10-30 НТС и представить на 100-200 нуклеотидов вверх по течению от старта транскрипции для генов.</p>

Discussion

СФЕРА предоставляет исследователю мощный инструмент, используемый для идентификации потенциальных нормативных мотивы в наборах согласованно регулируемых генов. Пользователь не обязан догадываться о размере мотив или количество вхождений мотив как и многие другие мотив поиска сайтов требует. Эти параметры в основном непознаваем до мотив выявлено. Интерфейс программы очень простой, как для ввода последовательности или гена имена и для просмотра продукции.

СФЕРА выход предоставляет подробную информацию обо всех мотивов, которые определены, используя три различных способа мотива представления. Каждый экземпляр мотив во всех генов в списке с позиции и "нить" информации. Графический результаты в виде мотива карты обеспечивают визуальное отображение, что легко понять, и предоставляет интуитивно понятный способ увидеть закономерности в мотивах, которые присутствуют.

СФЕРА очень устойчивы к присутствии шума в данных. Как правило, это осуществляется в форме дополнительных генов, присутствующих в стартовый набор, который не может быть фактически совместно регулируется с остальными генами. Это часто происходит, когда, начиная с генами, которые являются со-выражается в микрочипов экспериментов. Иногда эксперимент шумно, или их может быть несколько факторов транскрипции активируется в экспериментальных условиях использовали для эксперимента микрочипов. Эти различные транскрипционные факторы, скорее всего, имеют различные сайты мишени на ДНК. Даже в присутствии 4-кратный посторонних генов (шума: сигнал соотношение 4:1), СФЕРА-прежнему сохраняет 50% своей точности в предсказании сайты 1.

Хотя СФЕРА содержит более 2 миллионов синонимы названий генов, она иногда не в состоянии идентифицировать некоторые гены имена. Мы постоянно обновляем наши списки синонимов, но иногда находят, что различные синонимы относятся к одному гену. В этих случаях, мы не включаем синонимы из-за двусмысленности. если у вас есть ген имя, не найдено СФЕРА ПРИМЕНЕНИЯ, рекомендуется, чтобы вы ссылаетесь на геном конкретного сайта, чтобы найти альтернативное имя ген использовать по своему масштабу. Примеры соответствующих названий генов для каждого вида предоставляются SCOPE.

СФЕРА в настоящее время содержит 72 видов, новых видов добавляются все время. Веб-сайт содержит видео помощи, а также часто задаваемые вопросы. Исходный код находится в свободном доступе для академических пользователей, написав по адресу RHG.

Divulgaciones

The authors have nothing to disclose.

Acknowledgements

Это исследование было поддержано грантом для RHG от Национального научного фонда, DBI-0445967.

Referencias

  1. Chakravarty, A., Carlson, J. M., Khetani, R. S., Gross, R. H. A novel ensemble learning method for de novo computational identification of DNA binding sites. BMC Bioinformatics. 8, 249-249 (2007).
  2. Carlson, J. M., Chakravarty, A., DeZiel, C. E., Gross, R. H. SCOPE: a web server for practical de novo motif discovery. Nucleic Acids Res. 35, 259-264 (2007).
  3. Blom, E. J., Roerdink, J. B., Kuipers, O. P., Hijum, S. A. v. a. n. MOTIFATOR: detection and characterization of regulatory motifs using prokaryote transcriptome data. Bioinformatics. 25, 550-551 (2009).
  4. Blom, E. J. DISCLOSE : DISsection of CLusters Obtained by SEries of transcriptome data using functional annotations and putative transcription factor binding sites. BMC Bioinformatics. 9, 535-535 (2008).
  5. Bushey, A. M., Ramos, E., Corces, V. G. Three subclasses of a Drosophila insulator show distinct and cell type-specific genomic distributions. Genes Dev. 23, 1338-1350 (2009).
  6. Znaidi, S. Identification of the Candida albicans Cap1p regulon. Eukaryot Cell. 8, 806-820 (2009).
  7. Sharma, D., Mohanty, D., Surolia, A. RegAnalyst: a web interface for the analysis of regulatory motifs, networks and pathways. Nucleic Acids Res. 37, W193-W201 (2009).
  8. Znaidi, S. Genomewide location analysis of Candida albicans Upc2p, a regulator of sterol metabolism and azole drug resistance. Eukaryot Cell. 7, 836-847 (2008).
  9. Carlson, J., Chakravarty, A., Gross, R. B. E. A. M. A beam search algorithm for the identification of cis-regulatory elements in groups of genes. J Comput Biol. 13, 686-701 (2006).
  10. Carlson, J., Chakravarty, A., Khetani, R., Gross, R. Bounded search for de novo identification of degenerate cis-regulatory elements. BMC Bioinformatics. 7, 254-254 (2006).
  11. Chakravarty, A., Carlson, J. M., Khetani, R. S., DeZiel, C. E., Gross, R. H. SPACER: identification of cis-regulatory elements with non-contiguous critical residues. Bioinformatics. 23, 1029-1031 (2007).

Play Video

Citar este artículo
Martyanov, V., Gross, R. H. Using SCOPE to Identify Potential Regulatory Motifs in Coregulated Genes. J. Vis. Exp. (51), e2703, doi:10.3791/2703 (2011).

View Video