Summary

Coregulated遺伝子の潜在的な規制モチーフを特定するためにスコープの使用

Published: May 31, 2011
doi:

Summary

共同調節遺伝子の潜在的な規制のモチーフを識別するために、単純明快かつ堅牢な方法が提示される。 SCOPEは、規制信号のための優れた候補者を表す任意のユーザのパラメータとリターンのモチーフを必要としません。そのような調節シグナルの同定には、基礎生物学を理解するのに役立ちます。

Abstract

SCOPEは、過剰表現とモチーフの位置の設定1で潜在的な規制のモチーフを識別するために、並列で3つのコンポーネントのアルゴリズムを使用してアンサンブルのモチーフのファインダーです。各コンポーネントのアルゴリズムは、モチーフの異なる種類を見つけるために最適化されています。これら3つのアプローチのベストを取ることにより、SCOPEは、ノイズの多いデータ1の存在下で、任意の単一のアルゴリズムよりもパフォーマンスが良くなります。この記事では、テロメアの維持に関与する遺伝子を調べるためにスコープ2のWeb版を利用する。 SCOPEは、プログラム3,4を見つける少なくとも2つの他のモチーフに組み込まれており、他の研究5-8で使用されています。

SCOPEを構成する3つのアルゴリズムは、モチーフ(ASCGWT)、及び(ACCnnnnnnnnGGT)長い二部のモチーフを見つけるとスペーサ11を 、縮退が見つかる非退化モチーフ(ACCGGTを)見つけたビーム9、、プリズム10、です。これらの3つのアルゴリズムは、モチーフのそれらに対応するタイプを見つけるために最適化されています。一緒に、彼らは、SCOPEは非常によく実行することができます。

遺伝子セットを分析し、候補のモチーフが特定されたら、SCOPEは、元のセットに追加すると、モチーフのスコアを向上させる、モチーフを含む他の遺伝子を探すことができます。これは過剰表現やモチーフの位置の設定によって発生する可能性があります。生物学的に転写因子結合部位を確認してから部分的な遺伝子セットでの作業、SCOPEはまた、特定の転写因子によって制御される遺伝子の残りの大部分を識別することができた。

SCOPEからの出力は、候補をモチーフに、その意義、そしてテーブルのような、グラフィカルなモチーフのマップとしても他の情報を示しています。よくある質問とビデオチュートリアルは、ユーザが試運転を実行できるようにする"サンプルの検索"ボタンを含むスコープのウェブサイトで入手できます。

範囲は、初心者ユーザーがモチーフの発見のバイオインフォマティクスの専門家になることなく、アルゴリズムの完全な電源へのアクセスを可能にする非常に友好的なユーザインタフェースを持っています。入力として、SCOPEは、遺伝子、またはFASTAシーケンスのリストを取ることができます。これらは、ブラウザのテキストフ​​ィールドに入力、またはファイルから読み取ることができます。スコープからの出力は、そのスコア、出現回数、モチーフを含む遺伝子の割合で、モチーフを識別するために使用されるアルゴリズムと特定されたすべてのモチーフのリストが含まれています。それぞれのモチーフの場合、結果の詳細は、モチーフのコンセンサスの表現、シーケンスのロゴ、位置の重み行列、およびすべてのモチーフの発生のためのインスタンスのリストを(正確な位置と示されている"鎖"を持つ)が含まれます。結果がブラウザウィンドウにし、また必要に応じて電子メールで返送されています。以前の論文では詳細1,2,9-11のSCOPEのアルゴリズムを説明します。

Protocol

<p class="jove_title"> 1。あなたがSCOPEによる分析のために共同で規制されていると信じて遺伝子の名前のリストを準備します。</p><p class="jove_content">テキストフ​​ァイルとしてリストを保存するか、ステップ3でSCOPEに貼り付けるクリップボードにコピーします。ファイルには追加情報なしで1行に1つの遺伝子の名前が含まれている必要があります。あるいは、分析する実際の配列を含むFASTAファイルとしてリストを準備することができます。</p><p class="jove_title"> 2。 Webブラウザを起動し、URLに接続します。<a href="http://genie.dartmouth.edu/SCOPE/"> http://genie.dartmouth.edu/SCOPE/</a</p><p class="jove_title"> 3。 SCOPEは、分析を実行するために必要な情報を入力します。</p><p class="jove_content">最初のSCOPEのページを図1に示されています。別のセクションは、この段階で対処されています。</p><ol><li>あなたが調べれる種を選択するには"種"ポップアップメニューを使用してください。 SCOPEは、それは検査している任意の候補のモチーフについては発生の背景の周波数を計算するためにゲノムを参照するため、適切な種を選択することが重要です。</li><li>遺伝子間または固定のどちらかの長さを選択する"上流配列"のラジオボタンを使用してください。遺伝子間ではあなたが見て、以前の(上流の)遺伝子されている遺伝子の間のすべてのシーケンスを分析する。これは、その別の上流の長さを意味するのに使用される各遺伝子は、このケースでは、SCOPEはつまり、前の遺伝子に拡張する場合でも、それぞれの遺伝子に対して上流配列の同一の長さを検討する。現在の遺伝子の開始から上流のヌクレオチドの正確にその数を見ていきます固定長を選択(またはではない)。一般に、800国税庁は選択するのが最善の長さですが、これは種と異なることがあります。</li><li>次の遺伝子のリストのテキストボックスにあなたの遺伝子のリストに貼り付けることにより、または以前に作成した遺伝子のリストを含むファイルを選択するボタン"ファイル選択"を押すか分析するために設定したものを遺伝子SCOPEを伝えます。あなたは、代わりに、同じテキストボックスにFASTAシーケンスファイルに貼り付けることができます。</li><li>ページの次のセクションでは、チェックボックスが含まれています'が見つかりませんモチーフ(s)を含む他の遺伝子のゲノムを調べて?" SCOPEは、ゲノム内の他のすべての遺伝子を評価する必要があるため、このオプションは、かなりの分析時間を追加することができます。しかし、これは出発遺伝子セットの遺伝子との共同規制されるための良い候補となる他の遺伝子を同定するのに非常に役立ちます。 SCOPEの分析は比較的速いなので、それはあなたが最初の分析で、このオフのままにしておくことをお勧めします。結果のセクションで説明したように、それは常に、分析を再実行する結果ページからオンにすることができます。</li><li>'結果が含まれている必要があります"セクションは、その分析に含めるSCOPEをしたいモチーフを入力するために使用することができます。あなたが特定のモチーフを探しているならば、この設定を行うことがあります。</li><liページの>最後のセクションは、メールアドレスと分析して保存するコメントを入力するために使用することができます。これは入力されている場合、SCOPEは、結果を含むWebページにバックリンクを記載したメールをお送りします、そしてそれはまた、2つの添付ファイルが含まれます。一つは、人間が読める形式ですべての解析結果を持っているプレーンテキストフ​​ァイルです。番目の添付は、SCOPEは、コンピュータ読み取り可能なフォーマットで発見したことをすべての結果を含むXMLファイルが含まれています。あなたが結果にいくつかの追加的な分析を実行したい場合、XMLファイルは非常に便利です。両方のファイルは、電子メールで送信される前に"zip形式で圧縮"されています。</li><li>このデモでは、同じ情報を使用して開始されます。これは、簡単に必要な情報を記入される"サンプルの検索"ボタンを押すことによって達成することができます。今このボタンを押す。三つの遺伝子は、あなたと他のフィールドのために作られた適切な選択のために入力されます。それらが設定されているとして、これらを残す。つの遺伝子は、テロメアの維持に関与している<em>サッカロマイセスセレビシエ</em>。フォームに入力を図2に示します。分析を開始するにはページの下部にある"ファイル名を指定して実行SCOPE"ボタンを押してください。</li></ol><p class="jove_title"> 4。代表的な結果:</p><p class="jove_content"分析の>主な結果を図3に示されています。ページの上部には、SCOPEで発見されたモチーフに関する情報のテーブルが含まれています。最初の列は、検出されたと小さな色の付いた四角形が以下のようにグラフィカルなモチーフのマップの凡例としてされたモチーフのリストが含まれています。任意のモチーフの表示は、色付きのボックス(または色付きのボックスは次のようになります)をクリックしてオンまたはオフに切り替えることができます。これは困難な有病率の低下モチーフのパターンを見ることになるかもしれない非常に繰り返されるモチーフの表示を隠すために非常に便利です。</p><p class="jove_content"データの>その他の列には、カウント(遺伝子のセット全体でそのモチーフの出現回数)、SIGの値(そのモチーフの重要性の指標)、カバレッジ(のインスタンスを少なくとも1つ含まれて提出された遺伝子の割合です。そのモチーフ)、およびアルゴリズム(モチーフを検出するために使用された三成分アルゴリズムのどれが)。</p><p class="jove_content">記載されているモチーフのいずれかをクリックするとそのモチーフの詳細な情報を含んでいるページにユーザーがかかります。結果の詳細は図4のシアンのモチーフ(atgnnnnttg)のために示されている。シーケンスのロゴ、位置の重み行列、およびその位置、鎖と遺伝子とのすべてのモチーフのインスタンスのリスト:このページでは、モチーフは、3つの方法で表されます。</p><p class="jove_content"ページ下に>もう少し先にはこのモチーフを含む他の遺伝子を探しての結果についてのいくつかの追加の詳細です。わかるように、この場合に備えて、元の遺伝子のセットに追加されたときに実際にSIGの値を改善すべてがモチーフを含む1344他の遺伝子があった。これらの遺伝子とSCOPEの設定ページに戻ります"を検索するためにチェックの遺伝子を追加"を押すと、元の遺伝子のセット、それらが以前にあったとして設定パラメータに追加。この場合、10余分な遺伝子が元の3に追加されます。</p><p class="jove_content">図5は、このモチーフのための余分な遺伝子を含む分析の結果を示しています。オリジナルの3つの遺伝子は、(小文字で)結果の一番下にあります。これらの余分な遺伝子の上流領域のモチーフのパターンを見ると、はっきりとはよく似ていることを示しています。オリジナルの3つの遺伝子がそうであったように、実際には、これらの遺伝子の多くはテロメア維持に関与している。オリジナルのモチーフは今、このセットでの最高得点のモチーフであることにも注意してください。</p><p class="jove_content"> SCOPEの結果の別のセットを図6に示されています。このケースでは、遺伝子のセットは、出芽酵母のリボソーム生合成に関与しているものです。これらの遺伝子は、実際にリボソームの一部ではありませんが、リボソームの組み立てを担当し、修飾酵素の数が含まれています。どのような図で明らかなことは、赤と緑のモチーフがこのセット内の遺伝子の調節に関与する可能性がある信頼性の高いパターンを形成するということです。我々は、より詳細に"モジュール"のこのパターンを調査して、後で文書にそれを報告します。</p><p class="jove_content"<img src="/files/ftp_upload/2703/2703fig1.jpg" alt="Figure 1"><strong>図1</strong>。メインスコープの入力ページ。このページは、解析する遺伝子を入力すると、種を定義するために使用され、上流領域の長さを検査する。オプションで、ユーザーが電子メールで結果を要求するか、または指定されたモチーフの検索を制限することができます。ビデオヘルプも用意されています。</p><p class="jove_content"<img src="/files/ftp_upload/2703/2703fig2.jpg" alt="Figure 2"><strong>図2</strong>。検索を実行するために充填された値を持つメインスコープの入力ページ。これらのパラメータは、"サンプルの検索"ボタンを押しての結果です。このケースでは、SCOPEで見つけたモチーフを含む他の遺伝子を見つけるためにチェックボックスがチェックされます。このオプションでは、計算に時間がかかります(ゲノム内のすべての遺伝子を検査する必要がある)しかし、興味深い洞察を提​​供することができます。</p><p class="jove_content"<img src="/files/ftp_upload/2703/2703fig3.jpg" alt="Figure 3"><strong>図3</strong>。メインSCOPE結果ページ。このページでは、SCOPEの検索の結果をまとめたものです。すべて高得点のモチーフのリストが提供され、色分けされたモチーフのマップは、分析の遺伝子のセット内の特定されたモチーフの位置を示しています。モチーフの横のカラーボックスをクリックすると、モチーフのマップでオンまたはオフそのモチーフの表示をトグルします。重要度スコア(SIGの値)に加えて、モチーフを含む遺伝子の割合(被覆率)、およびそのモチーフを見つけるために使用されるアルゴリズムも用意されています。</p><p class="jove_content"<img src="/files/ftp_upload/2703/2703fig4_1.jpg" alt="Figure 4 top"><img src="/files/ftp_upload/2703/2703fig4_2.jpg" alt="Figure 4 bottom">図4</strong>。特定のモチーフがメインの結果ページでクリックされたときにこの結果の詳細ページが起動されます。それは個々のモチーフの詳細を示しています。シーケンスのロゴ、位置の重み行列、およびコンセンサス配列は、各ページ上のモチーフのインスタンスのリストの概要の別の種類を表しています。元の検索の設定でチェックした"余分な遺伝子を発見"以来、このモチーフを含むゲノム内の他の遺伝子についてこのページの情報もあります。このページからはこのページに同定された余分な遺伝子を含む別のSCOPEの実行を開始することも可能です。</p><p class="jove_content"<img src="/files/ftp_upload/2703/2703fig5.jpg" alt="Figure 5">図5</strong>。この図は、図4に示されているモチーフ"atgnnnnttg'の余分な遺伝子を探しての結果を示しています。オリジナルの3つの遺伝子は、モチーフのマップの下部に小文字になります。追加の遺伝子は大文字で記載されています。これらの遺伝子の上流領域のモチーフに明確なパターンがあります。それは、それが識別された方法であるために指定されたモチーフは"LOOKUP"のようなアルゴリズムを示すことにも注意してください。それは実際には5と一致する<sup>目</sup>モチーフは、この分析ではスペーサーによって発見。</p><p class="jove_content"<img src="/files/ftp_upload/2703/2703fig6.jpg" alt="Figure 6">図6</strong>。出芽酵母のリボソーム生合成に関与する遺伝子のスコープの出力。モチーフ"aaawtttbh"(赤)と約10〜30 NTSと遺伝子の転写開始点の上流100から200ヌクレオチドに存在するで区切られた"abctcatcd'(緑)で構成されるモジュールの保存されたパターンに注意してください。</p>

Discussion

SCOPEは協調制御される遺伝子のセット内の潜在的な規制モチーフの同定に使用する強力なツールと研究者を提供します。ユーザーは、モチーフの大きさや部位を必要を見つける他の多くのモチーフとしてモチーフの出現回数を推測する必要はありません。モチーフが識別されるまで、これらのパラメータは、基本的に不可知です。インタフェースは、配列または遺伝子名を入力するため、出力を表示するための両方非常に簡単です。

SCOPEの出力は、モチーフの表現の3つの異なる方法を使用して、識別されるモチーフのすべてについての詳細な情報を提供します。遺伝子のすべてのモチーフの各インスタンスは、位置と"鎖"の情報が記載されています。モチーフのマップの形でグラフィカルに結果が理解しやすいと存在するモチーフのパターンを確認するための直感的な方法を提供するビジュアル表示を提供します。

SCOPEは、データのノイズの存在に非常に堅牢です。通常、これは実際に遺伝子の残りの部分と同じ場所に規制されていない可能性があります開始セットに存在する余分な遺伝子の形式をとります。マイクロアレイ実験で共発現される遺伝子で始まるときによく起こります。時々の実験ではノイズが多い、またはマイクロアレイ実験に用いる実験条件で活性化いくつかの転写因子があるかもしれません。これらの異なる転写因子には、おそらくDNA上の異なる標的部位を持つことになります。であっても4倍外来遺伝子(ノイズ:信号の比は4:1である)の存在下で、SCOPEは、まだサイト1を予測する上で、その精度の50%を維持しています。

SCOPEは、遺伝子名の200万以上の同義語が含まれていますが、それは時々いくつかの遺伝子の名前を識別するために失敗します。我々は常に我々のシノニムのリストを更新するが、時には別の同義語は同じ遺伝子を参照していることを確認されています。これらのケースでは、我々は理由あいまいさの同義語が含まれていません。 [スコープで検出されない遺伝子の名前を持っている場合、それはあなたがスコープ内に使用​​する代替の遺伝子名を検索するゲノムの特定のサイトを参照することをお勧めします。それぞれの種のための適切な遺伝子名の例は、SCOPEで提供されています。

SCOPEは、現在すべての時間を追加される新しい種は72種が含まれています。ウェブサイトは、ビデオのヘルプだけでなく、よくある質問(FAQ)が含まれています。ソースコードは、RHGに書き込むことにより、アカデミックユーザーに自由にご利用いただけます。

Divulgaciones

The authors have nothing to disclose.

Acknowledgements

この研究は、国立科学財団、DBI – 0445967からRHGに助成金によって支えられている。

Referencias

  1. Chakravarty, A., Carlson, J. M., Khetani, R. S., Gross, R. H. A novel ensemble learning method for de novo computational identification of DNA binding sites. BMC Bioinformatics. 8, 249-249 (2007).
  2. Carlson, J. M., Chakravarty, A., DeZiel, C. E., Gross, R. H. SCOPE: a web server for practical de novo motif discovery. Nucleic Acids Res. 35, 259-264 (2007).
  3. Blom, E. J., Roerdink, J. B., Kuipers, O. P., Hijum, S. A. v. a. n. MOTIFATOR: detection and characterization of regulatory motifs using prokaryote transcriptome data. Bioinformatics. 25, 550-551 (2009).
  4. Blom, E. J. DISCLOSE : DISsection of CLusters Obtained by SEries of transcriptome data using functional annotations and putative transcription factor binding sites. BMC Bioinformatics. 9, 535-535 (2008).
  5. Bushey, A. M., Ramos, E., Corces, V. G. Three subclasses of a Drosophila insulator show distinct and cell type-specific genomic distributions. Genes Dev. 23, 1338-1350 (2009).
  6. Znaidi, S. Identification of the Candida albicans Cap1p regulon. Eukaryot Cell. 8, 806-820 (2009).
  7. Sharma, D., Mohanty, D., Surolia, A. RegAnalyst: a web interface for the analysis of regulatory motifs, networks and pathways. Nucleic Acids Res. 37, W193-W201 (2009).
  8. Znaidi, S. Genomewide location analysis of Candida albicans Upc2p, a regulator of sterol metabolism and azole drug resistance. Eukaryot Cell. 7, 836-847 (2008).
  9. Carlson, J., Chakravarty, A., Gross, R. B. E. A. M. A beam search algorithm for the identification of cis-regulatory elements in groups of genes. J Comput Biol. 13, 686-701 (2006).
  10. Carlson, J., Chakravarty, A., Khetani, R., Gross, R. Bounded search for de novo identification of degenerate cis-regulatory elements. BMC Bioinformatics. 7, 254-254 (2006).
  11. Chakravarty, A., Carlson, J. M., Khetani, R. S., DeZiel, C. E., Gross, R. H. SPACER: identification of cis-regulatory elements with non-contiguous critical residues. Bioinformatics. 23, 1029-1031 (2007).

Play Video

Citar este artículo
Martyanov, V., Gross, R. H. Using SCOPE to Identify Potential Regulatory Motifs in Coregulated Genes. J. Vis. Exp. (51), e2703, doi:10.3791/2703 (2011).

View Video