DNA シーケンス データとは異なり、エピゲノムのデータはテキスト ベースの検索に容易に服従しません。エピゲノム データと DNA 要素の百科事典を含む利用可能なオンラインのデータベースを比較することで類似のパターン ベースの検索を行う GeNemo、web ベースのバイオインフォマティクス ツールのアップグレードされたバージョンを使用する手順は、ここで紹介ユーザーのデータ。
強力なテキスト ベースの検索ツールと比較ゲノムや RNA 配列データ、エピゲノムと他の機能ゲノムデータのパターン ベースの検索の現在の方法が非常に限られました。GeNemo は、この目標を達成する最初のオンライン検索ツールです。ユーザーは、ブラウザー拡張データ (ベッド)、ピーク、大物形式機能ゲノム データを入力し、3 つの形式のいずれかでデータを検索します。ユーザーが指定に対して、検索を実行するデータセットの種類を百科事典の DNA 要素 (エンコード) 異なるエピゲノム マーク、転写因子結合部位とクロマチンを表すさまざまなオンラインのデータセットから選択します。過敏症または特定の細胞型と発達段階や種 (マウスや人間) のアクセシビリティ。GeNemo は、ブラウザーで表示可能性があります、ベッド ファイル形式でダウンロードこともできる入力データにパターン マッチングによるゲノム領域の一覧を返します。アップグレードされた GeNemo グラフィカル表示を改善して、堅牢なインターフェイスを持つ、カリフォルニア大学サンタ ・ クルス (UCSC) のゲノムのブラウザーの変更によるエラーになりやすいのはや。一般的な問題のトラブルシューティング手順を説明します。機能ゲノム データ量は指数関数的に拡大し、開発し、データの解析と解釈の GeNemo など新しい bioinformatic ツールを改良する重要な必要性があります。
最近の技術の進歩は、エピゲノムあるいはゲノム機能のデータ保管所を生物学的洞察力を抽出する関連する分析ツールの開発を上回っているの急速な拡大のため許可されています。エピゲノム データを分析する重要な方法の 1 つはデータ保管所と新しい知識につながるパターン マッチングのための百科事典の DNA 要素 (エンコード)1プロジェクトからの特にそれらに対してユーザーが生成したデータを検索します。例えば、ゲノム全体で定義された遺伝子座で 2 つの異なるエピゲノム印のパターンの類似性を識別する可能性があります異なる分子選手のクロマチン構造と転写制御2 協調的行動、3,4。
従来のテキスト ベースの検索エンジンは、効果的なこの点で、DNA シーケンスとは異なりエピゲノム データは主に強度や機能ゲノム領域の形式で存在します。遺伝子 nemo (), ファインディングニモのように立っている GeNemo は5パターン ベースの検索を使用してこのニーズに対処するため開発されました。そのアルゴリズムは、マルコフ連鎖モンテカルロ法の最大化プロセス5を利用しています。ユーザーが独自のデータを取るまたはデータセットを保管および検索オンライン エピゲノム データの配列パターンの類似性を識別するためにからダウンロードします。
GeNemo の現在のバージョンは、更新されたディスプレイ、カリフォルニア大学サンタクルス (UCSC) のゲノムのブラウザー6より確実でインターフェイスを持っているし、後者の変更によって生じる問題を受けにくい。特に、GeNemo の結果ページは UCSC のゲノムのブラウザー インターフェイスに基づいて使用、GeNemo の現在のバージョンは独自の検索結果ページをサポートし、したがってもはや悪影響を受ける UCSC のゲノムのブラウザーへの構造変化。GeNemo は、大規模なコンソーシアムから既知のデータ セットの中で,/類似したセグメントを検索するクエリとして蛋白結合、ヒストン修飾、クロマチン接近性、位相ドメイン、およびを含む任意のゲノムの信号を使用できます。したがって、それは目的の異なるエピゲノム データと大規模なゲノム プロジェクトで生成される既知のデータとの関係を研究する重要なツールです。
エピゲノムの徹底的な理解は、新しい生物学的洞察力8を提供する人間のゲノムの完全な可能性を達成するために必要です。現在データの説明とタイトル (すなわちメタデータ)1オンライン エピゲノム データセットを検索する唯一の方法があります。これは深刻なエピゲノム データで行うことができます 1 つの検索の種類を制限します。エピゲノム データに対してパターン ベースの検索ツールは、新しい生物学的洞察につながる可能性があります別のエピゲノムのマークの間の関係を探検に不可欠です。GeNemo は、データとメタデータではなくの内容による検索、ユーザー生成とデータベースのエンコードなど公開された保管所からエピゲノム データ内のパターンを比較するには、その種の最初のサービスは、またはデータセット5をダウンロードします。これはシーケンスのテキスト ・ ベースの検索ツールが 1990 年代に広く利用可能になっただけで世界中の研究者に広くアクセス可能なエピゲノムの検索ツールの可用性の始まりです。現在、GeNemo 以外のエピゲノム データに対するパターン ベースのオンライン検索ツールの選択肢はありません。
GeNemo を使用しての 1 つの潜在的な例はヒト胚性幹細胞 (例 E2F6 バインド信号ファイルは、またはエンコード データ ポータルで利用可能に共同出現のヒストン修飾とその他エピゲノム転写因子 E2F6 を検索するにはhttps://sysbio.ucsd.edu/public/xcao3/ENCODESample/ENCFF001UBC.bed)。H1 hESC のすべてのエンコードのデータセットに対して検索を実行するクエリとしてこのファイルを使用して、GeNemo は、E2F6 バインディング信号が H3K4me1、H3K4me2、H3K4me3、H3K27me3 は、E2F6 がを介していくつかの遺伝子を調節することを示す既存の研究と一致すると濃縮されて大きく表示されます。H3K279のメチル化。その一方で、同じ家族、E2F710の要因と対話するために知られている E2F6 と CtBP2 の結合部位の共存に注目が表示されます。エピゲノム、転写因子結合信号その他の信号のエンコードに含まれている数が多いと全体のゲノムのこれらの結果は、さらなる分析のためのすべての潜在的なターゲットを提供できる GeNemo と比較的簡単に取得できます。
文書の最初の5 GeNemo エピゲノムの web ベース データ検索ツールとして、以来 GeNemo の結果セクション GeNemo のフロント ページと一致する外観にアップデートされました。古い結果セクションは密接に UCSC のゲノム ブラウザーの [結果] セクションをミラー化され、ディスプレイ用のリモート UCSC サーバーに大きく依存していた。新しいインターフェイスと GeNemo がより使いやすく、UCSC のゲノム サーバーにもはや依存 (にもかかわらず、データがリモートでフェッチされるまだ)。これは、ように GeNemo より堅牢コードの変更に起因する問題に敏感で UCSC サーバー。さらに、GeNemo の新しい高速ポリマー界面が視覚化し、データ内のパターンを分析するツールをユーザーに与えます。
重要な手順には、適切な入力ファイルを提供して、データに対して検索するトラックの選択が含まれます。ユーザーは、様々 な実験に強く推奨選択プロセスとどのように異なるコマンドに精通するトラックの選択機能は意図されていた結果を達成するために組み合わせることができます。特に、「Add」関数が”フィルター”または「除外」ロジック ゲート コマンドとして使用できますが、クエリに選択した目的のトラック追加する必要があるに注意してください”AND”と”OR”、それぞれ。「更新」機能は、検索を実装する前にすべての選択に影響を与える必要があります。結果は返されません、ユーザー可能性があります入力データ ファイルを確認してくださいより多くのトラックを検索または検索範囲を増加させます。エラーがあるときに、まさにエラーを定義ポップアップ ウィンドウになります。ただし、いくつかのあいまいなエラーがあります。たとえば、こと ‘ファイルはアップロードされませんでした」という、かファイルはアップロードされませんでした、またはアップロードされたファイルが受け付け可能な形式のなかったし、したがって、プログラムはそれを正しく読み取ることでした。ファイルのアップロードのための適切なファイル形式では、アップロードする方法、両方のベッドとピークの形式ファイル オンライン リンク アップロードだけの大物をご利用など。これらのファイル形式の圧縮バージョンも問いません。
このアプローチの現在の制限には、まだ最適化アルゴリズムと GeNemo で採用されている機能が含まれます。GeNemo はまだ返される任意のデータセットの解釈に任意のガイダンスを提供できません。このタスクは、ユーザーまで多大な知識とゲノム、エピゲノムの生物学の専門知識が必要です。さらに、別の現在の制限は、ユーザーが検索の感度とノイズ レベルを変更できないです。向上・検索機能とデータセットのコレクションを将来的にそのパターンに GeNemo を拡大し、続ける予定です。
The authors have nothing to disclose.
この作品は、NIH によって支えられた補助金含め NICHD、NHGRI から R01HG008135 から DP1HD087990。貴重なフィードバックの仲研究室のメンバーに感謝いたします。
著者の貢献:
X.C. と A.T.Z. は、新しいインターフェイスと機能のコーディングによって GeNemo を更新A.T.Z. 制作社内サンプル動画;A.T.Z.、X.C と S.Z. は、紙を書いた。