機械学習アルゴリズムCorEx(相関説明)によって見つかった腫瘍RNAシーケンシング因子を探索するためのリソースであるCorExplorerウェブポータルを紹介し、生存に対する因子の分析方法、データベースアニテーション、タンパク質とタンパク質の相互作用、および腫瘍生物学と治療介入に関する洞察を得るために互いに。
微分遺伝子発現解析は、疾患状態を理解するための重要な手法です。機械学習アルゴリズムCorExは、腫瘍RNA-seqの遺伝子群の差動発現を、精密腫瘍学の進歩に役立つ可能性のある方法で解析する上で有用性を示した。しかし、CorEx は、既存の理解を分析して接続するのが難しい多くの要因を生み出します。このような接続を容易にするために、ユーザーがインタラクティブにデータを探索し、その分析に関連する一般的な質問に答えることを可能にするウェブサイトCorExplorerを構築しました。卵巣、肺、黒色腫、大腸の4種類の腫瘍タイプについて、RNA-seq遺伝子発現データについてCorExをトレーニングしました。その後、対応する生存、タンパク質とタンパク質の相互作用、遺伝子オントロジー(GO)、京都百科事典(KEGG)経路濃縮を組み込み、因子グラフの可視化と関連するヒートマップをウェブサイトに組み込みました。ここでは、この外部データのコンテキストで学習された腫瘍因子の重要性を理解するためのデータベースの使用を説明する例のプロトコルを使用します。
ちょうど10年前に導入されて以来、RNA-seqは遺伝子発現を測定するためのユビキタスツールとなっています1.これは、サンプルのトランスクリプトーム全体の迅速かつ安価なデノボプロファイリングを可能にするためです。しかし、RNA-seq腫瘍データは、本質的に複雑で、しばしばサンプリング不足の基礎生物学を反映していますが、データ自体は高次元でノイズが多い。これは、信頼性の高い信号を抽出するための重要な課題を提示します。CorEx アルゴリズムは、多変量相互情報を利用して、このような状況で微妙なパターンを見つけます2,3 .この技術は、以前に癌ゲノムアトラス(TCGA)から卵巣腫瘍RNA-seqサンプルを分析するために適応され、この文脈では、より一般的に使用される分析方法4よりも有意な利点を有するように見えた。
RNA-seqの使用は、腫瘍学を含む研究アプリケーションで非常に広く普及しているが、これらの努力は、臨床介入の目的のために広範な利用につながっていない5.この理由の一部は、これらの特定の問題を対象としたユーザーフレンドリーなアルゴリズムとソフトウェアの欠如です。このギャップを埋めるために、CorExplorerウェブポータルを設計し、CorEx機械学習アルゴリズムで見つかった腫瘍RNA-seqサンプルの遺伝子発現因子を様々なバックグラウンドの研究者が研究できるようにしました。CorExplorer ポータルは、肺、結腸、黒色腫、卵巣6 、7、8、9など、いくつかの異なる腫瘍タイプからの要因のインタラクティブな視覚化とクエリをサポートします。10は、研究者がデータ相関をふるい、治療目的で患者を階層化するための候補経路を特定するのを助けることを目的としています。
CorExplorer ポータルは、複数の種類のユーザーにとって役立つ可能性があります。ポータルは、公共データベースにおける腫瘍遺伝子発現の違いを駆動する広範な要因を理解し、おそらく同様の腫瘍のコンテキストで個々の遺伝子発現プロファイルを配置したいユーザーを念頭に置いて設計されました特性。ここで説明する代表的なプロトコルに加えて、CorExplorer の調査は、さらなるテストのための仮説を示唆し、CorExplorer 外のデータセットに関する CorEx の調査結果を比較対照し、接続するための出発点となる可能性があります。個々の腫瘍内の1つまたは少数の遺伝子の病理学的発現シグネチャを、協調的に影響を受ける可能性のあるより大きなグループに対する。最後に、この分野で始める人のためのRNA-seqへの機械学習の応用に関するユーザーフレンドリーな紹介として役立つかもしれません。
CorExplorerサイトは、CorExアルゴリズムによって腫瘍RNA-seqから学習された最大相関性遺伝子発現因子のインタラクティブな探索のための公的にアクセス可能なウェブサーバであるCorExplorerサイトを発表しました。腫瘍遺伝子発現に応じて患者を階層化するためにウェブサイトをどのように使用し、そのような層化が生物学的機能と生存にどのように対応するかを示した。
RNA-seq分析用の他のウェブサーバが構築されています。腫瘍の差動および共発現分析は、cbioPortal19,20の他のデータ型と調べ、統合することができる。サーバー GenePattern21、Mev22、および Morpheus 23 には、主成分解析 (PCA)、kmeans、または自己組織化マップ (SOM) などの確立されたクラスタリング手法が組み込まれています。より革新的な取り組みには、自動化されたルール生成分類器に基づく CamurWeb24と、ランダムフォレスト分類器と投げ縄を実装する TACCO25が含まれます。ここで使用される CorEx アルゴリズムは、データのパターンを説明する因子の階層を見つけるために、多変量情報を最適化します。非線形および階層因子の学習は、PCA4を介して見つかった線形グローバル因子に対する改善された解釈性をもたらすようです。さらに、この技術のサンプル信号の細かい解析により、より一般的に使用される広範なサブタイプに対する正確な腫瘍比較が可能になります。重複因子解析と階層因子解析の組み合わせは、CorExplorer を他のほとんどのアプローチと区別し、視覚化と要約のための新しいツールを必要とします。
CorExplorer 因子解析の重要な部分は、複数の因子だけでなく、重複する階層内に配置された有益な遺伝子パターンを持つ 100 以上の因子を探索する機能です。CorExplorerは生物学的および臨床関連のためのこれらの無数の要因の採掘を促進し、個々の腫瘍の非常に詳細な特徴付けを可能にする。このような多数の要因の教師なし学習は、すべてが病気の生物学に関連するわけではないことを意味します。このような場合、関心のある因子を引き出すか、生存などの臨床データに関連する因子を検索するために、アヌテーションまたは既知の遺伝子を使用することが不可欠です。したがって、CorExplorer を使用すると、この非常に重要なフィルタリング手順を実装できます。腫瘍における因子遺伝子パターンの存在は、パーソナライズされた腫瘍学治療へのアプローチを示唆するかもしれない。さらに、潜在的に有用な治療的組み合わせの発見を可能にする各腫瘍に対する因子スコアの多重性。
生存と相関性の高い因子に対して有意なGOアノテーションが表示されない場合があります。これは、ノイズが多いか、サンプリングされたデータの下で発生する可能性がありますが、クラスターサイズが小さすぎて有意な濃縮スコアを登録できないか、グループが一貫性のない多様な経路からの単一遺伝子の「バスケット」であるなど、他の考えられる原因があります。協会。さらに、KEGGおよびGO生物学的プロセスとは異なるアノテーションのカテゴリは、例えば細胞コンパートメントが適切であり、適切でありうる。これらは、プロトコルで示されているように StringDB にリンクすることでアクセスできます。CorExplorerサイトの遺伝子オントロジー濃縮分析は、現在、因子における遺伝子の重み付けを考慮していませんが、近い将来に改善される可能性が高いです。遺伝子リストオプションは、外部ツールでさらなる分析のために完全な因子遺伝子リストをダウンロードすることを可能にする「ウィンドウを追加」の下で利用可能です。
ウェブサイトの目的のために、CorExは各データセットで5回実行され、全体的な相関全体が最も大きい結果を生み出した実行は保持されました。複数の実行の結果を統計的に表現することは、より有益であり、将来の作業の目標です。さらに、サーバー上で利用可能な腫瘍タイプのセットはかなり小さいですが、ユーザーの関心に応じて時間の経過とともに拡大すると予想されます。
前述したように、CorExplorer は CorEx RNA-seq 因子関係と臨床およびデータベース情報を可視化するため、さまざまな異なる尋問モードを可能にします。このツールが、RNA-seq分析の力を腫瘍学における発見と臨床応用に活用するさらなる研究につながることを期待しています。
The authors have nothing to disclose.
GVはDARPA賞W911NF-16-0575によってサポートされました。
Public server for CorExplorer website | USC | http://corex.isi.edu | Intel Xeon E5-2690 4-core 2.6 GHz, 8GB RAM. Backend architecture is LAMP: Linux, Apache, MySQL, PHP. |
Web browser | Google/Apple | Chrome/Safari | Verified web browsers. |