生物医学レポートに記載されているように、ミトコンドリアタンパク質とその心血管疾患との関連を調査するための計算プロトコル、CaseOLAP LIFT、およびユースケースが提示されています。このプロトコルは、ユーザーが選択した細胞成分および疾患の研究に容易に適合させることができる。
急速に増加し、膨大な量の生物医学レポートは、それぞれが多数のエンティティと豊富な情報を含み、生物医学テキストマイニングアプリケーションのための豊富なリソースを表しています。これらのツールにより、研究者はこれらの発見を統合、概念化、および翻訳して、疾患の病理学と治療法に関する新しい洞察を明らかにすることができます。このプロトコルでは、テキストデータセット(生物医学文献など)からユーザーが選択した情報を抽出することにより、細胞成分とその疾患関連を調査するための新しい計算パイプラインであるCaseOLAP LIFTを紹介します。このソフトウェアは、疾患関連文書内で細胞内タンパク質とその機能的パートナーを識別します。追加の疾患関連文書は、ソフトウェアのラベル補完方法 によって 識別されます。結果として生じるタンパク質と疾患の関連性をコンテキスト化し、複数の関連する生物医学リソースからの情報を統合するために、さらなる分析のために知識グラフが自動的に構築されます。オンラインでダウンロードされた~3,400万のテキスト文書のコーパスを使用した1つのユースケースを提示し、この方法を使用して、異なる心血管疾患の表現型におけるミトコンドリアタンパク質の役割を解明する例を示します。さらに、得られた知識グラフに深層学習モデルを適用して、これまで報告されていないタンパク質と疾患の関係を予測し、テストセットで予測確率>0.90、レシーバー動作特性曲線下面積(AUROC)0.91との関連が1,583件ありました。このソフトウェアは、高度にカスタマイズ可能で自動化されたワークフローを備えており、幅広い生データを分析に利用できます。したがって、この方法を使用すると、テキストコーパス内で信頼性の高いタンパク質と疾患の関連を識別できます。
疾患関連タンパク質を研究することは、病因の科学的知識を高め、潜在的な治療法を特定するのに役立ちます。出版物のタイトル、抄録、全文文書を含むPubMedの3,400万件の記事など、生物医学出版物のいくつかの大きなテキストコーパスは、タンパク質と疾患を結びつける新しい発見を報告しています。ただし、これらの調査結果はさまざまなソースに断片化されており、新しい生物医学的洞察を生成するには統合する必要があります。タンパク質と疾患の関連を統合するために、いくつかの生物医学的リソースが存在します1,2,3,4,5,6,7。ただし、これらの厳選されたリソースは不完全であることが多く、最新の研究結果を網羅していない場合があります。テキストマイニングアプローチは、大きなテキストコーパスでタンパク質と疾患の関連を抽出して合成するために不可欠であり、科学文献におけるこれらの生物医学的概念のより包括的な理解につながります。
タンパク質と疾患の関係を明らかにするために複数の生物医学的テキストマイニングアプローチが存在し8、9、10、11、12、13、14、およびテキスト13、15、16、17で言及されているタンパク質、疾患、または他の生物医学的実体を同定することによってこれらの関係を決定することに部分的に貢献する。18,19。ただし、これらのツールの多くは、定期的に更新されるいくつかの文献を除いて、最新の文献にアクセスできません8,11,13,15。同様に、多くのツールは、広く事前定義された疾患またはタンパク質に限定されているため、研究の範囲も限られています9,13。いくつかのアプローチは、テキスト内の誤検知を特定する傾向もあります。他の人は、タンパク質名の解釈可能なグローバルブラックリスト9、11、または解釈可能性の低い名前エンティティ認識技術15、20でこれらの問題に対処しています。ほとんどのリソースは事前に計算された結果のみを提供しますが、一部のツールはWebアプリまたはアクセス可能なソフトウェアコード8、9、11を介した双方向性を提供します。
上記の制限に対処するために、テキストデータセットからタンパク質(細胞成分に関連するタンパク質など)と疾患との関連を調査するための柔軟でカスタマイズ可能なプラットフォームとして、ラベル補完とフルテキスト(CaseOLAP LIFT)を備えた次のプロトコルCaseOLAPを紹介します。このプラットフォームは、遺伝子オントロジー(GO)用語特異的タンパク質(オルガネラ特異的タンパク質など)の自動キュレーション、欠落している文書トピックラベルの補完、全文文書の分析、および分析ツールと予測ツールを備えています(図1、図2、および表1)。CaseOLAP LIFTは、ユーザーが用意したGO用語(オルガネラコンパートメントなど)を使用してオルガネラ特異的タンパク質をキュレーションし、STRING21、Reactome 22、およびGRNdb23を使用して機能的に関連するタンパク質をキュレーションします。疾患研究文書は、PubMed注釈付き医療主題ヘッダー(MeSH)ラベルによって識別されます。ラベルのない文書の~15.1%については、タイトルに少なくとも1つのMeSH用語の同義語が見つかった場合、または要約に少なくとも2つ見つかった場合、ラベルが補完されます。これにより、以前に分類されていなかった文書をテキスト マイニング分析で考慮できます。CaseOLAP LIFTでは、指定された期間(例:2012-2022)内に出版物のセクション(タイトルと抄録のみ、フルテキスト、メソッドを除くフルテキストなど)を選択することもできます。また、このソフトウェアは、ユースケース固有のタンパク質名のブラックリストを半自動的にキュレートし、他のアプローチに存在する偽陽性のタンパク質と疾患の関連を大幅に低減します。全体として、これらの改善により、カスタマイズ性と自動化が向上し、分析に利用できるデータの量が増え、大規模な生物医学テキストコーパスからより信頼性の高いタンパク質と疾患の関連付けが可能になります。
CaseOLAP LIFTは、生物医学的知識を組み込み、グラフ内の隠れた関係を予測するために活用される知識グラフを使用して、さまざまな生物医学的概念の関係を表現します。近年、グラフベースの計算手法は、生物医学的概念の統合と整理24,25、薬物の転用と開発26,27,28、およびプロテオミクスデータからの臨床的意思決定29を含む生物学的設定に適用されています。
ナレッジグラフの構築設定におけるCaseOLAP LIFTの有用性を示すために、ミトコンドリアタンパク質と8つのカテゴリーの心血管疾患との関連を調査するユースケースを強調します。~362,000の疾患関連文書からのエビデンスを分析し、疾患に関連する上位のミトコンドリアタンパク質および経路を特定した。次に、これらのタンパク質、それらの機能的に関連するタンパク質、およびそれらのテキストマイニング結果を知識グラフに組み込みました。このグラフは、ディープラーニングベースのリンク予測分析で活用され、生物医学出版物でこれまで報告されていないタンパク質と疾患の関連を予測しました。
導入セクションでは、プロトコルの背景情報と目的について説明します。次のセクションでは、計算プロトコルの手順について説明します。続いて、このプロトコルの代表的な結果について説明します。最後に、計算プロトコルのユースケース、利点、欠点、および将来のアプリケーションについて簡単に説明します。
CaseOLAP LIFTは、機能性タンパク質(細胞成分、生物学的プロセス、分子機能に関連するタンパク質など)と生物学的カテゴリー(疾患など)との関連を調査することを可能にします。記述されたプロトコルは、プロトコルセクション4およびプロトコルセクション5が結果に依存するため、プロトコルセクション2およびプロトコルセクション3が最も重要なステップである、指定された順序で実行されるべきである。プロトコル セクション 1 の代わりに、CaseOLAP LIFT コードを複製し、GitHub リポジトリ (https://github.com/CaseOLAP/caseolap_lift) からアクセスできます。ソフトウェア開発中のテストにもかかわらず、バグが発生する可能性があることに注意してください。その場合は、失敗した手順を繰り返す必要があります。問題が解決しない場合は、プロトコルセクション1を繰り返して、最新バージョンのDockerコンテナが使用されていることを確認することをお勧めします。追加のサポートのために GitHub リポジトリで問題を作成することで、さらにサポートを受けることができます。
この方法は、研究者が関心のあるエンティティを特定し、既存の生物医学リソースでは簡単にアクセスできない可能性のあるそれらの間の潜在的な関連性を明らかにすることを可能にすることにより、仮説の生成をサポートします。結果として生じるタンパク質と疾患の関連性により、研究者はスコアの解釈可能な指標を介して新しい洞察を得ることができます:人気スコアは疾患に関連して最も研究されているタンパク質を示し、識別性スコアはタンパク質に最も固有の疾患を示し、結合されたCaseOLAPスコアは2つの組み合わせです。誤検知の識別(同音異義語など)を防ぐために、一部のテキストマイニングツールは用語のブラックリストを利用して9,11を回避します。同様に、CaseOLAP LIFTもブラックリストを利用しますが、ユーザーはユースケースに合わせてブラックリストを調整できます。たとえば、冠状動脈疾患(CAD)を研究する場合、「CAD」はタンパク質「カスパーゼ活性化デオキシリボヌクレアーゼ」の名前と見なされるべきではありません。ただし、他のトピックを勉強するとき、「CAD」は通常タンパク質を指す場合があります。
CaseOLAP LIFT は、テキスト マイニングに使用できるデータの量に適応します。日付範囲機能は、計算負荷を軽減し、仮説生成のための柔軟性を生み出します(例えば、タンパク質と疾患の関連に関する科学的知識が時間とともにどのように変化したかを研究する)。一方、ラベル補完コンポーネントとフルテキストコンポーネントは、テキストマイニングに使用できるデータの範囲を拡張します。計算コストを削減するために、両方のコンポーネントは既定で無効になっていますが、ユーザーはどちらかのコンポーネントを含めることを決定できます。ラベルの代入は保守的であり、ほとんどの出版物を正しく分類しますが(87%の精度)、他のカテゴリラベルを見逃しています(2%の再現率)。この方法は現在、疾患キーワードに一致するルールベースのヒューリスティックに依存しており、ドキュメントトピックモデリング手法を使用してパフォーマンスを向上させる予定です。多くの未分類のレポートは最近の出版物である傾向があるため、最近の日付範囲(たとえば、過去3年以内のすべての出版物)を調査する研究は、ラベルの帰属を無効にする方が適切です。フルテキスト コンポーネントを使用すると、ランタイムとストレージの要件が増加します。特に、全文が利用可能な文書はごくわずかです(私たちの調査では文書の~14%)。出版物の方法セクションに記載されているタンパク質名が疾患トピックに関連している可能性が低いと仮定すると、方法のセクションを除く全文記事を照会することをお勧めします。
得られたタンパク質と疾患の関連スコアは、クラスタリング、次元削減、エンリッチメント解析(GO、パスウェイなど)などの従来の解析に役立ち、このソフトウェアパッケージにいくつかの実装が含まれています。既存の生物医学的知識の中でこれらのスコアを文脈化するために、知識グラフが自動的に構築され、グラフ視覚化ツール(例えば、Neo4j32、Cytoscape33)を使用して探索することができる。ナレッジグラフは、予測分析(例えば、報告されていないタンパク質と疾患の関係のリンク予測、タンパク質ネットワークのコミュニティ検出、賞品収集パスウォーキング方法)にも使用できます。
予測されたタンパク質と疾患の関連に関するモデル評価指標を調べました(表5)。このモデルでは、各タンパク質と疾患の関連に 0.0 から 1.0 の間の確率スコアが割り当てられ、スコアが 1.0 に近いほど予測の信頼度が高いことを示します。AUROC、精度、バランス精度、特異性、再現率などのさまざまな指標に基づいたモデルパフォーマンスの内部評価は、彼の研究で優れた全体的なパフォーマンスを示しました。ただし、評価では、モデルの精度(0.15)のスコアがかなり低いことも強調され、AUPRCとF1の両方のスコアが低くなりました。このメトリックを改善するための今後の調査は、モデルの全体的なパフォーマンスを向上させるのに役立ちます。これは、より高度な知識グラフ埋め込みモデルとグラフ予測モデルを実装することで実現できると考えています。モデルの精度0.15に基づいて、調査員は約15%の肯定的な識別を期待する必要があります。特に、モデルによって予測された12,688のタンパク質と疾患の関連すべてのうち、約15%が真陽性の関連です。これは、高い確率スコア(例えば、>0.90)を有するタンパク質と疾患の関連のみを考慮することによって軽減することができる。このユース ケースでは、確率しきい値を 0.90 にフィルター処理すると、1,583 個の関連付けの信頼度の高い予測が得られました。研究者は、これらの予測を手動で検査して、高い妥当性を確認することも役立つ場合があります(例として 図7 を参照)。我々の予測の外部評価により、広範なキュレーションされたデータベースDisGeNet 19からの310のタンパク質と疾患の関連のうち、103がテキストマイニング研究で特定され、88の追加の関連が確率スコア>0.90で知識グラフ分析によって予測されたことが判明しました。
全体として、CaseOLAP LIFTは、大きなテキストコーパスにおける機能性タンパク質群と複数のカテゴリーの疾患との関連をカスタム分析する上で、柔軟性と使いやすさが向上しています。このパッケージは、新しいユーザーフレンドリーなコマンドラインインターフェイスで合理化され、Dockerコンテナとしてリリースされるため、プログラミング環境とソフトウェアの依存関係の構成に関連する問題が軽減されます。心血管疾患におけるミトコンドリアタンパク質を研究するためのCaseOLAP LIFTパイプラインは、簡単に適応させることができます。例えば、この技術の将来の応用は、任意のGO用語に関連する任意のタンパク質と任意の生物医学的カテゴリーとの間の関連を調査することを含む可能性がある。さらに、このテキストマイニングプラットフォームによって特定されたランク付けされたタンパク質と疾患の関連は、高度な自然言語技術を使用するためのデータセットの準備において重要です。結果として得られる知識グラフにより、研究者はこれらの発見を生物学的に有益な知識に変換し、フォローアップグラフベースの分析の基礎を築くことができます。
The authors have nothing to disclose.
この作業は、国立衛生研究所(NIH)R35 HL135772からP.P.、NIH T32 HL13945 A.R.P.およびD.S.、NIH T32 EB016640 A.R.P.、国立科学財団研究研修生(NRT)1829071 A.R.P.およびD.S.、NIH R01 HL146739 I.A.、J.R.、A.V.、K.B.、およびUCLAのTCラウビッシュ基金からP.P.の支援を受けました。