OpenProt は、真核生物ゲノムのコードするモデルを適用自由にアクセス可能なデータベースです。ここで、質量データセットを問い合わせるときの OpenProt データベースを使用するためのプロトコルを紹介します。プロテオーム解析のためのデータベース OpenProt を使用して小説や以前検出できないタンパク質の探索できます。
ゲノムの注釈はプロテオーム風景の輪郭を描画として今日のプロテオーム研究の中心です。オープンの伝統的なモデル フレーム (ORF) 注釈を読んで任意の 2 つの条件を課す: 100 コドンとトラン スクリプトごと単一 ORF の最小の長さ。ただし、成長の多くの研究報告の容疑者以外のコーディングから蛋白質の表現領域、現在のゲノムの注釈の精度に挑戦します。蛋白質が発見されたこれらの小説エンコードか以内非コード Rna、5′ 3′ 非翻訳領域 (UTRs) の Mrna、重なり合ったり ORF の代わりに知られているコーディング シーケンス (CD)。OpenProt は、トラン スクリプトあたり複数の ORFs の注釈を許可する真核生物のゲノムにコードするモデルを適用する最初のデータベースです。OpenProt が自由にアクセスできる 10 種のタンパク質配列のカスタム ・ ダウンロードを提供しています。OpenProt プロテオーム実験用データベース新規タンパク質の探索を有効にして真核生物遺伝子のコードする性質を強調します。(全ての予測蛋白質) OpenProt データベースのサイズは、実質的な分析のアカウントに取られる必要があります。ただし、適切な偽の発見率 (FDR) 設定または制限された OpenProt データベースを使用して、ユーザーは、プロテオーム風景のより現実的なビューを得ることが。全体的にみて、OpenProt、プロテオームの発見を促進する自由に利用できるツールです。
過去十年にわたって質量分析法 (MS-) 基づくプロテオミクス真核細胞1,2,3,4、5のプロテオームを解読する黄金の技術となっています。このメソッドは、可能性6,7,8の範囲を示す参照タンパク質シーケンス データベースを生成する現在のゲノムの注釈に依存します。しかし、ゲノムの注釈は、ORF 注釈、100 コドンとトラン スクリプト9,10につき単一 ORF の最小の長さなど任意の条件を保持します。研究数の増加は、現在のアノテーション モデルに挑戦し、真核生物ゲノム8,11,12,13、unannotated 機能 ORFs の発見を報告 14。これらの新規タンパク質でエンコードされた容疑者は非コード Rna がある、非翻訳領域 (UTR) の Mrna、や代替フレームの標準的なコーディング シーケンス (Ccd) の重複を 5′ または 3′ で。これらの発見のほとんどは、偶然されているが、彼らは現在のゲノムの注釈の注意点、および真核生物遺伝子8のコードする性質を示しています。
ここでは、MS ベース プロテオミクス OpenProt データベースの使用を強調表示します。OpenProt は、真核生物のトランスクリプトームのコードするアノテーション モデルを保持するために最初のデータベースです。Www.openprot.org15で自由に利用可能です。これらの割合だろうと予言した Orf ランダムで非機能的な理由 OpenProt 累積信頼を高めるための実験的で機能的な証拠であります。実験的な証拠には、(MS) による蛋白質の表現および翻訳の証拠 (リボソームプロファイリング) の15が含まれます。(アプローチのように妄想) とタンパク質 orthology と機能ドメイン予測15機能的な証拠が含まれます。
OpenProt では、カスタムメイドのデータベースにのみよくサポートされている蛋白質を含んでいるから、複数のデータベースをダウンロードする可能性を提供しています。ここでは、OpenProt データベースを使用するためのパイプラインを紹介します、実験の目的を考慮した選択するデータベースへの洞察を提供します。ここで紹介するプロテオミクス解析パイプラインは、オープン アクセスと利用簡単だが、データベースは任意のワークフロー16,17,18を扱うことができます銀河フレームワークによってサポートされます。プロテオーム風景の包括的なビューを提供するさんによる OpenProt データベースで検出された新規タンパク質に関するさらなる情報の収集、プロテオミクスとバイオ マーカーの発見を促進 OpenProt ウェブサイトを使用する方法を紹介します現在の方法よりもより体系的な方法です。
このプロトコルは MS データセットを尋問するとき OpenProt データベース15の使用を強調表示します。それは設計を見直さない実験自体は、徹底的にされている見直し他20,21,22。完全にオープン ソースを維持するために、プロトコルは自由に利用できる (補足材料 S1–S4) です。読みやすくするため OpenProt とこここのプロトコルで使用されるすべての用語は、表 1に定義されます。
質量分析計からのデータを分析する場合、タンパク質同定の品質は部分的使用データベース6,20の精度に依存します。現在のアプローチは、伝統的 UniProtKB データベースを使用して、まだこれら議事録につき単一 ORF のゲノムのアノテーション モデルと 100 (以前に実証例) を除いてコドン40の最小の長さをサポートします。複数の研究は、容疑者以外のコーディングから機能 ORFs の発見とそのようなデータベースの欠点を関連付ける領域8,11,12,13。今、OpenProt より網羅的なタンパク質の同定と複数のトランスクリプトーム注釈からタンパク質配列を描画します。OpenProt 取得 NCBI RefSeq (GRCh38.p7) と Ensembl (GRCh38.83) トランスクリプトームと UniProtKB の注釈 (UniProtKB SwissProt、2017-09-27)40,42,43。現在のコメントは現在ほとんど重複、OpenProt は従ってときに 1 つの注釈15に制限よりも潜在的なプロテオーム風景の包括的なビューを表示します。
さらに、OpenProt は、コードするモデルを適用とトラン スクリプトあたり複数の蛋白質のアノテーションをできます。統計と計算上の理由から、OpenProt はまだ 30 コドン15の最小の長さのしきい値を保持します。しかし、それによりタンパク質の同定の可能性の範囲を拡大、新規蛋白質シーケンスの何千もを予測します。このアプローチでは、OpenProt より体系的な方法でプロテオームの発見をサポートします。
タンパク質同定の品質は、使用されるパラメーターによっても影響を。MS ベースのプロテオミクス解析は通常 1% 蛋白質 FDR を保持します。ただし、全体の OpenProt データベースには、約 6 倍以上のエントリ (図 1) が含まれています。検索スペースの相当な増加を考慮、0.001% のより厳格な FDR を使用をお勧めします。このパラメーターは、ベンチマーク研究とランダムに選択されたスペクトル15のマニュアル評価を使用して最適化されていました。しかし、偽陽性がまだ可能性、徹底的な検査とサポートする新規蛋白質のための証拠の検証をお勧め。バック グラウンド データや誤データセット15間で異なる推奨される標準的な 2 つの異なる MS 実行から蛋白質の同定可能性があります。
同様に、実験的なデザインとパラメーターに合わせて嬉しいパイプラインここ提供、事例研究で使用に変更できます。感性とペプチド同定32の感度を増加すると、複数の検索エンジンを使用して私たちをお勧めします。さらに、(図 1) の実験の目的に最適に対応するデータベースを使用してお勧めします。厳しい FDR が付属してデータベース全体の OpenProt を使用して、真の身分が失われます。したがって、データベース全体は、小さい OpenProt データベース (上記事例で使用される OpenProt_2pep) などに使用する必要が古典的なプロテオミクス プロファイリングしながら新規タンパク質の探索が意図されるべき。
いくつかの研究は、他コドン44,45翻訳開始を強調したに対し、OpenProt は、現在 ATG コドンから始まるシーケンスを予測しています。新規タンパク質は、1 つまたはいくつかのユニークなペプチドによって識別される、本当の開始コドンは推定 ATG ではない可能性です。ユーザーは、OpenProt ウェブサイト上の翻訳の証拠を見ることができます。現在、OpenProt は、全体の予測された蛋白質シーケンス (100% 重複)15にかかわる場合にのみ翻訳イベントを報告します。したがって、翻訳の証拠の不在というタンパク質が翻訳されていないが、その疑惑の ATG 開始コドンありません可能性があります。
その現在の制限にもかかわらず OpenProt は、真核生物のゲノムのコーディング可能性の包括的なビューを提供しています。OpenProt データベースは、プロテオーム発見とプロテオームの機能と相互作用の理解を促進します。他の種の注釈が含まれます OpenProt データベースの今後の展開、非 ATG から証拠を翻訳開始コドンと新規タンパク質は、ゲノム、エキソーム配列研究するためのパイプラインの開発。
The authors have nothing to disclose.
ビビアン Delcourt は、彼の助けやディスカッション、この作品についてのアドバイスを感謝いたします。フォン ・ ド ・ ルシェルシュ ・ デュ ・ ケベック州健康 FRQS サポート センター ・ デ ・凝ったデュのメンバーである X.R. センター病院ユニヴェルシテール ・ デ ・ シャーブ ルック。この研究は、X.R. と機構の付与モップ 137056 機能・発現プロテオミクスと小説タンパク質発見カナダ研究の椅子によって支えられました。天秤 Québec そして計算カナダ シャーブ ルック大学からスーパー コンピューター mp2 の使用と彼らのサポートのためにチームに感謝いたします。Mp2 のスーパー コンピューターの操作によって、カナダの基盤の革新 (CFI)、ル ミニステール資金を供給される de l’ 仏、デ ラ科学 et ・ デ ・ l’innovation ・ デュ ・ ケベック (MESI) とレ ・ フォン ・ デ ・凝ったケベック – 自然 et 技術 (周波数 NT)。いくつかのプロテオミクスの計算に使用された銀河サーバー共同研究センター 992 医療エピジェネティクス (DFG グラント SFB 992/1 2012) とドイツ連邦教育省と研究によって資金を供給される一部 (BMBF 付与 031 RBC A538A/A538C、031L0101B/031L0101C ド。NBI エピ、031 L 0106 デ。階段 (de。NBI))。
OpenProt website | open source | n/a | www.openprot.org |
Galaxy Server | open source | n/a | https://usegalaxy.eu/ |
TOPPview software | open source | n/a | www.openms.de |