バイオインフォマティクスパイプライン、すなわちmiRDeep-P2(略してmiRDP2)は、植物miRNA基準とオーバーホールされたアルゴリズムを備えており、特に複雑で大きなゲノムを持つ種に対して、植物のマイクロRNA転写物を正確かつ効率的に分析することができました。
マイクロRNA(miRNA)は、転写後のレベルで遺伝子発現を調節する上で強力な役割を果たす植物や動物に広く存在する20〜24ヌクレオチド(nt)内因性小さなRNA(sRNA)である。次世代シーケンシング(NGS)法によるsRNAライブラリのシーケンシングは、過去10年間にmiRNA転写物を同定および分析するために広く採用されており、miRNA発見の急速な増加をもたらしました。しかし、配列化されたsRNAライブラリーの深さの増加と植物ゲノムのサイズと複雑さにより、植物miRNAアノテーションには2つの大きな課題が生じます。第一に、他の多くのタイプのsRNA、特に、sRNAライブラリからの短い干渉RNA(siRNA)は、多くの計算ツールによってmiRNAとして誤ってアノトされています。第二に、大規模で複雑なゲノムを持つ植物種におけるmiRNA転写物を解析するための非常に時間のかかるプロセスになります。これらの課題を克服するために、最近、新しいフィルタリング戦略を採用し、スコアリングアルゴリズムを見直し、新たに更新された植物miRNAを組み込むことにより、miRDeep-P(miRNAトランスクリプトーム解析のための一般的なツール)をmiRDeep-P2(略してmiRDP2)にアップグレードしました。注釈の条件。アラビドプシス、米、トマト、トウモロコシ、小麦を含むゲノム複雑度の増加を伴う5つの代表的な植物における配列SRNA集団に対してmiRDP2を試験した。この結果は、miRDP2 がこれらのタスクを非常に高い効率で処理したことを示しています。さらに、miRDP2は感度と精度に関する他の予測ツールを上回っています。まとめると、植物miRNAトランスクリプトムを分析するための迅速かつ正確なツールとしてmiRDP2を実証し、植物のmiRNAに対する注釈を改善するコミュニティを支援する上で有用なツールです。
生物学における過去20年間で最もエキサイティングな発見の一つは、ゲノム1の多様な機能を調節するsRNA種の増殖的役割である。特に、miRNAは真核生物において20~24-nt sRNAの重要なクラスを構成し、主にライフサイクル開発段階を通じて著名な遺伝子調節因子として転写後のレベルで機能するとともに、刺激およびストレス応答2、3において機能する。植物において、miRNAは、一般に個々の転写単位4、5としてRNAポリメラーゼIIによって転写されるpri-miRNAと呼ばれる一次転写物から生じる。進化的に保存された細胞機械(動物のドロシャ・RNase III、植物におけるDICER様)によって処理され、pri-miRNAは、分子内幹ループ構造を形成する配列を含む即時miRNA前駆体、プレmiRNAに切除される。その後、プレミRNAは、機能鎖、成熟miRNA、およびあまり頻繁に機能しないパートナー、miRNA*2、8からなる二本鎖中間体、すなわちmiRNA二重鎖に処理される。RNA誘導サイレンシング複合体(RISC)にロードされた後、成熟したmiRNAは、配列相補性に基づいてmRNA標的を認識することができ、その結果、負の調節機能2、8をもたらす。miRNAは、ターゲットトランスクリプトを不安定にするか、ターゲット翻訳を防ぐことができますが、前者の方法は植物8、9で支配されています。
線虫カエノルハブディティス・エレガンス10、11における最初のmiRNAの発見以来、特にNGS法の入手後に、miRNA同定とその機能解析に多くの研究が行われてきた。NGS法の広範な応用は、前駆体の幹ループ構造や成熟miRNAおよびmiRNA*における配列読み取りの優先的蓄積など、miRNAのユニークな特徴を捕捉するように設計された計算ツールの利用を大幅に促進しました。その結果、研究者は多様な種のmiRNAを同定する上で顕著な成功を収めています。先に説明した確率モデル12に基づいて、NGSデータから植物miRNAを発見するための最初の計算ツールであるmiRDeep-P13を開発しました。miRDeep-Pは、より可変的な前駆体長と大きなパラロゴスファミリー13、14、15を特徴とするプラントmiRNAのデコードの課題を克服することを特に目的としました。そのリリース後、このプログラムは何千回もダウンロードされ、40以上の植物種16でmiRNA転写物に注釈を付けるために使用されています。miRDeep-PのようなNGSベースのツールによって推進され、パブリックmiRNAリポジトリmiRBase17に登録されたmiRNAの数が劇的に増加しており、2008年18年には約500 miRNA項目(リリース2.0)に比べて38,000以上のmiRNAアイテムがホストされています(リリース22.1)。
しかし、植物miRNAアノテーションから2つの新しい課題が生じている。第一に、偽陽性の高い比率は、次の理由で植物miRNAアノテーション16、19の品質に大きな影響を与えました:1)NGS sRNAライブラリからの内因性短絡干渉RNA(siRNA)の希薄さは、厳格なmiRNAアノテーション基準がないためにmiRNAとして誤って注釈付けされました。2)事前miRNA情報を持たない種については、NGSデータに基づいて予測される偽陽性を排除することは困難である。例としてmiRBaseを使用して、テイラーら20は、パブリックリポジトリ21(リリース21)の植物miRNAエントリの3分の1が説得力のある証拠を欠いて、植物miRNAファミリーの4分の3さえ疑わしいことを発見しました。第二に、大規模で複雑なゲノム16を有する植物miRNAを予測するための非常に時間のかかるプロセスとなる。これらの課題を克服するために、新しいフィルタリング戦略を追加し、スコアリングアルゴリズムを見直し、プラントmiRNAアノテーションの新しい基準を統合することでmiRDeep-Pを更新し、新しいバージョンのmiRDP2をリリースしました。さらに、徐々にゲノムサイズが増加するNGS sRNAデータセット(アラビドプシス、米、トマト、トウモロコシ、小麦)を用いてmiRDP2をテストしました。他の5つの広く使用されているツールとその古いバージョンと比較して、miRDP2はこれらのsRNAデータを解析し、精度と感度を向上させ、miRNA転写物をより速く分析しました。
miRDP2 パッケージの内容
miRDP2 パッケージは、準備された bash スクリプトによって順番に実行する必要がある 6 つの文書化された Perl スクリプトで構成されます。6 つのスクリプトのうち、3 つのスクリプト (convert_bowtie_to_blast.pl、 filter_alignments.pl、およびexcise_candidate.pl) は miRDeep-P から継承されます。その他のスクリプトは、元のバージョンから変更されます。6 つのスクリプトの機能については、以下で説明します。
preprocess_reads.plは、入力読み取りを含め、長すぎる読み取りまたは短すぎる読み取り (25 nt)、Rfam ncRNA シーケンスと相関する読み取り、および RPM (100 万分の読み取り) による読み取りが 5 未満である。次に、スクリプトは既知の miRNA 成熟配列に関連付けられた読み取りを取得します。入力ファイルは、FASTA/FASTQ 形式のオリジナル読み取りであり、miRNA および ncRNA シーケンスへの読み取りマッピングの bowtie2 出力です。
RPM を計算する式は次のとおりです。
convert_bowtie_to_blast.plは、ボウタイ形式を BLAST 解析形式に変更します。BLAST 解析形式は、標準の NCBI BLASToutput 形式から派生したカスタム表形式で区切られた形式です。
filter_alignments.plは、ディープ シーケンシング読み取りのアライメントをゲノムにフィルター処理します。部分的な位置合わせとマルチアライメント読み取り (ユーザー指定の周波数カットオフ) をフィルター処理します。基本入力は、BLAST 解析形式のファイルです。
excise_candidate.plは、配置された読み取りをガイドラインとして使用して、参照シーケンスから潜在的な前駆体シーケンスを切り取ります。基本入力は、BLAST 解析形式のファイルと FASTA ファイルです。出力は、FASTA 形式のすべての潜在的な前駆体シーケンスです。
mod-miRDP.plには、植物固有のパラメータを使用してスコアリングシステムを変更することにより、コアmiRDeep-Pアルゴリズムから変更される2つの入力ファイル、シグネチャファイルと構造ファイルが必要です。入力ファイルはドットブラケット前駆体構造ファイルであり、配布署名ファイルを読み取ります。
mod-rm_redundant_meet_plant.plには、chromosome_length、前駆体、mod-miRDP.plによって生成されたoriginal_predictionの 3 つの入力ファイルが必要です。これは、2つの出力ファイル、非冗長予測ファイル、および新たに更新されたプラントmiRNA基準によってフィルタリングされた予測ファイルを生成します。出力ファイルの形式の詳細については、セクション 1.4 で説明します。
NGSの出現により、多様な種29、30におけるsRNAシーケンシングデータの増加量から多数のmiRNA遺伝子座が同定されている。集中型コミュニティデータベースmiRBase21では、寄託されたmiRNAアイテムが過去10年間でほぼ100倍に増加しています。しかし、動物のmiRNAと比較して、植物miRNAは、識別/注釈をより複雑にする多くのユニークな機能?…
The authors have nothing to disclose.
この研究は、北京農林科学アカデミー(KJCX201917、KJCX20180425、KJCX20180204)から中国国立自然科学財団(31621001)からLLに支援されています。
Computer/computing node | N/A | N/A | Perl is required; at least 8 GB RAM and 100 GB storage are recommended |