A Bioinformatics Pipeline to Accurately and Efficiently Analyze the MicroRNA Transcriptomes in Plants

Ying Wang; Zheng Kuang; Lei Li; Xiaozeng Yang

doi:10.3791/59864

JoVE Journal > Genetics

Please note that all translations are automatically generated. Click here for the English version.

Genetics

植物におけるマイクロRNA転写物を正確かつ効率的に分析するバイオインフォマティクスパイプライン

Published: January 21, 2020

doi:

10.3791/59864

Ying Wang*^1,2, Zheng Kuang*^1,2, Lei Li², Xiaozeng Yang¹

¹Beijing Key Laboratory of Agricultural Genetic Resources and Biotechnology, Beijing Agro-Biotechnology Research Center,Beijing Academy of Agriculture and Forestry Sciences, ²State Key Laboratory of Protein and Plant Gene Research, Peking-Tsinghua Center for Life Sciences, School of Advanced Agricultural Sciences and School of Life Sciences,Peking University

Summary

バイオインフォマティクスパイプライン、すなわちmiRDeep-P2(略してmiRDP2)は、植物miRNA基準とオーバーホールされたアルゴリズムを備えており、特に複雑で大きなゲノムを持つ種に対して、植物のマイクロRNA転写物を正確かつ効率的に分析することができました。

Abstract

マイクロRNA(miRNA)は、転写後のレベルで遺伝子発現を調節する上で強力な役割を果たす植物や動物に広く存在する20〜24ヌクレオチド(nt)内因性小さなRNA(sRNA)である。次世代シーケンシング(NGS)法によるsRNAライブラリのシーケンシングは、過去10年間にmiRNA転写物を同定および分析するために広く採用されており、miRNA発見の急速な増加をもたらしました。しかし、配列化されたsRNAライブラリーの深さの増加と植物ゲノムのサイズと複雑さにより、植物miRNAアノテーションには2つの大きな課題が生じます。第一に、他の多くのタイプのsRNA、特に、sRNAライブラリからの短い干渉RNA(siRNA)は、多くの計算ツールによってmiRNAとして誤ってアノトされています。第二に、大規模で複雑なゲノムを持つ植物種におけるmiRNA転写物を解析するための非常に時間のかかるプロセスになります。これらの課題を克服するために、最近、新しいフィルタリング戦略を採用し、スコアリングアルゴリズムを見直し、新たに更新された植物miRNAを組み込むことにより、miRDeep-P(miRNAトランスクリプトーム解析のための一般的なツール)をmiRDeep-P2(略してmiRDP2)にアップグレードしました。注釈の条件。アラビドプシス、米、トマト、トウモロコシ、小麦を含むゲノム複雑度の増加を伴う5つの代表的な植物における配列SRNA集団に対してmiRDP2を試験した。この結果は、miRDP2 がこれらのタスクを非常に高い効率で処理したことを示しています。さらに、miRDP2は感度と精度に関する他の予測ツールを上回っています。まとめると、植物miRNAトランスクリプトムを分析するための迅速かつ正確なツールとしてmiRDP2を実証し、植物のmiRNAに対する注釈を改善するコミュニティを支援する上で有用なツールです。

Introduction

生物学における過去20年間で最もエキサイティングな発見の一つは、ゲノム¹の多様な機能を調節するsRNA種の増殖的役割である。特に、miRNAは真核生物において20~24-nt sRNAの重要なクラスを構成し、主にライフサイクル開発段階を通じて著名な遺伝子調節因子として転写後のレベルで機能するとともに、刺激およびストレス応答^2、3において機能する。植物において、miRNAは、一般に個々の転写単位^4、5としてRNAポリメラーゼIIによって転写されるpri-miRNAと呼ばれる一次転写物から生じる。進化的に保存された細胞機械(動物のドロシャ・RNase III、植物におけるDICER様)によって処理され、pri-miRNAは、分子内幹ループ構造^を形成する配列を含む即時miRNA前駆体、プレmiRNAに切除^される。その後、プレミRNAは、機能鎖、成熟miRNA、およびあまり頻繁に機能しないパートナー、miRNA*2、8からなる二本鎖中間体、すなわちmiRNA二重鎖に処理される。RNA誘導サイレンシング複合体(RISC)にロードされた後、成熟したmiRNAは、配列相補性に基づいてmRNA標的を認識することができ、その結果、負の調節機能^2、8をもたらす。miRNAは、ターゲットトランスクリプトを不安定にするか、ターゲット翻訳を防ぐことができますが、前者の方法は植物^8、9で支配されています。

線虫カエノルハブディティス・エレガンス^10、11における最初のmiRNAの発見以来、特にNGS法の入手後に、miRNA同定とその機能解析に多くの研究が行われてきた。NGS法の広範な応用は、前駆体の幹ループ構造や成熟miRNAおよびmiRNA*における配列読み取りの優先的蓄積など、miRNAのユニークな特徴を捕捉するように設計された計算ツールの利用を大幅に促進しました。その結果、研究者は多様な種のmiRNAを同定する上で顕著な成功を収めています。先に説明した確率モデル¹²に基づいて、NGSデータから植物miRNAを発見するための最初の計算ツールであるmiRDeep-P¹³を開発しました。miRDeep-Pは、より可変的な前駆体長と大きなパラロゴスファミリー^13、14、15を特徴とするプラントmiRNAのデコードの課題を克服することを特^に目的としました。そのリリース後、このプログラムは何千回もダウンロードされ、40以上の植物種¹⁶でmiRNA転写物に注釈を付けるために使用されています。miRDeep-PのようなNGSベースのツールによって推進され、パブリックmiRNAリポジトリmiRBase¹⁷に登録されたmiRNAの数が劇的に増加しており、2008年¹⁸年には約500 miRNA項目(リリース2.0)に比べて38,000以上のmiRNAアイテムがホストされています(リリース22.1)。

しかし、植物miRNAアノテーションから2つの新しい課題が生じている。第一に、偽陽性の高い比率は、次の理由で植物miRNAアノテーション^16、19の品質に大きな影響を与えました:1)NGS sRNAライブラリからの内因性短絡干渉RNA(siRNA)の希薄さは、厳格なmiRNAアノテーション基準がないためにmiRNAとして誤って注釈付けされました。2)事前miRNA情報を持たない種については、NGSデータに基づいて予測される偽陽性を排除することは困難である。例としてmiRBaseを使用して、テイラーら²⁰は、パブリックリポジトリ^{21(リリース21)}の植物miRNAエントリの3分の1が説得力のある証拠を欠いて、植物miRNAファミリーの4分の3さえ疑わしいことを発見しました。第二に、大規模で複雑なゲノム¹⁶を有する植物miRNAを予測するための非常に時間のかかるプロセスとなる。これらの課題を克服するために、新しいフィルタリング戦略を追加し、スコアリングアルゴリズムを見直し、プラントmiRNAアノテーションの新しい基準を統合することでmiRDeep-Pを更新し、新しいバージョンのmiRDP2をリリースしました。さらに、徐々にゲノムサイズが増加するNGS sRNAデータセット(アラビドプシス、米、トマト、トウモロコシ、小麦)を用いてmiRDP2をテストしました。他の5つの広く使用されているツールとその古いバージョンと比較して、miRDP2はこれらのsRNAデータを解析し、精度と感度を向上させ、miRNA転写物をより速く分析しました。

miRDP2 パッケージの内容
miRDP2 パッケージは、準備された bash スクリプトによって順番に実行する必要がある 6 つの文書化された Perl スクリプトで構成されます。6 つのスクリプトのうち、3 つのスクリプト (convert_bowtie_to_blast.pl、 filter_alignments.pl、およびexcise_candidate.pl) は miRDeep-P から継承されます。その他のスクリプトは、元のバージョンから変更されます。6 つのスクリプトの機能については、以下で説明します。

preprocess_reads.plは、入力読み取りを含め、長すぎる読み取りまたは短すぎる読み取り (25 nt)、Rfam ncRNA シーケンスと相関する読み取り、および RPM (100 万分の読み取り) による読み取りが 5 未満である。次に、スクリプトは既知の miRNA 成熟配列に関連付けられた読み取りを取得します。入力ファイルは、FASTA/FASTQ 形式のオリジナル読み取りであり、miRNA および ncRNA シーケンスへの読み取りマッピングの bowtie2 出力です。

RPM を計算する式は次のとおりです。

convert_bowtie_to_blast.plは、ボウタイ形式を BLAST 解析形式に変更します。BLAST 解析形式は、標準の NCBI BLASToutput 形式から派生したカスタム表形式で区切られた形式です。

filter_alignments.plは、ディープシーケンシング読み取りのアライメントをゲノムにフィルター処理します。部分的な位置合わせとマルチアライメント読み取り (ユーザー指定の周波数カットオフ) をフィルター処理します。基本入力は、BLAST 解析形式のファイルです。

excise_candidate.plは、配置された読み取りをガイドラインとして使用して、参照シーケンスから潜在的な前駆体シーケンスを切り取ります。基本入力は、BLAST 解析形式のファイルと FASTA ファイルです。出力は、FASTA 形式のすべての潜在的な前駆体シーケンスです。

mod-miRDP.plには、植物固有のパラメータを使用してスコアリングシステムを変更することにより、コアmiRDeep-Pアルゴリズムから変更される2つの入力ファイル、シグネチャファイルと構造ファイルが必要です。入力ファイルはドットブラケット前駆体構造ファイルであり、配布署名ファイルを読み取ります。

mod-rm_redundant_meet_plant.plには、chromosome_length、前駆体、mod-miRDP.plによって生成されたoriginal_predictionの 3 つの入力ファイルが必要です。これは、2つの出力ファイル、非冗長予測ファイル、および新たに更新されたプラントmiRNA基準によってフィルタリングされた予測ファイルを生成します。出力ファイルの形式の詳細については、セクション 1.4 で説明します。

Protocol

1. インストールとテスト必要な依存関係をダウンロード: Bowtie222と RNAfold23.コンパイル済みパッケージをお勧めします。読み取りマッピングツールである Bowtie2 をホームサイト (http://bowtie-bio.sourceforge.net/bowtie2/index.shtml) からダウンロードします。 RNA二次構造を予測するた…

Representative Results

本明細書に記載されるmiRNAアノテーションパイプラインmiRDP2は、アラビドプシス・タリアナ、オリザ・サティバ(米)、ソラナム・ライコペルシカム(トマト)、ゼア・メイス(トウモロコシ)およびトリティカム・アエスティブム(図1A)を含む、徐々に増加したゲノム長を有する5つの植物種から10の公共sRNA-seqライブラリーに適用さ…

Discussion

NGSの出現により、多様な種^29、30におけるsRNAシーケンシングデータの増加量から多数のmiRNA遺伝子座が同定されている。集中型コミュニティデータベースmiRBase²¹では、寄託されたmiRNAアイテムが過去10年間でほぼ100倍に増加しています。しかし、動物のmiRNAと比較して、植物miRNAは、識別/注釈をより複雑にする多くのユニークな機能?…

Disclosures

The authors have nothing to disclose.

Acknowledgements

この研究は、北京農林科学アカデミー(KJCX201917、KJCX20180425、KJCX20180204)から中国国立自然科学財団(31621001)からLLに支援されています。

Materials

Computer/computing node

N/A

Perl is required; at least 8 GB RAM and 100 GB storage are recommended

References

Ghildiyal, M., Zamore, P. D. Small silencing RNAs: an expanding universe. Nature Reviews Genetics. 10 (2), 94-108 (2009).
Bartel, D. P. MicroRNAs: target recognition and regulatory functions. Cell. 136 (2), 215-233 (2009).
Moran, Y., Agron, M., Praher, D., Technau, U. The evolutionary origin of plant and animal microRNAs. Nature Ecology Evolution. 1 (3), 27 (2017).
Xie, Z., et al. Expression of Arabidopsis MIRNA genes. Plant Physiology. 138 (4), 2145-2154 (2005).
Zhao, X., Zhang, H., Li, L. Identification and analysis of the proximal promoters of microRNA genes in Arabidopsis. Genomics. 101 (3), 187-194 (2013).
Bologna, N. G., Mateos, J. L., Bresso, E. G., Palatnik, J. F. A loop-to-base processing mechanism underlies the biogenesis of plant microRNAs miR319 and miR159. EMBO JOURNAL. 28 (23), 3646-3656 (2009).
Rogers, K., Chen, X. Biogenesis, turnover, and mode of action of plant microRNAs. Plant Cell. 25 (7), 2383-2399 (2013).
Voinnet, O. Origin, biogenesis, and activity of plant microRNAs. Cell. 136 (4), 669-687 (2009).
Iwakawa, H. O., Tomari, Y. The Functions of MicroRNAs: mRNA Decay and Translational Repression. Trends in Cell Biology. 25 (11), 651-665 (2015).
Lee, R. C., Feinbaum, R. L., Ambros, V. The C. elegans heterochronic gene lin-4 encodes small RNAs with antisense complementarity to lin-14. Cell. 75 (5), 843-854 (1993).
Wightman, B., Ha, I., Ruvkun, G. Posttranscriptional regulation of the heterochronic gene lin-14 by lin-4 mediates temporal pattern formation in C. elegans. Cell. 75 (5), 855-862 (1993).
Friedlander, M. R., et al. Discovering microRNAs from deep sequencing data using miRDeep. Nature Biotechnology. 26 (4), 407-415 (2008).
Yang, X., Li, L. miRDeep-P: a computational tool for analyzing the microRNA transcriptome in plants. Bioinformatics. 27 (18), 2614-2615 (2011).
Meyers, B. C., et al. Criteria for annotation of plant MicroRNAs. Plant Cell. 20 (12), 3186-3190 (2008).
Yang, X., Zhang, H., Li, L. Global analysis of gene-level microRNA expression in Arabidopsis using deep sequencing data. Genomics. 98 (1), 40-46 (2011).
Kuang, Z., Wang, Y., Li, L., Yang, X. miRDeep-P2: accurate and fast analysis of the microRNA transcriptome in plants. Bioinformatics. , (2018).
Kozomara, A., Birgaoanu, M., Griffiths-Jones, S. miRBase: from microRNA sequences to function. Nucleic Acids Research. 47 (1), 155-162 (2019).
Griffiths-Jones, S., Saini, H. K., van Dongen, S., Enright, A. J. miRBase: tools for microRNA genomics. Nucleic Acids Research. 36, 154-158 (2008).
Axtell, M. J., Meyers, B. C. Revisiting Criteria for Plant MicroRNA Annotation in the Era of Big Data. Plant Cell. 30 (2), 272-284 (2018).
Taylor, R. S., Tarver, J. E., Hiscock, S. J., Donoghue, P. C. Evolutionary history of plant microRNAs. Trends in Plant Science. 19 (3), 175-182 (2014).
Kozomara, A., Griffiths-Jones, S. miRBase: annotating high confidence microRNAs using deep sequencing data. Nucleic Acids Research. 42, 68-73 (2014).
Langmead, B., Salzberg, S. L. Fast gapped-read alignment with Bowtie 2. Nature Methods. 9 (4), 357-359 (2012).
Lorenz, R., et al. ViennaRNA Package 2.0. Algorithms for Molecular Biology. 6, 26 (2011).
Langmead, B., Trapnell, C., Pop, M., Salzberg, S. L. Ultrafast and memory-efficient alignment of short DNA sequences to the human genome. Genome Biology. 10 (3), 25 (2009).
An, J., Lai, J., Sajjanhar, A., Lehman, M. L., Nelson, C. C. miRPlant: an integrated tool for identification of plant miRNA from RNA sequencing data. BMC Bioinformatics. 15, 275 (2014).
Lei, J., Sun, Y. miR-PREFeR: an accurate, fast and easy-to-use plant miRNA prediction tool using small RNA-Seq data. Bioinformatics. 30 (19), 2837-2839 (2014).
Evers, M., Huttner, M., Dueck, A., Meister, G., Engelmann, J. C. miRA: adaptable novel miRNA identification in plants using small RNA sequencing data. BMC Bioinformatics. 16, 370 (2015).
Mathelier, A., Carbone, A. MIReNA: finding microRNAs with high accuracy and no learning at genome scale and from deep sequencing data. Bioinformatics. 26 (18), 2226-2234 (2010).
Zhu, Q. H., et al. A diverse set of microRNAs and microRNA-like small RNAs in developing rice grains. Genome Research. 18 (9), 1456-1465 (2008).
Fahlgren, N., et al. MicroRNA gene evolution in Arabidopsis lyrata and Arabidopsis thaliana. Plant Cell. 22 (4), 1074-1089 (2010).
Fromm, B., et al. A Uniform System for the Annotation of Vertebrate microRNA Genes and the Evolution of the Human microRNAome. Annual Review of Genetics. 49, 213-242 (2015).
Blevins, T., et al. Identification of Pol IV and RDR2-dependent precursors of 24 nt siRNAs guiding de novo DNA methylation in Arabidopsis. Elife. 4, 09591 (2015).
Zhai, J., et al. A One Precursor One siRNA Model for Pol IV-Dependent siRNA Biogenesis. Cell. 163 (2), 445-455 (2015).
Werner, S., Wollmann, H., Schneeberger, K., Weigel, D. Structure determinants for accurate processing of miR172a in Arabidopsis thaliana. Current Biology. 20 (1), 42-48 (2010).
Mateos, J. L., Bologna, N. G., Chorostecki, U., Palatnik, J. F. Identification of microRNA processing determinants by random mutagenesis of Arabidopsis MIR172a precursor. Current Biology. 20 (1), 49-54 (2010).
Vitsios, D. M., et al. Mirnovo: genome-free prediction of microRNAs from small RNA sequencing data and single-cells using decision forests. Nucleic Acids Research. 45 (21), 177 (2017).

Play Video

PDF

DOI

DOWNLOAD MATERIALS LIST

Cite This Article

Wang, Y., Kuang, Z., Li, L., Yang, X. A Bioinformatics Pipeline to Accurately and Efficiently Analyze the MicroRNA Transcriptomes in Plants. J. Vis. Exp. (155), e59864, doi:10.3791/59864 (2020).

Automatically Generated