A Bioinformatics Pipeline to Accurately and Efficiently Analyze the MicroRNA Transcriptomes in Plants

Ying Wang; Zheng Kuang; Lei Li; Xiaozeng Yang

doi:10.3791/59864

JoVE Journal > Genetics

Please note that all translations are automatically generated. Click here for the English version.

Genetica

Un pipeline de bioinformatique pour analyser avec précision et efficacité les transcriptomes microARN dans les plantes

Published: January 21, 2020

doi:

10.3791/59864

Ying Wang*^1,2, Zheng Kuang*^1,2, Lei Li, Xiaozeng Yang

¹Beijing Key Laboratory of Agricultural Genetic Resources and Biotechnology, Beijing Agro-Biotechnology Research Center,Beijing Academy of Agriculture and Forestry Sciences, ²State Key Laboratory of Protein and Plant Gene Research, Peking-Tsinghua Center for Life Sciences, School of Advanced Agricultural Sciences and School of Life Sciences,Peking University

Summary

Un pipeline bioinformatique, à savoir miRDeep-P2 (miRDP2 pour faire court), avec des critères de miARN végétal mis à jour et un algorithme révisé, pourrait analyser avec précision et efficacité les transcriptomes de microARN chez les plantes, en particulier pour les espèces ayant des génomes complexes et volumineux.

Abstract

Les microARN (miARN) sont de 20 à 24 nucléotides (nt) endogènes petits ARN (sRNAs) largement existant dans les plantes et les animaux qui jouent un rôle puissant dans la régulation de l’expression des gènes au niveau post-transcriptionnel. Le séquençage des bibliothèques de sRNA par les méthodes de séquençage de la prochaine génération (NGS) a été largement utilisé pour identifier et analyser les transcriptomes de miRNA au cours de la dernière décennie, ce qui a entraîné une augmentation rapide de la découverte de miRNA. Cependant, deux défis majeurs se posent dans l’annotation de miRNA de plante due à la profondeur croissante des bibliothèques séquentielles de sRNA aussi bien que la taille et la complexité des génomes de plante. Tout d’abord, de nombreux autres types d’ARNr, en particulier, les ARN à court interférant (siRNAs) des bibliothèques d’ARNde, sont annotés à tort comme miRNAs par de nombreux outils informatiques. Deuxièmement, il devient un processus extrêmement long pour analyser les transcriptomes miRNA chez les espèces végétales avec des génomes grands et complexes. Pour surmonter ces défis, nous avons récemment mis à niveau miRDeep-P (un outil populaire pour les analyses de transcriptome miRNA) à miRDeep-P2 (miRDP2 pour faire court) en employant une nouvelle stratégie de filtrage, en remaniant l’algorithme de notation et en incorporant miRNA usine nouvellement mis à jour critères d’annotation. Nous avons testé miRDP2 contre des populations d’ARNs séquentielles dans cinq plantes représentatives présentant une complexité génomique croissante, y compris l’arabidopsis, le riz, la tomate, le maïs et le blé. Les résultats indiquent que miRDP2 a traité ces tâches avec une très grande efficacité. En outre, miRDP2 a surpassé les autres outils de prédiction en ce qui concerne la sensibilité et la précision. Pris ensemble, nos résultats démontrent miRDP2 comme un outil rapide et précis pour analyser les transcriptomes miRNA des plantes, donc un outil utile pour aider la communauté à mieux annoter miRNAs dans les plantes.

Introduction

L’une des découvertes les plus passionnantes des deux dernières décennies en biologie est le rôle proliférant des espèces d’ARNs dans la régulation des diverses fonctions du génome¹. En particulier, les miARN constituent une classe importante de 20 à 24 sRNAs dans les eucaryotes, et fonctionnent principalement au niveau post-transcriptionnel en tant que régulateurs génétiques de premier plan tout au long des étapes de développement du cycle de vie ainsi que dans les réponses de stimulus et de stress²^,³. Chez les plantes, les miARN proviennent de transcriptions primaires appelées pri-miRNAs, qui sont généralement transcrites par l’ARN polymérase II comme unités de transcription individuelles⁴^,⁵. Traitées par des machines cellulaires évolutivement conservées (Drosha RNase III chez les animaux, comme dicER chez les plantes), les pri-miRNAs sont excisées dans les précurseurs immédiats de miRNA, les pré-miRNAs, qui contiennent des séquences formant des structures intramoléculaires de boucle de tige⁶^,⁷. Les pré-miRNAs sont ensuite transformés en intermédiaires à double brin, à savoir les duplex miRNA, constitués du brin fonctionnel, du miRNA mature et du partenaire moins fréquemment fonctionnel,^{miRNAMD 2}^,⁸. Après avoir été chargés dans le complexe de silençage induit par l’ARN (RISC), les miARN matures pouvaient reconnaître leurs cibles d’ARNm en fonction de la complémentarité de la séquence, ce qui a entraîné une fonction réglementaire négative²^,⁸. miRNAs pourrait soit déstabiliser leurs transcriptions cibles ou empêcher la traduction cible, mais l’ancienne manière est dominée dans les plantes⁸^,⁹.

Depuis la découverte fortuite du premier miRNA dans le nématode Caenorhabditis elegans¹⁰^,¹¹, beaucoup de recherche a été engagée à l’identification miRNA et son analyse fonctionnelle, en particulier après la disponibilité de la méthode NGS. La large application de la méthode NGS a grandement favorisé l’utilisation d’outils informatiques conçus pour saisir la caractéristique unique des miARN, tels que la structure en boucle de tige des précurseurs et leur accumulation préférentielle de lectures de séquence séquencés sur le miRNA mature et le miRNAMD. En conséquence, les chercheurs ont obtenu un succès remarquable dans l’identification des miARN chez diverses espèces. Basé sur un modèle de probabilité précédemment décrit^12,nous avons développé miRDeep-P¹³, qui a été le premier outil de calcul pour découvrir des miARN végétaux à partir de données NGS. miRDeep-P visait spécifiquement à surmonter les défis du décodage des miARN végétaux avec une longueur de précurseur plus variable et de grandes familles paralogues¹³^,¹⁴^,¹⁵. Après sa sortie, ce programme a été téléchargé des milliers de fois et utilisé pour annoter les transcriptomes miRNA dans plus de 40 espèces végétales¹⁶. Propulsé par des outils basés sur NGS comme miRDeep-P, il ya eu une augmentation spectaculaire du nombre de miRNAs enregistrés dans le dépôt de miRNA public miRBase¹⁷, où plus de 38.000 articles miRNA sont actuellement hébergés (libération 22.1) par rapport à seulement 500 articles miRNA (libération 2.0) en 2008¹⁸.

Cependant, deux nouveaux défis ont surgi de l’annotation de miRNA de plante. Tout d’abord, des ratios élevés de faux positifs ont eu un impact important sur la qualité des annotations miRNA végétales¹⁶^,¹⁹ pour les raisons suivantes : 1) un déluge d’ARN endogènes brefs interférants (siRNAs) des bibliothèques ngS sRNA ont été annotés à tort comme miRNAs en raison de l’absence d’un miRNA rigoureux et de critères; 2) pour les espèces sans information a priori miRNA, les faux positifs prédits sur la base des données NGS sont difficiles à éliminer. En utilisant miRBase à titre d’exemple, Taylor et coll.²⁰ ont constaté qu’un tiers des entrées de miRNA des plantes dans le dépôt public²¹ (libération 21) n’avaient pas de preuves convaincantes à l’appui et même les trois quarts des familles de miRNA végétaux étaient discutables. Deuxièmement, il devient un processus extrêmement long pour prédire les miARN végétaux avec des génomes grands et complexes¹⁶. Pour surmonter ces défis, nous avons mis à jour miRDeep-P en ajoutant une nouvelle stratégie de filtrage, en remaniant l’algorithme de notation et en intégrant de nouveaux critères pour l’annotation miRNA végétale, et avons publié la nouvelle version miRDP2. En outre, nous avons testé miRDP2 à l’aide d’ensembles de données NGS sRNA avec des tailles de génome s’agrandit progressivement : Arabidopsis, riz, tomate, maïs et blé. Comparé à cinq autres outils largement utilisés et à son ancienne version, miRDP2 a analysé ces données d’ARNs et analysé les transcriptomes de miRNA plus rapidement avec une précision et une sensibilité améliorées.

Contenu du paquet miRDP2
Le paquet miRDP2 se compose de six scripts Perl documentés qui doivent être exécutés de façon séquentielle par le script bash préparé. Des six scripts, trois (convert_bowtie_to_blast.pl, filter_alignments.pl, et excise_candidate.pl) sont hérités de miRDeep-P. Les autres scripts sont modifiés à partir de la version originale. Les fonctions des six scripts sont décrites dans les éléments suivants :

preprocess_reads.pl filtre les lectures d’entrée, y compris les lectures qui sont trop longues ou trop courtes (lt;19 nt ou ‘gt;25 nt), et se lit en corrélation avec les séquences Rfam ncRNA, ainsi que des lectures avec RPM (Reads Per Million) moins de 5. Le script récupère ensuite des lectures corrélées à des séquences matures connues de miRNA. Les fichiers d’entrée sont des lectures originales dans le format FASTA/FASTQ et la sortie bowtie2 de lectures cartographiques vers des séquences miRNA et ncRNA.

La formule de calcul du RPM est la suivante :

convert_bowtie_to_blast.pl change le format noeud papillon en format BLAST-parsed. Le format blast-parsed est un format tabulaire séparé personnalisé dérivé du format standard NCBI BLASToutput.

filter_alignments.pl filtre les alignements de séquençage profond se lit à un génome. Il filtre les alignements partiels ainsi que les lectures multi-alignées (coupure de fréquence spécifiée par l’utilisateur). L’entrée de base est un fichier en format BLAST-parsed.

excise_candidate.pl élimine les séquences précurseurs potentielles d’une séquence de référence à l’aide de lectures alignées comme lignes directrices. L’entrée de base est un fichier en format BLAST-parsed et un fichier FASTA. La sortie est toutes les séquences précurseurs potentiels en format FASTA.

mod-miRDP.pl a besoin de deux fichiers d’entrée, fichier de signature et fichier de structure, qui est modifié à partir de l’algorithme de base miRDeep-P en modifiant le système de notation avec des paramètres spécifiques à l’usine. Les fichiers d’entrée sont des fichiers de structure précurseur point-bracket et lit le fichier de signature de distribution.

mod-rm_redundant_meet_plant.pl a besoin de trois fichiers d’entrée : chromosome_length, précurseurs et original_prediction générés par mod-miRDP.pl. Il génère deux fichiers de sortie, fichier prévu non redondant et fichier prévu filtré par les critères de miRNA végétale récemment mis à jour. Les détails sur le format du fichier de sortie sont décrits à la section 1.4.

Protocol

1. Installation et essais Télécharger les dépendances requises: Bowtie222 et RNAfold23. Les paquets compilés sont recommandés. Téléchargez Bowtie2, un outil de cartographie de lecture, à partir de son site d’origine (http://bowtie-bio.sourceforge.net/bowtie2/index.shtml). Télécharger RNAfold, un outil du paquet de Vienne utilisé pour prédire la struct…

Representative Results

Le pipeline d’annotation miRNA, miRDP2, décrit ci-dessus est appliqué à 10 bibliothèques publiques de sRNA-seq de 5 espèces végétales dont la longueur du génome a augmenté progressivement, y compris Arabidopsis thaliana, Oryza sativa (riz), Solanum lycopersicum (tomate), Zea mays (maïs) et Triticum aestivum (blé) (Figure 1A). Dans l’ensemble, pour chaque espèce, 2 bibliothèques représentatives de l’ARNM provenant de …

Discussion

Avec l’avènement de NGS, un grand nombre de loci miRNA ont été identifiés à partir d’une quantité sans cesse croissante de données de séquençage de l’ARNde chez diverses espèces²⁹^,³⁰. Dans la base de données communautaire centralisée miRBase²¹, les éléments miRNA déposés ont augmenté de près de 100 fois au cours de la dernière décennie. Cependant, par rapport aux miRNAs chez les animaux, les miARN végétaux ont de nomb…

Divulgazioni

The authors have nothing to disclose.

Acknowledgements

Ce travail a été soutenu par beijing Academy of Agriculture and Forestry Sciences (KJCX201917, KJCX20180425, et KJCX20180204) à XY et National Natural Science Foundation of China (31621001) à LL.

Materials

Computer/computing node

N/A

Perl is required; at least 8 GB RAM and 100 GB storage are recommended

Riferimenti

Ghildiyal, M., Zamore, P. D. Small silencing RNAs: an expanding universe. Nature Reviews Genetics. 10 (2), 94-108 (2009).
Bartel, D. P. MicroRNAs: target recognition and regulatory functions. Cell. 136 (2), 215-233 (2009).
Moran, Y., Agron, M., Praher, D., Technau, U. The evolutionary origin of plant and animal microRNAs. Nature Ecology Evolution. 1 (3), 27 (2017).
Xie, Z., et al. Expression of Arabidopsis MIRNA genes. Plant Physiology. 138 (4), 2145-2154 (2005).
Zhao, X., Zhang, H., Li, L. Identification and analysis of the proximal promoters of microRNA genes in Arabidopsis. Genomics. 101 (3), 187-194 (2013).
Bologna, N. G., Mateos, J. L., Bresso, E. G., Palatnik, J. F. A loop-to-base processing mechanism underlies the biogenesis of plant microRNAs miR319 and miR159. EMBO JOURNAL. 28 (23), 3646-3656 (2009).
Rogers, K., Chen, X. Biogenesis, turnover, and mode of action of plant microRNAs. Plant Cell. 25 (7), 2383-2399 (2013).
Voinnet, O. Origin, biogenesis, and activity of plant microRNAs. Cell. 136 (4), 669-687 (2009).
Iwakawa, H. O., Tomari, Y. The Functions of MicroRNAs: mRNA Decay and Translational Repression. Trends in Cell Biology. 25 (11), 651-665 (2015).
Lee, R. C., Feinbaum, R. L., Ambros, V. The C. elegans heterochronic gene lin-4 encodes small RNAs with antisense complementarity to lin-14. Cell. 75 (5), 843-854 (1993).
Wightman, B., Ha, I., Ruvkun, G. Posttranscriptional regulation of the heterochronic gene lin-14 by lin-4 mediates temporal pattern formation in C. elegans. Cell. 75 (5), 855-862 (1993).
Friedlander, M. R., et al. Discovering microRNAs from deep sequencing data using miRDeep. Nature Biotechnology. 26 (4), 407-415 (2008).
Yang, X., Li, L. miRDeep-P: a computational tool for analyzing the microRNA transcriptome in plants. Bioinformatics. 27 (18), 2614-2615 (2011).
Meyers, B. C., et al. Criteria for annotation of plant MicroRNAs. Plant Cell. 20 (12), 3186-3190 (2008).
Yang, X., Zhang, H., Li, L. Global analysis of gene-level microRNA expression in Arabidopsis using deep sequencing data. Genomics. 98 (1), 40-46 (2011).
Kuang, Z., Wang, Y., Li, L., Yang, X. miRDeep-P2: accurate and fast analysis of the microRNA transcriptome in plants. Bioinformatics. , (2018).
Kozomara, A., Birgaoanu, M., Griffiths-Jones, S. miRBase: from microRNA sequences to function. Nucleic Acids Research. 47 (1), 155-162 (2019).
Griffiths-Jones, S., Saini, H. K., van Dongen, S., Enright, A. J. miRBase: tools for microRNA genomics. Nucleic Acids Research. 36, 154-158 (2008).
Axtell, M. J., Meyers, B. C. Revisiting Criteria for Plant MicroRNA Annotation in the Era of Big Data. Plant Cell. 30 (2), 272-284 (2018).
Taylor, R. S., Tarver, J. E., Hiscock, S. J., Donoghue, P. C. Evolutionary history of plant microRNAs. Trends in Plant Science. 19 (3), 175-182 (2014).
Kozomara, A., Griffiths-Jones, S. miRBase: annotating high confidence microRNAs using deep sequencing data. Nucleic Acids Research. 42, 68-73 (2014).
Langmead, B., Salzberg, S. L. Fast gapped-read alignment with Bowtie 2. Nature Methods. 9 (4), 357-359 (2012).
Lorenz, R., et al. ViennaRNA Package 2.0. Algorithms for Molecular Biology. 6, 26 (2011).
Langmead, B., Trapnell, C., Pop, M., Salzberg, S. L. Ultrafast and memory-efficient alignment of short DNA sequences to the human genome. Genome Biology. 10 (3), 25 (2009).
An, J., Lai, J., Sajjanhar, A., Lehman, M. L., Nelson, C. C. miRPlant: an integrated tool for identification of plant miRNA from RNA sequencing data. BMC Bioinformatics. 15, 275 (2014).
Lei, J., Sun, Y. miR-PREFeR: an accurate, fast and easy-to-use plant miRNA prediction tool using small RNA-Seq data. Bioinformatics. 30 (19), 2837-2839 (2014).
Evers, M., Huttner, M., Dueck, A., Meister, G., Engelmann, J. C. miRA: adaptable novel miRNA identification in plants using small RNA sequencing data. BMC Bioinformatics. 16, 370 (2015).
Mathelier, A., Carbone, A. MIReNA: finding microRNAs with high accuracy and no learning at genome scale and from deep sequencing data. Bioinformatics. 26 (18), 2226-2234 (2010).
Zhu, Q. H., et al. A diverse set of microRNAs and microRNA-like small RNAs in developing rice grains. Genome Research. 18 (9), 1456-1465 (2008).
Fahlgren, N., et al. MicroRNA gene evolution in Arabidopsis lyrata and Arabidopsis thaliana. Plant Cell. 22 (4), 1074-1089 (2010).
Fromm, B., et al. A Uniform System for the Annotation of Vertebrate microRNA Genes and the Evolution of the Human microRNAome. Annual Review of Genetics. 49, 213-242 (2015).
Blevins, T., et al. Identification of Pol IV and RDR2-dependent precursors of 24 nt siRNAs guiding de novo DNA methylation in Arabidopsis. Elife. 4, 09591 (2015).
Zhai, J., et al. A One Precursor One siRNA Model for Pol IV-Dependent siRNA Biogenesis. Cell. 163 (2), 445-455 (2015).
Werner, S., Wollmann, H., Schneeberger, K., Weigel, D. Structure determinants for accurate processing of miR172a in Arabidopsis thaliana. Current Biology. 20 (1), 42-48 (2010).
Mateos, J. L., Bologna, N. G., Chorostecki, U., Palatnik, J. F. Identification of microRNA processing determinants by random mutagenesis of Arabidopsis MIR172a precursor. Current Biology. 20 (1), 49-54 (2010).
Vitsios, D. M., et al. Mirnovo: genome-free prediction of microRNAs from small RNA sequencing data and single-cells using decision forests. Nucleic Acids Research. 45 (21), 177 (2017).

Play Video

PDF

DOI

DOWNLOAD MATERIALS LIST

Citazione di questo articolo

Wang, Y., Kuang, Z., Li, L., Yang, X. A Bioinformatics Pipeline to Accurately and Efficiently Analyze the MicroRNA Transcriptomes in Plants. J. Vis. Exp. (155), e59864, doi:10.3791/59864 (2020).