Un pipeline bioinformatique, à savoir miRDeep-P2 (miRDP2 pour faire court), avec des critères de miARN végétal mis à jour et un algorithme révisé, pourrait analyser avec précision et efficacité les transcriptomes de microARN chez les plantes, en particulier pour les espèces ayant des génomes complexes et volumineux.
Les microARN (miARN) sont de 20 à 24 nucléotides (nt) endogènes petits ARN (sRNAs) largement existant dans les plantes et les animaux qui jouent un rôle puissant dans la régulation de l’expression des gènes au niveau post-transcriptionnel. Le séquençage des bibliothèques de sRNA par les méthodes de séquençage de la prochaine génération (NGS) a été largement utilisé pour identifier et analyser les transcriptomes de miRNA au cours de la dernière décennie, ce qui a entraîné une augmentation rapide de la découverte de miRNA. Cependant, deux défis majeurs se posent dans l’annotation de miRNA de plante due à la profondeur croissante des bibliothèques séquentielles de sRNA aussi bien que la taille et la complexité des génomes de plante. Tout d’abord, de nombreux autres types d’ARNr, en particulier, les ARN à court interférant (siRNAs) des bibliothèques d’ARNde, sont annotés à tort comme miRNAs par de nombreux outils informatiques. Deuxièmement, il devient un processus extrêmement long pour analyser les transcriptomes miRNA chez les espèces végétales avec des génomes grands et complexes. Pour surmonter ces défis, nous avons récemment mis à niveau miRDeep-P (un outil populaire pour les analyses de transcriptome miRNA) à miRDeep-P2 (miRDP2 pour faire court) en employant une nouvelle stratégie de filtrage, en remaniant l’algorithme de notation et en incorporant miRNA usine nouvellement mis à jour critères d’annotation. Nous avons testé miRDP2 contre des populations d’ARNs séquentielles dans cinq plantes représentatives présentant une complexité génomique croissante, y compris l’arabidopsis, le riz, la tomate, le maïs et le blé. Les résultats indiquent que miRDP2 a traité ces tâches avec une très grande efficacité. En outre, miRDP2 a surpassé les autres outils de prédiction en ce qui concerne la sensibilité et la précision. Pris ensemble, nos résultats démontrent miRDP2 comme un outil rapide et précis pour analyser les transcriptomes miRNA des plantes, donc un outil utile pour aider la communauté à mieux annoter miRNAs dans les plantes.
L’une des découvertes les plus passionnantes des deux dernières décennies en biologie est le rôle proliférant des espèces d’ARNs dans la régulation des diverses fonctions du génome1. En particulier, les miARN constituent une classe importante de 20 à 24 sRNAs dans les eucaryotes, et fonctionnent principalement au niveau post-transcriptionnel en tant que régulateurs génétiques de premier plan tout au long des étapes de développement du cycle de vie ainsi que dans les réponses de stimulus et de stress2,3. Chez les plantes, les miARN proviennent de transcriptions primaires appelées pri-miRNAs, qui sont généralement transcrites par l’ARN polymérase II comme unités de transcription individuelles4,5. Traitées par des machines cellulaires évolutivement conservées (Drosha RNase III chez les animaux, comme dicER chez les plantes), les pri-miRNAs sont excisées dans les précurseurs immédiats de miRNA, les pré-miRNAs, qui contiennent des séquences formant des structures intramoléculaires de boucle de tige6,7. Les pré-miRNAs sont ensuite transformés en intermédiaires à double brin, à savoir les duplex miRNA, constitués du brin fonctionnel, du miRNA mature et du partenaire moins fréquemment fonctionnel,miRNAMD 2,8. Après avoir été chargés dans le complexe de silençage induit par l’ARN (RISC), les miARN matures pouvaient reconnaître leurs cibles d’ARNm en fonction de la complémentarité de la séquence, ce qui a entraîné une fonction réglementaire négative2,8. miRNAs pourrait soit déstabiliser leurs transcriptions cibles ou empêcher la traduction cible, mais l’ancienne manière est dominée dans les plantes8,9.
Depuis la découverte fortuite du premier miRNA dans le nématode Caenorhabditis elegans10,11, beaucoup de recherche a été engagée à l’identification miRNA et son analyse fonctionnelle, en particulier après la disponibilité de la méthode NGS. La large application de la méthode NGS a grandement favorisé l’utilisation d’outils informatiques conçus pour saisir la caractéristique unique des miARN, tels que la structure en boucle de tige des précurseurs et leur accumulation préférentielle de lectures de séquence séquencés sur le miRNA mature et le miRNAMD. En conséquence, les chercheurs ont obtenu un succès remarquable dans l’identification des miARN chez diverses espèces. Basé sur un modèle de probabilité précédemment décrit12,nous avons développé miRDeep-P13, qui a été le premier outil de calcul pour découvrir des miARN végétaux à partir de données NGS. miRDeep-P visait spécifiquement à surmonter les défis du décodage des miARN végétaux avec une longueur de précurseur plus variable et de grandes familles paralogues13,14,15. Après sa sortie, ce programme a été téléchargé des milliers de fois et utilisé pour annoter les transcriptomes miRNA dans plus de 40 espèces végétales16. Propulsé par des outils basés sur NGS comme miRDeep-P, il ya eu une augmentation spectaculaire du nombre de miRNAs enregistrés dans le dépôt de miRNA public miRBase17, où plus de 38.000 articles miRNA sont actuellement hébergés (libération 22.1) par rapport à seulement 500 articles miRNA (libération 2.0) en 200818.
Cependant, deux nouveaux défis ont surgi de l’annotation de miRNA de plante. Tout d’abord, des ratios élevés de faux positifs ont eu un impact important sur la qualité des annotations miRNA végétales16,19 pour les raisons suivantes : 1) un déluge d’ARN endogènes brefs interférants (siRNAs) des bibliothèques ngS sRNA ont été annotés à tort comme miRNAs en raison de l’absence d’un miRNA rigoureux et de critères; 2) pour les espèces sans information a priori miRNA, les faux positifs prédits sur la base des données NGS sont difficiles à éliminer. En utilisant miRBase à titre d’exemple, Taylor et coll.20 ont constaté qu’un tiers des entrées de miRNA des plantes dans le dépôt public21 (libération 21) n’avaient pas de preuves convaincantes à l’appui et même les trois quarts des familles de miRNA végétaux étaient discutables. Deuxièmement, il devient un processus extrêmement long pour prédire les miARN végétaux avec des génomes grands et complexes16. Pour surmonter ces défis, nous avons mis à jour miRDeep-P en ajoutant une nouvelle stratégie de filtrage, en remaniant l’algorithme de notation et en intégrant de nouveaux critères pour l’annotation miRNA végétale, et avons publié la nouvelle version miRDP2. En outre, nous avons testé miRDP2 à l’aide d’ensembles de données NGS sRNA avec des tailles de génome s’agrandit progressivement : Arabidopsis, riz, tomate, maïs et blé. Comparé à cinq autres outils largement utilisés et à son ancienne version, miRDP2 a analysé ces données d’ARNs et analysé les transcriptomes de miRNA plus rapidement avec une précision et une sensibilité améliorées.
Contenu du paquet miRDP2
Le paquet miRDP2 se compose de six scripts Perl documentés qui doivent être exécutés de façon séquentielle par le script bash préparé. Des six scripts, trois (convert_bowtie_to_blast.pl, filter_alignments.pl, et excise_candidate.pl) sont hérités de miRDeep-P. Les autres scripts sont modifiés à partir de la version originale. Les fonctions des six scripts sont décrites dans les éléments suivants :
preprocess_reads.pl filtre les lectures d’entrée, y compris les lectures qui sont trop longues ou trop courtes (lt;19 nt ou ‘gt;25 nt), et se lit en corrélation avec les séquences Rfam ncRNA, ainsi que des lectures avec RPM (Reads Per Million) moins de 5. Le script récupère ensuite des lectures corrélées à des séquences matures connues de miRNA. Les fichiers d’entrée sont des lectures originales dans le format FASTA/FASTQ et la sortie bowtie2 de lectures cartographiques vers des séquences miRNA et ncRNA.
La formule de calcul du RPM est la suivante :
convert_bowtie_to_blast.pl change le format noeud papillon en format BLAST-parsed. Le format blast-parsed est un format tabulaire séparé personnalisé dérivé du format standard NCBI BLASToutput.
filter_alignments.pl filtre les alignements de séquençage profond se lit à un génome. Il filtre les alignements partiels ainsi que les lectures multi-alignées (coupure de fréquence spécifiée par l’utilisateur). L’entrée de base est un fichier en format BLAST-parsed.
excise_candidate.pl élimine les séquences précurseurs potentielles d’une séquence de référence à l’aide de lectures alignées comme lignes directrices. L’entrée de base est un fichier en format BLAST-parsed et un fichier FASTA. La sortie est toutes les séquences précurseurs potentiels en format FASTA.
mod-miRDP.pl a besoin de deux fichiers d’entrée, fichier de signature et fichier de structure, qui est modifié à partir de l’algorithme de base miRDeep-P en modifiant le système de notation avec des paramètres spécifiques à l’usine. Les fichiers d’entrée sont des fichiers de structure précurseur point-bracket et lit le fichier de signature de distribution.
mod-rm_redundant_meet_plant.pl a besoin de trois fichiers d’entrée : chromosome_length, précurseurs et original_prediction générés par mod-miRDP.pl. Il génère deux fichiers de sortie, fichier prévu non redondant et fichier prévu filtré par les critères de miRNA végétale récemment mis à jour. Les détails sur le format du fichier de sortie sont décrits à la section 1.4.
Avec l’avènement de NGS, un grand nombre de loci miRNA ont été identifiés à partir d’une quantité sans cesse croissante de données de séquençage de l’ARNde chez diverses espèces29,30. Dans la base de données communautaire centralisée miRBase21, les éléments miRNA déposés ont augmenté de près de 100 fois au cours de la dernière décennie. Cependant, par rapport aux miRNAs chez les animaux, les miARN végétaux ont de nomb…
The authors have nothing to disclose.
Ce travail a été soutenu par beijing Academy of Agriculture and Forestry Sciences (KJCX201917, KJCX20180425, et KJCX20180204) à XY et National Natural Science Foundation of China (31621001) à LL.
Computer/computing node | N/A | N/A | Perl is required; at least 8 GB RAM and 100 GB storage are recommended |