A Bioinformatics Pipeline to Accurately and Efficiently Analyze the MicroRNA Transcriptomes in Plants

Ying Wang; Zheng Kuang; Lei Li; Xiaozeng Yang

doi:10.3791/59864

JoVE Journal > Genetics

Please note that all translations are automatically generated. Click here for the English version.

Génétique

Een bioinformatica-pijpleiding om de MicroRNA Transcriptomes in fabrieken nauwkeurig en efficiënt te analyseren

Published: January 21, 2020

doi:

10.3791/59864

Ying Wang*^1,2, Zheng Kuang*^1,2, Lei Li, Xiaozeng Yang

¹Beijing Key Laboratory of Agricultural Genetic Resources and Biotechnology, Beijing Agro-Biotechnology Research Center,Beijing Academy of Agriculture and Forestry Sciences, ²State Key Laboratory of Protein and Plant Gene Research, Peking-Tsinghua Center for Life Sciences, School of Advanced Agricultural Sciences and School of Life Sciences,Peking University

Summary

Een bioinformatica-pijpleiding, namelijk miRDeep-P2 (kortweg miRDP2), met bijgewerkte plant miRNA-criteria en een gereviseerd algoritme, kan microRNA transcriptomes nauwkeurig en efficiënt analyseren in planten, vooral voor soorten met complexe en grote Genomes.

Abstract

MicroRNAs (miRNAs) zijn 20-tot 24-nucleotide (NT) endogene kleine Rna’s (Srna’s) uitgebreid bestaande in planten en dieren die krachtige rollen spelen bij het reguleren van genexpressie op het post-transcriptional niveau. Sequentiëren sRNA-bibliotheken door Next generation sequencing (NGS) methoden zijn op grote schaal gebruikt om miRNA transcriptomes in de afgelopen tien jaar te identificeren en te analyseren, wat resulteerde in een snelle toename van miRNA Discovery. Echter, twee grote uitdagingen ontstaan in plant miRNA annotatie als gevolg van toenemende diepte van gesequentieerde sRNA Bibliotheken, evenals de grootte en de complexiteit van plant Genomes. Ten eerste, vele andere soorten Srna’s, in het bijzonder, korte interfererende Rna’s (Sirna’s) van sRNA Bibliotheken, worden foutief geannoeerd als miRNAs door veel computationele tools. Ten tweede wordt het een extreem tijdrovend proces voor het analyseren van miRNA transcriptomes in plantensoorten met grote en complexe Genomes. Om deze uitdagingen het hoofd te bieden, hebben we onlangs miRDeep-P (een populaire tool voor miRNA transcriptome-analyses) geüpgraded naar miRDeep-P2 (kortweg miRDP2) door gebruik te maken van een nieuwe filter strategie, het scorings algoritme te herzien en nieuw bijgewerkte plant miRNA te integreren annotatie criteria. We testten miRDP2 tegen geordend Srna populaties in vijf representatieve planten met toenemende genomische complexiteit, met inbegrip van Arabidopsis, rijst, tomaat, maïs en tarwe. De resultaten geven aan dat miRDP2 deze taken met zeer hoge efficiëntie verwerkt. Daarnaast presteerde miRDP2 beter dan andere Voorspellings hulpmiddelen met betrekking tot gevoeligheid en nauwkeurigheid. Samen met onze resultaten demonstreren we miRDP2 als een snel en nauwkeurig hulpmiddel voor het analyseren van plantaardige miRNA transcriptomes, dus een handig hulpmiddel om de Gemeenschap te helpen om miRNAs in planten beter te annoteren.

Introduction

Een van de meest opwindende ontdekkingen in de laatste twee decennia in de biologie is de prolifererende rol van sRNA-soorten bij het reguleren van diverse functies van het genoom¹. In het bijzonder vormen miRNAs een belangrijke klasse van 20-tot 24-NT srna’s in eukaryoten, en werken voornamelijk op post-transcriptional niveau als prominente genregulators gedurende de ontwikkelingsstadia van de levenscyclus, evenals in stimulus-en stress responsen²^,³. In planten ontstaan mirna’s uit primaire transcripten genaamd pri-miRNAs, die over het algemeen worden getranscribeerd door RNA polymerase II als individuele transcriptie eenheden⁴^,⁵. Verwerkt door evolutionair geagglomereerde cellulaire machines (drosha RNase III in dieren, Dicer-achtige in planten), worden pri-miRNAs in de onmiddellijke Mirna-precursoren, pre-miRNAs, opgenomen die sequenties vormen die intra-moleculaire stamlusconstructies⁶^,⁷bevatten. Pre-miRNAs worden vervolgens verwerkt tot dubbel gestrande tussen producten, namelijk Mirna duplexen, bestaande uit het functionele strand, mature Mirna, en de minder vaak functionele partner, Mirna *²^,⁸. Nadat ze in het RNA-geïnduceerde geluids dempings complex (RISC) zijn geladen, konden de volwassen miRNAs hun mRNA-doelen herkennen op basis van sequentie complementariteit, wat resulteerde in een negatieve regelgevende functie van²^,⁸. miRNAs kan ofwel hun doel transcripten destabiliseren of doel vertaling voorkomen, maar de vroegere manier wordt gedomineerd in planten⁸^,⁹.

Sinds de toevallige ontdekking van de eerste Mirna in de nematode Caenorhabditis elegans¹⁰^,¹¹, is veel onderzoek toegewijd aan de identificatie van Mirna en de functionele analyse ervan, vooral na de beschikbaarheid van ngs-methode. De brede toepassing van de NGS-methode heeft het gebruik van computationele tools die zijn ontworpen om het unieke kenmerk van miRNAs vast te leggen, sterk bevorderd, zoals de structuur van de stamlus van precursoren en hun preferentiële opeenhoping van sequentie leest op volwassen miRNA en miRNA *. Als gevolg daarvan hebben onderzoekers opmerkelijk succes geboekt bij het identificeren van miRNAs in verschillende soorten. Op basis van een eerder beschreven kansmodel¹²ontwikkelden we mirdeep-P¹³, de eerste computationele tool voor het ontdekken van installatie miRNAs van ngs data. mirdeep-P was specifiek gericht op het veroveren van de uitdagingen van het decoderen van planten miRNAs met een meer variabele precursor lengte en grote paralogous families¹³^,¹⁴^,¹⁵. Na de release is dit programma duizenden malen gedownload en gebruikt voor het annoteren van miRNA transcriptomes in meer dan 40 plantensoorten¹⁶. Aangedreven door NGS-gebaseerde tools zoals miRDeep-P, is er een dramatische toename van het aantal geregistreerde miRNAs in de openbare miRNA-repository miRBase¹⁷, waar meer dan 38.000 Mirna-items momenteel worden gehost (Release 22,1) in vergelijking met alleen ~ 500 Mirna-items (Release 2,0) in 2008¹⁸.

Er zijn echter twee nieuwe uitdagingen ontstaan uit de annotatie van plant miRNA. Eerste, hoge verhoudingen van valse-positieven hebben sterk beïnvloed de kwaliteit van plant Mirna aantekeningen¹⁶^,¹⁹ om de volgende redenen: 1) een stortvloed van endogene korte storende rna’s (sirna’s) van ngs Srna-bibliotheken werd ten onrechte geannoteerd als miRNAs vanwege het ontbreken van een strenge Mirna-annotatie criteria; 2) voor soorten zonder a priori miRNA informatie, valse-positieven voorspeld op basis van NGS-gegevens zijn moeilijk te elimineren. Met behulp van miRBase als voorbeeld vond Taylor et al.²⁰ een derde van de vermeldingen van plant Mirna in de openbare repository²¹ (Release 21) ontbrak overtuigend ondersteunend bewijs en zelfs drie-vierde van plant Mirna families waren twijfelachtig. Ten tweede wordt het een extreem tijdrovend proces voor het voorspellen van planten miRNAs met grote en complexe genomen¹⁶. Om deze uitdagingen te overwinnen, hebben we miRDeep-P bijgewerkt door een nieuwe filter strategie toe te voegen, het scorings algoritme te herzien en nieuwe criteria te integreren voor de installatie van miRNA annotatie, en de nieuwe versie miRDP2 uitgebracht. Daarnaast testten we miRDP2 met behulp van NGS-gegevenssets met geleidelijk toenemende genoom groottes: Arabidopsis, rijst, tomaat, maïs en tarwe. In vergelijking met andere vijf veelgebruikte tools en de oude versie, heeft miRDP2 deze sRNA-gegevens geparseerd en miRNA transcriptomes sneller geanalyseerd met verbeterde nauwkeurigheid en gevoeligheid.

Inhoud van het pakket miRDP2
Het miRDP2-pakket bestaat uit zes gedocumenteerde perl-scripts die opeenvolgend door het voorbereide bash-script moeten worden uitgevoerd. Van de zes scripts worden drie (convert_bowtie_to_blast. pl, filter_alignments. plen excise_candidate. pl) overgenomen van mirdeep-P. De andere scripts worden gewijzigd van de oorspronkelijke versie. Functies van de zes scripts worden beschreven in het volgende:

preprocess_reads. pl filters invoer leest, met inbegrip van leesbewerkingen die te lang of te kort zijn ( 25 NT), en leest gecorreleerd met Rfam ncRNA sequenties, evenals leesbewerkingen met rpm (leesbewerkingen per miljoen) minder dan 5. Het script haalt vervolgens leesbewerkingen op die zijn gecorreleerd met bekende miRNA-volwassen sequenties. De invoerbestanden zijn originele leesbewerkingen in de FASTA/FASTQ-indeling en bowtie2-uitvoer van Lees toewijzing aan de reeksen miRNA en ncRNA.

De formule voor het berekenen van RPM is als volgt:

convert_bowtie_to_blast. pl verandert het bowtie formaat in Blast-geparseerde indeling. BLAST-parsed-indeling is een aangepaste in tabelvorm gescheiden indeling die is afgeleid van het standaard NCBI BLASToutput-formaat.

filter_alignments. pl filtert de overeenstemmingen van diepe sequentiëren naar een genoom. Het filtert gedeeltelijke overeenstemmingen en multi-uitgelijnde leesbewerkingen (door de gebruiker opgegeven frequentie cutoff). De basis invoer is een bestand in BLAST-parsed-indeling.

excise_candidate. pl snijdt potentiële voorloper sequenties uit een referentie reeks met behulp van uitgelijnde leesbewerkingen als richtlijnen. De basis invoer is een bestand in BLAST-parsed-indeling en een FASTA-bestand. De uitvoer is alle potentiële voorloper sequenties in FASTA formaat.

mod-miRDP.pl heeft twee invoerbestanden nodig, signatuurbestand en structuurbestand, die is gewijzigd van de kern mirdeep-P algoritme door het veranderen van het scoresysteem met specifieke parameters van de plant. De invoerbestanden zijn punt-bracket precursor structuurbestand en leest distributie handtekeningbestand.

mod-rm_redundant_meet_plant. pl heeft drie invoerbestanden nodig: chromosome_length, precursoren en original_prediction gegenereerd door mod-miRDP.pl. Het genereert twee uitvoerbestanden, niet-redundante voorspelde bestand en voorspelde bestand gefilterd door onlangs bijgewerkte plant miRNA criteria. Details over de indeling van het uitvoerbestand worden beschreven in paragraaf 1,4.

Protocol

1. installatie en testen Download vereiste afhankelijkheden: Bowtie222 en RNAfold23. Gecompileerde pakketten worden aanbevolen. Download Bowtie2, een lees mapping tool, van de HomeSite (http://bowtie-bio.sourceforge.net/bowtie2/index.shtml). Download RNAfold, een tool van het Vienna-pakket gebruikt om RNA secundaire structuur te voorspellen, van <a href="http://w…

Representative Results

De miRNA aantekening pijplijn, miRDP2, hierin beschreven, wordt toegepast op 10 openbare sRNA-SEQ-bibliotheken van 5 plantensoorten met geleidelijk toegenomen genoom lengte, met inbegrip van Arabidopsis thaliana, Oryza sativa (rijst), Solanum lycopersicum (tomaat), Zea mays (maïs) en Triticum aestivum (tarwe) (Figuur 1A). Over het algemeen worden voor elke soort 2 representatieve sRNA-bibliotheken uit verschillende weefsels (same…

Discussion

Met de komst van ngs is een groot aantal Mirna loci geïdentificeerd uit een steeds groter wordende hoeveelheid Srna sequentie gegevens in diverse soorten²⁹^,³⁰. In de gecentraliseerde communitydatabase miRBase²¹zijn de gedeponeerde Mirna-items in de afgelopen tien jaar bijna 100 keer gestegen. Echter, in vergelijking met miRNAs in dieren, plant miRNAs hebben vele unieke kenmerken die de identificatie/aantekening ingewikkelder maken<sup cla…

Divulgations

The authors have nothing to disclose.

Acknowledgements

Dit werk werd gesteund door de Beijing Academy of land-en bosbouw Wetenschappen (KJCX201917, KJCX20180425 en KJCX20180204) aan XY en National Natural Science Foundation of China (31621001) tot LL.

Materials

Computer/computing node

N/A

Perl is required; at least 8 GB RAM and 100 GB storage are recommended

References

Ghildiyal, M., Zamore, P. D. Small silencing RNAs: an expanding universe. Nature Reviews Genetics. 10 (2), 94-108 (2009).
Bartel, D. P. MicroRNAs: target recognition and regulatory functions. Cell. 136 (2), 215-233 (2009).
Moran, Y., Agron, M., Praher, D., Technau, U. The evolutionary origin of plant and animal microRNAs. Nature Ecology Evolution. 1 (3), 27 (2017).
Xie, Z., et al. Expression of Arabidopsis MIRNA genes. Plant Physiology. 138 (4), 2145-2154 (2005).
Zhao, X., Zhang, H., Li, L. Identification and analysis of the proximal promoters of microRNA genes in Arabidopsis. Genomics. 101 (3), 187-194 (2013).
Bologna, N. G., Mateos, J. L., Bresso, E. G., Palatnik, J. F. A loop-to-base processing mechanism underlies the biogenesis of plant microRNAs miR319 and miR159. EMBO JOURNAL. 28 (23), 3646-3656 (2009).
Rogers, K., Chen, X. Biogenesis, turnover, and mode of action of plant microRNAs. Plant Cell. 25 (7), 2383-2399 (2013).
Voinnet, O. Origin, biogenesis, and activity of plant microRNAs. Cell. 136 (4), 669-687 (2009).
Iwakawa, H. O., Tomari, Y. The Functions of MicroRNAs: mRNA Decay and Translational Repression. Trends in Cell Biology. 25 (11), 651-665 (2015).
Lee, R. C., Feinbaum, R. L., Ambros, V. The C. elegans heterochronic gene lin-4 encodes small RNAs with antisense complementarity to lin-14. Cell. 75 (5), 843-854 (1993).
Wightman, B., Ha, I., Ruvkun, G. Posttranscriptional regulation of the heterochronic gene lin-14 by lin-4 mediates temporal pattern formation in C. elegans. Cell. 75 (5), 855-862 (1993).
Friedlander, M. R., et al. Discovering microRNAs from deep sequencing data using miRDeep. Nature Biotechnology. 26 (4), 407-415 (2008).
Yang, X., Li, L. miRDeep-P: a computational tool for analyzing the microRNA transcriptome in plants. Bioinformatics. 27 (18), 2614-2615 (2011).
Meyers, B. C., et al. Criteria for annotation of plant MicroRNAs. Plant Cell. 20 (12), 3186-3190 (2008).
Yang, X., Zhang, H., Li, L. Global analysis of gene-level microRNA expression in Arabidopsis using deep sequencing data. Genomics. 98 (1), 40-46 (2011).
Kuang, Z., Wang, Y., Li, L., Yang, X. miRDeep-P2: accurate and fast analysis of the microRNA transcriptome in plants. Bioinformatics. , (2018).
Kozomara, A., Birgaoanu, M., Griffiths-Jones, S. miRBase: from microRNA sequences to function. Nucleic Acids Research. 47 (1), 155-162 (2019).
Griffiths-Jones, S., Saini, H. K., van Dongen, S., Enright, A. J. miRBase: tools for microRNA genomics. Nucleic Acids Research. 36, 154-158 (2008).
Axtell, M. J., Meyers, B. C. Revisiting Criteria for Plant MicroRNA Annotation in the Era of Big Data. Plant Cell. 30 (2), 272-284 (2018).
Taylor, R. S., Tarver, J. E., Hiscock, S. J., Donoghue, P. C. Evolutionary history of plant microRNAs. Trends in Plant Science. 19 (3), 175-182 (2014).
Kozomara, A., Griffiths-Jones, S. miRBase: annotating high confidence microRNAs using deep sequencing data. Nucleic Acids Research. 42, 68-73 (2014).
Langmead, B., Salzberg, S. L. Fast gapped-read alignment with Bowtie 2. Nature Methods. 9 (4), 357-359 (2012).
Lorenz, R., et al. ViennaRNA Package 2.0. Algorithms for Molecular Biology. 6, 26 (2011).
Langmead, B., Trapnell, C., Pop, M., Salzberg, S. L. Ultrafast and memory-efficient alignment of short DNA sequences to the human genome. Genome Biology. 10 (3), 25 (2009).
An, J., Lai, J., Sajjanhar, A., Lehman, M. L., Nelson, C. C. miRPlant: an integrated tool for identification of plant miRNA from RNA sequencing data. BMC Bioinformatics. 15, 275 (2014).
Lei, J., Sun, Y. miR-PREFeR: an accurate, fast and easy-to-use plant miRNA prediction tool using small RNA-Seq data. Bioinformatics. 30 (19), 2837-2839 (2014).
Evers, M., Huttner, M., Dueck, A., Meister, G., Engelmann, J. C. miRA: adaptable novel miRNA identification in plants using small RNA sequencing data. BMC Bioinformatics. 16, 370 (2015).
Mathelier, A., Carbone, A. MIReNA: finding microRNAs with high accuracy and no learning at genome scale and from deep sequencing data. Bioinformatics. 26 (18), 2226-2234 (2010).
Zhu, Q. H., et al. A diverse set of microRNAs and microRNA-like small RNAs in developing rice grains. Genome Research. 18 (9), 1456-1465 (2008).
Fahlgren, N., et al. MicroRNA gene evolution in Arabidopsis lyrata and Arabidopsis thaliana. Plant Cell. 22 (4), 1074-1089 (2010).
Fromm, B., et al. A Uniform System for the Annotation of Vertebrate microRNA Genes and the Evolution of the Human microRNAome. Annual Review of Genetics. 49, 213-242 (2015).
Blevins, T., et al. Identification of Pol IV and RDR2-dependent precursors of 24 nt siRNAs guiding de novo DNA methylation in Arabidopsis. Elife. 4, 09591 (2015).
Zhai, J., et al. A One Precursor One siRNA Model for Pol IV-Dependent siRNA Biogenesis. Cell. 163 (2), 445-455 (2015).
Werner, S., Wollmann, H., Schneeberger, K., Weigel, D. Structure determinants for accurate processing of miR172a in Arabidopsis thaliana. Current Biology. 20 (1), 42-48 (2010).
Mateos, J. L., Bologna, N. G., Chorostecki, U., Palatnik, J. F. Identification of microRNA processing determinants by random mutagenesis of Arabidopsis MIR172a precursor. Current Biology. 20 (1), 49-54 (2010).
Vitsios, D. M., et al. Mirnovo: genome-free prediction of microRNAs from small RNA sequencing data and single-cells using decision forests. Nucleic Acids Research. 45 (21), 177 (2017).

Play Video

PDF

DOI

DOWNLOAD MATERIALS LIST

Citer Cet Article

Wang, Y., Kuang, Z., Li, L., Yang, X. A Bioinformatics Pipeline to Accurately and Efficiently Analyze the MicroRNA Transcriptomes in Plants. J. Vis. Exp. (155), e59864, doi:10.3791/59864 (2020).