Summary

Eine Bioinformatik-Pipeline zur genauen und effizienten Analyse der MicroRNA-Transkriptome in Pflanzen

Published: January 21, 2020
doi:

Summary

Eine Bioinformatik-Pipeline, nämlich miRDeep-P2 (kurz miRDP2), mit aktualisierten pflanzen-miRNA-Kriterien und einem überarbeiteten Algorithmus, könnte microRNA-Transkriptome in Pflanzen genau und effizient analysieren, insbesondere für Arten mit komplexen und großen Genomen.

Abstract

MicroRNAs (miRNAs) sind 20- bis 24-Nukleotid (nt) endogene kleine RNAs (sRNAs), die in Pflanzen und Tieren, die eine starke Rolle bei der Regulierung der Genexpression auf posttranskriptionaler Ebene spielen, weitreichend vorhanden sind. Die Sequenzierung von sRNA-Bibliotheken nach NEXT Generation Sequencing (NGS)-Methoden wurde in den letzten zehn Jahren häufig eingesetzt, um miRNA-Transkriptome zu identifizieren und zu analysieren, was zu einer schnellen Zunahme der miRNA-Entdeckung führte. Zwei große Herausforderungen ergeben sich jedoch in der pflanzlichen miRNA-Anmerkung aufgrund der zunehmenden Tiefe sequenzierter sRNA-Bibliotheken sowie der Größe und Komplexität von Pflanzengenomen. Erstens werden viele andere Arten von sRNAs, insbesondere kurze störende RNAs (siRNAs) aus sRNA-Bibliotheken, von vielen Rechenwerkzeugen fälschlicherweise als miRNAs bezeichnet. Zweitens wird es zu einem extrem zeitaufwändigen Prozess zur Analyse von miRNA-Transkriptomen bei Pflanzenarten mit großen und komplexen Genomen. Um diese Herausforderungen zu meistern, haben wir vor kurzem miRDeep-P (ein beliebtes Tool für miRNA-Transkriptomanalysen) auf miRDeep-P2 (kurz miRDP2) aktualisiert, indem wir eine neue Filterstrategie einsetzen, den Bewertungsalgorithmus überarbeiten und die neu aktualisierte Anlage miRNA Anmerkungskriterien. Wir testeten miRDP2 an sequenzierten sRNA-Populationen in fünf repräsentativen Pflanzen mit zunehmender genomischer Komplexität, einschließlich Arabidopsis, Reis, Tomaten, Mais und Weizen. Die Ergebnisse deuten darauf hin, dass miRDP2 diese Aufgaben mit sehr hoher Effizienz verarbeitet hat. Darüber hinaus übertraf miRDP2 andere Vorhersagetools in Bezug auf Empfindlichkeit und Genauigkeit. Zusammengenommen zeigen unsere Ergebnisse miRDP2 als schnelles und genaues Werkzeug zur Analyse von pflanzlichen miRNA-Transkriptomen, daher ein nützliches Werkzeug, um der Community dabei zu helfen, miRNAs in Pflanzen besser zu kommentieren.

Introduction

Eine der spannendsten Entdeckungen der letzten zwei Jahrzehnte in der Biologie ist die sich ausbreitende Rolle von sRNA-Arten bei der Regulierung verschiedener Funktionen des Genoms1. Insbesondere stellen miRNAs eine wichtige Klasse von 20- bis 24-nt sRNAs in Eukaryoten dar und fungieren hauptsächlich auf posttranskriptionärer Ebene als prominente Genregulatoren während der gesamten Lebenszyklusentwicklungsphase sowie in Stimulus- und Stressreaktionen2,3. Bei Pflanzen entstehen miRNAs aus primären Transkripten, sogenannten pri-miRNAs, die in der Regel durch RNA-Polymerase II als individuelle Transkriptionseinheiten4,5transkribiert werden. Verarbeitet durch evolutionär konservierte zelluläre Maschinen (Drosha RNase III bei Tieren, DICER-like in Pflanzen) werden pri-miRNAs in die unmittelbaren miRNA-Vorstufen, pre-miRNAs, eingeschnitten, die Sequenzen enthalten, die intramolekulare Stammschleifenstrukturenbilden 6,7. Pre-miRNAs werden dann zu doppelsträngigen Zwischenprodukten verarbeitet, nämlich miRNA-Duplexen, bestehend aus dem funktionellen Strang, der reifen miRNA und dem seltener funktionellen Partner miRNA*2,8. Nach dem Einladen in den RNA-induzierten Silencing-Komplex (RISC) konnten die reifen miRNAs ihre mRNA-Ziele anhand der Sequenzkompleärität erkennen, was zu einer negativen Regulatorischen Funktion2,8führte. miRNAs könnten entweder ihre Zieltranskripte destabilisieren oder Zielübersetzungen verhindern, aber die frühere Art und Weise wird in den Anlagen8,9dominiert.

Seit der zufälligen Entdeckung der ersten miRNA in der Nematode Caenorhabditis elegans10,11wurde viel Forschung zur miRNA-Identifikation und ihrer funktionellen Analyse, insbesondere nach der Verfügbarkeit der NGS-Methode, durchgeführt. Die breite Anwendung der NGS-Methode hat die Nutzung von Rechenwerkzeugen, die entwickelt wurden, um die einzigartige Eigenschaft von miRNAs zu erfassen, wie die Stammschleifenstruktur von Vorläufern und ihre bevorzugte Akkumulation von Sequenzlesungen auf ausgereifter miRNA und miRNA* stark gefördert. Als Ergebnis haben die Forscher bemerkenswerte Erfolge bei der Identifizierung von miRNAs in verschiedenen Arten erzielt. Basierend auf einem zuvor beschriebenen Wahrscheinlichkeitsmodell12entwickelten wir miRDeep-P13, das erste Rechenwerkzeug zur Erkennung von pflanzlichen miRNAs aus NGS-Daten. miRDeep-P zielte speziell darauf ab, die Herausforderungen der Dekodierung von pflanzlichen miRNAs mit variablerer Vorläuferlänge und großen paralogusfarbenen Familien13,14,15zu meistern. Nach seiner Veröffentlichung wurde dieses Programm tausende Male heruntergeladen und verwendet, um miRNA-Transkriptome bei mehr als 40 Pflanzenarten16zu kommentieren. Angetrieben von NGS-basierten Tools wie miRDeep-P, hat die Anzahl der registrierten miRNAs im öffentlichen miRNA-Repository miRBase17, wo derzeit über 38.000 miRNA-Elemente gehostet werden (Release 22.1), im Vergleich zu nur 500 MIRNA-Elementen (Release 2.0) im Jahr 200818erhöht.

Allerdings sind zwei neue Herausforderungen aus der pflanzlichen miRNA-Anmerkung entstanden. Erstens haben hohe Verhältnisse von Falsch-Positiven die Qualität der pflanzlichen miRNA-Anmerkungen16,19 aus folgenden Gründen stark beeinflusst: 1) eine Flut von endogenen kurz störenden RNAs (siRNAs) aus NGS sRNA-Bibliotheken wurde fälschlicherweise als miRNAs bezeichnet, da keine strengen miRNA-Anmerkungskriterien vorliegen; 2) Für Arten ohne a priori miRNA-Informationen sind falsch positive Vorhersagen, die auf NGS-Daten basieren, schwer zu eliminieren. Am Beispiel von miRBase fanden Taylor et al.20 ein Drittel der pflanzlichen miRNA-Einträge im öffentlichen Endlager21 (Release 21) ohne überzeugende Belege und sogar drei Viertel der pflanzlichen miRNA-Familien waren fragwürdig. Zweitens wird es zu einem extrem zeitaufwändigen Prozess zur Vorhersage von pflanzlichen miRNAs mit großen und komplexen Genomen16. Um diese Herausforderungen zu meistern, haben wir miRDeep-P aktualisiert, indem wir eine neue Filterstrategie hinzugefügt, den Bewertungsalgorithmus überarbeitet und neue Kriterien für die pflanzliche miRNA-Anmerkung integriert und die neue Version miRDP2 veröffentlicht haben. Darüber hinaus haben wir miRDP2 mit NGS sRNA-Datensätzen mit allmählich steigenden Genomgrößen getestet: Arabidopsis, Reis, Tomaten, Mais und Weizen. Im Vergleich zu anderen fünf weit verbreiteten Werkzeugen und seiner alten Version analysierte miRDP2 diese sRNA-Daten und analysierte miRNA-Transkriptome schneller mit verbesserter Genauigkeit und Empfindlichkeit.

Inhalt des miRDP2-Pakets
Das miRDP2-Paket besteht aus sechs dokumentierten Perl-Skripten, die sequenziell vom vorbereiteten Bash-Skript ausgeführt werden sollen. Von den sechs Skripten werden drei (convert_bowtie_to_blast.pl, filter_alignments.plund excise_candidate.pl) von miRDeep-P geerbt. Die anderen Skripts werden ab der Originalversion geändert. Die Funktionen der sechs Skripte werden im Folgenden beschrieben:

preprocess_reads.pl filtert Eingabelesevorgänge, einschließlich Lesevorgänge, die zu lang oder zu kurz sind (25 nt), und liest korreliert mit Rfam ncRNA-Sequenzen sowie Lesevorgänge mit RPM (Reads Per Million) kleiner als 5. Das Skript ruft dann Lesevorgänge ab, die mit bekannten miRNA-Reifensequenzen korreliert sind. Die Eingabedateien sind Originallesevorgänge im FASTA/FASTQ-Format und bowtie2-Ausgabe von Lesekarten, die zu miRNA- und ncRNA-Sequenzen mapping.

Die Formel für die Berechnung von RPM lautet wie folgt:

Equation 1

convert_bowtie_to_blast.pl ändert das Bowtie-Format in ein BLAST-parsed-Format. BLAST-parsed Format ist ein benutzerdefiniertes tabellarisches separates Format, das vom Standard-NCBI BLASToutput-Format abgeleitet wird.

filter_alignments.pl filtert die Ausrichtungen von Tiefensequenzierungslesungen zu einem Genom. Es filtert Partielle Ausrichtungen sowie mehrstimmige Lesevorgänge (benutzerspezifische Frequenzabschaltung). Die Basiseingabe ist eine Datei im BLAST-parsed Format.

excise_candidate.pl schneidet potenzielle Vorläufersequenzen aus einer Referenzsequenz unter Verwendung ausgerichteter Lesevorgänge als Richtlinien aus. Die Basiseingabe ist eine Datei im BLAST-parsed-Format und eine FASTA-Datei. Die Ausgabe sind alle potenziellen Vorläufersequenzen im FASTA-Format.

mod-miRDP.pl benötigt zwei Eingabedateien, Signaturdatei und Strukturdatei, die aus dem kernigen miRDeep-P-Algorithmus geändert wird, indem das Bewertungssystem mit pflanzenspezifischen Parametern geändert wird. Die Eingabedateien sind dot-bracket Precursor-Strukturdatei und liest VerteilungSignatur-Datei.

mod-rm_redundant_meet_plant.pl benötigt drei Eingabedateien: chromosome_length, Vorläufer und original_prediction, die von mod-miRDP.pl generiert werden. Es generiert zwei Ausgabedateien, nicht redundante vorhergesagte Datei und vorhergesagte Datei gefiltert durch neu aktualisierte plant miRNA Kriterien. Details zum Format der Ausgabedatei werden in Abschnitt 1.4 beschrieben.

Protocol

1. Installation und Prüfung Download erforderliche Abhängigkeiten: Bowtie222 und RNAfold23. Kompilierte Pakete werden empfohlen. Laden Sie Bowtie2, ein Lesemapping-Tool, von seiner Homepage herunter (http://bowtie-bio.sourceforge.net/bowtie2/index.shtml). Laden Sie RNAfold, ein Werkzeug des Vienna-Pakets zur Vorhersage der sekundären RNA-Struktur, von <a href=…

Representative Results

Die miRNA-Annotationspipeline miRDP2, die hier beschrieben wird, wird auf 10 öffentliche sRNA-seq-Bibliotheken von 5 Pflanzenarten mit allmählich erhöhter Genomlänge angewendet, einschließlich Arabidopsis thaliana, Oryza sativa (Reis), Solanum lycopersicum (Tomate), Zea mays (Mais) und Triticum aestivum (Weizen) (Abbildung 1A). Insgesamt werden für jede Spezies 2 repräsentative sRNA-Bibliotheken aus verschiedenen Geweben (i…

Discussion

Mit dem Aufkommen von NGS wurde eine große Anzahl von miRNA-Loci aus einer ständig wachsenden Menge an sRNA-Sequenzierungsdaten in verschiedenen Artenidentifiziert 29,30. In der zentralen Community-Datenbank miRBase21haben sich die hinterlegten miRNA-Artikel in den letzten zehn Jahren fast 100 Mal erhöht. Im Vergleich zu miRNAs bei Tieren haben pflanzen-miRNAs jedoch viele einzigartige Merkmale, die die Identifizierung/Anmerkung kompliz…

Disclosures

The authors have nothing to disclose.

Acknowledgements

Diese Arbeit wurde von der Beijing Academy of Agriculture and Forestry Sciences (KJCX201917, KJCX20180425 und KJCX20180204) an XY und National Natural Science Foundation of China (31621001) bis LL unterstützt.

Materials

Computer/computing node N/A N/A Perl is required; at least 8 GB RAM and 100 GB storage are recommended

References

  1. Ghildiyal, M., Zamore, P. D. Small silencing RNAs: an expanding universe. Nature Reviews Genetics. 10 (2), 94-108 (2009).
  2. Bartel, D. P. MicroRNAs: target recognition and regulatory functions. Cell. 136 (2), 215-233 (2009).
  3. Moran, Y., Agron, M., Praher, D., Technau, U. The evolutionary origin of plant and animal microRNAs. Nature Ecology Evolution. 1 (3), 27 (2017).
  4. Xie, Z., et al. Expression of Arabidopsis MIRNA genes. Plant Physiology. 138 (4), 2145-2154 (2005).
  5. Zhao, X., Zhang, H., Li, L. Identification and analysis of the proximal promoters of microRNA genes in Arabidopsis. Genomics. 101 (3), 187-194 (2013).
  6. Bologna, N. G., Mateos, J. L., Bresso, E. G., Palatnik, J. F. A loop-to-base processing mechanism underlies the biogenesis of plant microRNAs miR319 and miR159. EMBO JOURNAL. 28 (23), 3646-3656 (2009).
  7. Rogers, K., Chen, X. Biogenesis, turnover, and mode of action of plant microRNAs. Plant Cell. 25 (7), 2383-2399 (2013).
  8. Voinnet, O. Origin, biogenesis, and activity of plant microRNAs. Cell. 136 (4), 669-687 (2009).
  9. Iwakawa, H. O., Tomari, Y. The Functions of MicroRNAs: mRNA Decay and Translational Repression. Trends in Cell Biology. 25 (11), 651-665 (2015).
  10. Lee, R. C., Feinbaum, R. L., Ambros, V. The C. elegans heterochronic gene lin-4 encodes small RNAs with antisense complementarity to lin-14. Cell. 75 (5), 843-854 (1993).
  11. Wightman, B., Ha, I., Ruvkun, G. Posttranscriptional regulation of the heterochronic gene lin-14 by lin-4 mediates temporal pattern formation in C. elegans. Cell. 75 (5), 855-862 (1993).
  12. Friedlander, M. R., et al. Discovering microRNAs from deep sequencing data using miRDeep. Nature Biotechnology. 26 (4), 407-415 (2008).
  13. Yang, X., Li, L. miRDeep-P: a computational tool for analyzing the microRNA transcriptome in plants. Bioinformatics. 27 (18), 2614-2615 (2011).
  14. Meyers, B. C., et al. Criteria for annotation of plant MicroRNAs. Plant Cell. 20 (12), 3186-3190 (2008).
  15. Yang, X., Zhang, H., Li, L. Global analysis of gene-level microRNA expression in Arabidopsis using deep sequencing data. Genomics. 98 (1), 40-46 (2011).
  16. Kuang, Z., Wang, Y., Li, L., Yang, X. miRDeep-P2: accurate and fast analysis of the microRNA transcriptome in plants. Bioinformatics. , (2018).
  17. Kozomara, A., Birgaoanu, M., Griffiths-Jones, S. miRBase: from microRNA sequences to function. Nucleic Acids Research. 47 (1), 155-162 (2019).
  18. Griffiths-Jones, S., Saini, H. K., van Dongen, S., Enright, A. J. miRBase: tools for microRNA genomics. Nucleic Acids Research. 36, 154-158 (2008).
  19. Axtell, M. J., Meyers, B. C. Revisiting Criteria for Plant MicroRNA Annotation in the Era of Big Data. Plant Cell. 30 (2), 272-284 (2018).
  20. Taylor, R. S., Tarver, J. E., Hiscock, S. J., Donoghue, P. C. Evolutionary history of plant microRNAs. Trends in Plant Science. 19 (3), 175-182 (2014).
  21. Kozomara, A., Griffiths-Jones, S. miRBase: annotating high confidence microRNAs using deep sequencing data. Nucleic Acids Research. 42, 68-73 (2014).
  22. Langmead, B., Salzberg, S. L. Fast gapped-read alignment with Bowtie 2. Nature Methods. 9 (4), 357-359 (2012).
  23. Lorenz, R., et al. ViennaRNA Package 2.0. Algorithms for Molecular Biology. 6, 26 (2011).
  24. Langmead, B., Trapnell, C., Pop, M., Salzberg, S. L. Ultrafast and memory-efficient alignment of short DNA sequences to the human genome. Genome Biology. 10 (3), 25 (2009).
  25. An, J., Lai, J., Sajjanhar, A., Lehman, M. L., Nelson, C. C. miRPlant: an integrated tool for identification of plant miRNA from RNA sequencing data. BMC Bioinformatics. 15, 275 (2014).
  26. Lei, J., Sun, Y. miR-PREFeR: an accurate, fast and easy-to-use plant miRNA prediction tool using small RNA-Seq data. Bioinformatics. 30 (19), 2837-2839 (2014).
  27. Evers, M., Huttner, M., Dueck, A., Meister, G., Engelmann, J. C. miRA: adaptable novel miRNA identification in plants using small RNA sequencing data. BMC Bioinformatics. 16, 370 (2015).
  28. Mathelier, A., Carbone, A. MIReNA: finding microRNAs with high accuracy and no learning at genome scale and from deep sequencing data. Bioinformatics. 26 (18), 2226-2234 (2010).
  29. Zhu, Q. H., et al. A diverse set of microRNAs and microRNA-like small RNAs in developing rice grains. Genome Research. 18 (9), 1456-1465 (2008).
  30. Fahlgren, N., et al. MicroRNA gene evolution in Arabidopsis lyrata and Arabidopsis thaliana. Plant Cell. 22 (4), 1074-1089 (2010).
  31. Fromm, B., et al. A Uniform System for the Annotation of Vertebrate microRNA Genes and the Evolution of the Human microRNAome. Annual Review of Genetics. 49, 213-242 (2015).
  32. Blevins, T., et al. Identification of Pol IV and RDR2-dependent precursors of 24 nt siRNAs guiding de novo DNA methylation in Arabidopsis. Elife. 4, 09591 (2015).
  33. Zhai, J., et al. A One Precursor One siRNA Model for Pol IV-Dependent siRNA Biogenesis. Cell. 163 (2), 445-455 (2015).
  34. Werner, S., Wollmann, H., Schneeberger, K., Weigel, D. Structure determinants for accurate processing of miR172a in Arabidopsis thaliana. Current Biology. 20 (1), 42-48 (2010).
  35. Mateos, J. L., Bologna, N. G., Chorostecki, U., Palatnik, J. F. Identification of microRNA processing determinants by random mutagenesis of Arabidopsis MIR172a precursor. Current Biology. 20 (1), 49-54 (2010).
  36. Vitsios, D. M., et al. Mirnovo: genome-free prediction of microRNAs from small RNA sequencing data and single-cells using decision forests. Nucleic Acids Research. 45 (21), 177 (2017).

Play Video

Cite This Article
Wang, Y., Kuang, Z., Li, L., Yang, X. A Bioinformatics Pipeline to Accurately and Efficiently Analyze the MicroRNA Transcriptomes in Plants. J. Vis. Exp. (155), e59864, doi:10.3791/59864 (2020).

View Video