Summary

Una pipeline di bioinformatica per analizzare in modo accurato ed efficiente i trascrittomi di microRNA nelle piante

Published: January 21, 2020
doi:

Summary

Una pipeline bioinformatica, vale a dire miRDeep-P2 (miRDP2 in breve), con criteri di miRNA vegetale aggiornati e un algoritmo revisionato, potrebbe analizzare in modo accurato ed efficiente i trascrittimi di microRNA nelle piante, in particolare per le specie con genomi complessi e di grandi dimensioni.

Abstract

I microRNA (miRNA) sono da 20 a 24 nucleotidi (nt) piccoli RNA (sRNA) ampiamente esistenti nelle piante e negli animali che svolgono ruoli potenti nella regolazione dell’espressione genica a livello post-trascrizione. Le librerie di sRNA di sequenziamento con metodi di sequenziamento di nuova generazione (NGS) sono state ampiamente impiegate per identificare e analizzare i trascrittomi di miRNA nell’ultimo decennio, con conseguente rapido aumento della scoperta di miRNA. Tuttavia, due grandi sfide sorgono nell’annotazione del miRNA vegetale a causa dell’aumento della profondità delle librerie di sRNA sequenziati, nonché delle dimensioni e della complessità dei genomi delle piante. In primo luogo, molti altri tipi di sRNA, in particolare, brevi RNA interferenti (siRNA) provenienti dalle librerie di sRNA, sono erroneamente annotati come miRNA da molti strumenti computazionali. In secondo luogo, diventa un processo che richiede molto tempo per l’analisi dei trascrittomi di miRNA in specie vegetali con genomi grandi e complessi. Per superare queste sfide, abbiamo recentemente aggiornato miRDeep-P (uno strumento popolare per le analisi del transcriptome di miRNA) a miRDeep-P2 (miRDP2 in breve) impiegando una nuova strategia di filtraggio, riportando l’algoritmo di punteggio e incorporando miRNA vegetale appena aggiornato criteri di annotazione. Abbiamo testato miRDP2 su popolazioni di sRNA sequenziate in cinque piante rappresentative con crescente complessità genomica, tra cui Arabidopsis, riso, pomodoro, mais e grano. I risultati indicano che miRDP2 ha elaborato questi compiti con un’efficienza molto elevata. Inoltre, miRDP2 ha sovraperformato altri strumenti di previsione per quanto riguarda la sensibilità e l’accuratezza. Nel loro insieme, i nostri risultati dimostrano il miRDP2 come uno strumento veloce e preciso per analizzare i trascriptomi di miRNA vegetale, quindi uno strumento utile per aiutare la comunità ad annotare meglio i miRNA nelle piante.

Introduction

Una delle scoperte più interessanti degli ultimi due decenni in biologia è il ruolo proliferatinte delle specie di sRNA nella regolazione delle diverse funzioni del genoma1. In particolare, i miRNA costituiscono un’importante classe di sRNA da 20 a 24 nt negli eucarioti, e funzionano principalmente a livello post-trascrizione come regolatori genici di primo piano durante le fasi di sviluppo del ciclo di vita, nonché nelle risposte di stimolo e stress2,3. Nelle piante, i miRNA derivano da trascrizioni primarie chiamate pri-miRNA, che sono generalmente trascritte dalla polimerasi RNA II come singole unità di trascrizione4,5. Elaborati da macchinari cellulari evolutivamente conservati (Drosha RNase III negli animali, simili a DICER nelle piante), i pri-miRNA vengono ascontenuti nei precursori immediati del miRNA, pre-miRNA, che contengono sequenze che formano strutture intra-molecolari di ciclo stelo6,7. I pre-miRNA vengono poi trasformati in intermedi a doppio filamento, vale a dire duplex di miRNA, costituiti dal filamento funzionale, dal miRNA maturo e dal partner meno frequentemente funzionale, miRNA2,8. Dopo aver caricato nel complesso di silenziamento indotto dall’RNA (RISC), i miRNA maturi potrebbero riconoscere i loro obiettivi di mRNA in base alla complementarità della sequenza, ottenendo una funzione regolatoria negativa2,8. I miRNA potrebbero destabilizzare le trascrizioni di destinazione o impedire la traduzione di destinazione, ma il modo precedente è dominato negli impianti8,9.

Dalla scoperta fortuita del primo miRNA nel nematode Caenorhabditis elegans10,11, molta ricerca è stata impegnata per l’identificazione del miRNA e la sua analisi funzionale, soprattutto dopo la disponibilità del metodo NGS. L’ampia applicazione del metodo NGS ha notevolmente promosso l’utilizzo di strumenti computazionali progettati per catturare la caratteristica unica dei miRNA, come la struttura del ciclo stelo dei precursori e il loro accumulo preferenziale di letture di sequenza su miRNA e miRNA maturi. Di conseguenza, i ricercatori hanno ottenuto un notevole successo nell’identificazione dei miRNA in specie diverse. Sulla base di un modello di probabilità descritto in precedenza12, abbiamo sviluppato miRDeep-P13, che è stato il primo strumento computazionale per scoprire i miRNA vegetali dai dati NGS. miRDeep-P era specificamente finalizzato a vincere le sfide di decodifica dei miRNA vegetali con una lunghezza precursore più variabile e grandi famiglie paralologiche13,14,15. Dopo il suo rilascio, questo programma è stato scaricato migliaia di volte e utilizzato per annotare trascrittomi di miRNA in più di 40 specie di piante16. Spinti da strumenti basati su NGS come miRDeep-P, c’è stato un drammatico aumento del numero di miRNA registrati nel repository miRNA pubblico miRBase17, dove sono attualmente ospitati oltre 38.000 elementi di miRNA (rilascio 22.1) rispetto ai soli 500 elementi di miRNA (rilascio 2.0) nel 200818.

Tuttavia, due nuove sfide sono sorte dall’annotazione del miRNA vegetale. In primo luogo, alti rapporti di falsi positivi hanno avuto un forte impatto sulla qualità delle annotazioni del miRNA vegetale16,19 per i seguenti motivi: 1) un diluvio di RNA interferenti brevi endogeni (siRNA) dalle librerie di sRNA NGS sono stati erroneamente annotati come miRNA a causa della mancanza di un rigoroso criterio di annotazione miRNA; 2) per le specie senza informazioni a priori miRNA, i falsi positivi previsti sulla base dei dati NGS sono difficili da eliminare. Usando miRBase come esempio, Taylor et al.20 trovarono che un terzo delle voci di miRNA vegetale nel repository pubblico21 (release 21) mancava di prove di supporto convincenti e anche tre quarti delle famiglie di miRNA vegetali erano discutibili. In secondo luogo, diventa un processo estremamente dispendioso in termini di tempo per prevedere i miRNA vegetali con genomi grandi e complessi16. Per superare queste sfide, abbiamo aggiornato miRDeep-P aggiungendo una nuova strategia di filtraggio, riportando l’algoritmo di punteggio e integrando nuovi criteri per l’annotazione miRNA dell’impianto e rilasciato la nuova versione miRDP2. Inoltre, abbiamo testato il miRDP2 utilizzando set di dati sRNA NGS con dimensioni del genoma in graduale aumento: Arabidopsis, riso, pomodoro, mais e grano. Rispetto ad altri cinque strumenti ampiamente utilizzati e alla sua vecchia versione, miRDP2 ha analizzato questi dati sRNA e ha analizzato più velocemente i trascriptomi di miRNA con una maggiore precisione e sensibilità.

Contenuto del pacchetto miRDP2
Il pacchetto miRDP2 è costituito da sei script Perl documentati che devono essere eseguiti in sequenza dallo script bash preparato. Dei sei script, tre (convert_bowtie_to_blast.pl, filter_alignments.ple excise_candidate.pl) vengono ereditati da miRDeep-P. Gli altri script vengono modificati rispetto alla versione originale. Le funzioni dei sei script sono descritte di seguito:

preprocess_reads.pl filtra le letture di input, incluse quelle troppo lunghe o troppo corte (25 nt) e le letture correlate alle sequenze ncRNA Rfam, nonché le letture con RPM (Leggi per milione) inferiori a 5. Lo script recupera quindi le letture correlate a sequenze mature di miRNA note. I file di input sono letture originali in formato FASTA/FASTQ e output bowtie2 della mappatura delle letture alle sequenze di miRNA e ncRNA.

La formula per il calcolo di RPM è la seguente:

Equation 1

convert_bowtie_to_blast.pl modifica il formato bowtie in formato analizzato BLAST. Il formato parsed BLAST è un formato separato tabulare personalizzato derivato dal formato BLASToutput NCBI standard.

filter_alignments.pl filtra l’allineamento delle letture di sequenziamento profondo in un genoma. Filtra gli allineamenti parziali e le letture multiallineate (taglio di frequenza specificato dall’utente). L’input di base è un file in formato analizzato BLAST.

excise_candidate.pl taglia le potenziali sequenze precursori da una sequenza di riferimento utilizzando le letture allineate come linee guida. L’input di base è un file in formato parsed BLAST e un file FASTA. L’output è tutte le potenziali sequenze precursori in formato FASTA.

mod-miRDP.pl richiede due file di input, il file di firma e il file di struttura, che viene modificato dall’algoritmo miRDeep-P di base modificando il sistema di punteggio con parametri specifici dell’impianto. I file di input sono file di struttura precursore delle parentesi punti e leggono il file delle firme di distribuzione.

mod-rm_redundant_meet_plant.pl richiede tre file di input: chromosome_length, precursori e original_prediction generati da mod-miRDP.pl. Genera due file di output, il file previsto non ridondante e il file previsto filtrato in base ai nuovi criteri di miRNA dell’impianto aggiornati. I dettagli sul formato del file di output sono descritti nella sezione 1.4.

Protocol

1. Installazione e collaudo Scaricare le dipendenze richieste: Bowtie222 e RNAfold23. Si consigliano pacchetti compilati. Scarica Bowtie2, uno strumento di mappatura di lettura, dal suo sito di casa (http://bowtie-bio.sourceforge.net/bowtie2/index.shtml). Scarica RNAfold, uno strumento del pacchetto di Vienna utilizzato per prevedere la struttura secondaria dell’…

Representative Results

La pipeline di annotazione miRNA, miRDP2, qui descritta viene applicata a 10 librerie pubbliche di sRNA-seq di 5 specie vegetali con gradualmente aumentata lunghezza del genoma, tra cui l’Arabidopsis thaliana, Oryza sativa (riso), Solanum lycopersicum (pomodoro), zelo mays (mais) e Triticum aestivum (grano) (Figura 1A). Complessivamente, per ogni specie, 2 biblioteche sRNA rappresentative di tessuti diversi (collassati in letture …

Discussion

Con l’avvento di NGS, un gran numero di loci miRNA sono stati identificati da una quantità sempre crescente di dati di sequenziamento dello sRNA in diverse specie29,30. Nel database della comunità centralizzata miRBase21, gli elementi di miRNA depositati sono aumentati di quasi 100 volte nell’ultimo decennio. Tuttavia, rispetto ai miRNA negli animali, i miRNA vegetali hanno molte caratteristiche uniche che rendono l’identificazione/annot…

Disclosures

The authors have nothing to disclose.

Acknowledgements

Questo lavoro è stato sostenuto da Beijing Academy of Agriculture and Forestry Sciences (KJCX201917, KJCX20180425 e KJCX20180204) a XY e National Natural Science Foundation of China (31621001) a LL.

Materials

Computer/computing node N/A N/A Perl is required; at least 8 GB RAM and 100 GB storage are recommended

References

  1. Ghildiyal, M., Zamore, P. D. Small silencing RNAs: an expanding universe. Nature Reviews Genetics. 10 (2), 94-108 (2009).
  2. Bartel, D. P. MicroRNAs: target recognition and regulatory functions. Cell. 136 (2), 215-233 (2009).
  3. Moran, Y., Agron, M., Praher, D., Technau, U. The evolutionary origin of plant and animal microRNAs. Nature Ecology Evolution. 1 (3), 27 (2017).
  4. Xie, Z., et al. Expression of Arabidopsis MIRNA genes. Plant Physiology. 138 (4), 2145-2154 (2005).
  5. Zhao, X., Zhang, H., Li, L. Identification and analysis of the proximal promoters of microRNA genes in Arabidopsis. Genomics. 101 (3), 187-194 (2013).
  6. Bologna, N. G., Mateos, J. L., Bresso, E. G., Palatnik, J. F. A loop-to-base processing mechanism underlies the biogenesis of plant microRNAs miR319 and miR159. EMBO JOURNAL. 28 (23), 3646-3656 (2009).
  7. Rogers, K., Chen, X. Biogenesis, turnover, and mode of action of plant microRNAs. Plant Cell. 25 (7), 2383-2399 (2013).
  8. Voinnet, O. Origin, biogenesis, and activity of plant microRNAs. Cell. 136 (4), 669-687 (2009).
  9. Iwakawa, H. O., Tomari, Y. The Functions of MicroRNAs: mRNA Decay and Translational Repression. Trends in Cell Biology. 25 (11), 651-665 (2015).
  10. Lee, R. C., Feinbaum, R. L., Ambros, V. The C. elegans heterochronic gene lin-4 encodes small RNAs with antisense complementarity to lin-14. Cell. 75 (5), 843-854 (1993).
  11. Wightman, B., Ha, I., Ruvkun, G. Posttranscriptional regulation of the heterochronic gene lin-14 by lin-4 mediates temporal pattern formation in C. elegans. Cell. 75 (5), 855-862 (1993).
  12. Friedlander, M. R., et al. Discovering microRNAs from deep sequencing data using miRDeep. Nature Biotechnology. 26 (4), 407-415 (2008).
  13. Yang, X., Li, L. miRDeep-P: a computational tool for analyzing the microRNA transcriptome in plants. Bioinformatics. 27 (18), 2614-2615 (2011).
  14. Meyers, B. C., et al. Criteria for annotation of plant MicroRNAs. Plant Cell. 20 (12), 3186-3190 (2008).
  15. Yang, X., Zhang, H., Li, L. Global analysis of gene-level microRNA expression in Arabidopsis using deep sequencing data. Genomics. 98 (1), 40-46 (2011).
  16. Kuang, Z., Wang, Y., Li, L., Yang, X. miRDeep-P2: accurate and fast analysis of the microRNA transcriptome in plants. Bioinformatics. , (2018).
  17. Kozomara, A., Birgaoanu, M., Griffiths-Jones, S. miRBase: from microRNA sequences to function. Nucleic Acids Research. 47 (1), 155-162 (2019).
  18. Griffiths-Jones, S., Saini, H. K., van Dongen, S., Enright, A. J. miRBase: tools for microRNA genomics. Nucleic Acids Research. 36, 154-158 (2008).
  19. Axtell, M. J., Meyers, B. C. Revisiting Criteria for Plant MicroRNA Annotation in the Era of Big Data. Plant Cell. 30 (2), 272-284 (2018).
  20. Taylor, R. S., Tarver, J. E., Hiscock, S. J., Donoghue, P. C. Evolutionary history of plant microRNAs. Trends in Plant Science. 19 (3), 175-182 (2014).
  21. Kozomara, A., Griffiths-Jones, S. miRBase: annotating high confidence microRNAs using deep sequencing data. Nucleic Acids Research. 42, 68-73 (2014).
  22. Langmead, B., Salzberg, S. L. Fast gapped-read alignment with Bowtie 2. Nature Methods. 9 (4), 357-359 (2012).
  23. Lorenz, R., et al. ViennaRNA Package 2.0. Algorithms for Molecular Biology. 6, 26 (2011).
  24. Langmead, B., Trapnell, C., Pop, M., Salzberg, S. L. Ultrafast and memory-efficient alignment of short DNA sequences to the human genome. Genome Biology. 10 (3), 25 (2009).
  25. An, J., Lai, J., Sajjanhar, A., Lehman, M. L., Nelson, C. C. miRPlant: an integrated tool for identification of plant miRNA from RNA sequencing data. BMC Bioinformatics. 15, 275 (2014).
  26. Lei, J., Sun, Y. miR-PREFeR: an accurate, fast and easy-to-use plant miRNA prediction tool using small RNA-Seq data. Bioinformatics. 30 (19), 2837-2839 (2014).
  27. Evers, M., Huttner, M., Dueck, A., Meister, G., Engelmann, J. C. miRA: adaptable novel miRNA identification in plants using small RNA sequencing data. BMC Bioinformatics. 16, 370 (2015).
  28. Mathelier, A., Carbone, A. MIReNA: finding microRNAs with high accuracy and no learning at genome scale and from deep sequencing data. Bioinformatics. 26 (18), 2226-2234 (2010).
  29. Zhu, Q. H., et al. A diverse set of microRNAs and microRNA-like small RNAs in developing rice grains. Genome Research. 18 (9), 1456-1465 (2008).
  30. Fahlgren, N., et al. MicroRNA gene evolution in Arabidopsis lyrata and Arabidopsis thaliana. Plant Cell. 22 (4), 1074-1089 (2010).
  31. Fromm, B., et al. A Uniform System for the Annotation of Vertebrate microRNA Genes and the Evolution of the Human microRNAome. Annual Review of Genetics. 49, 213-242 (2015).
  32. Blevins, T., et al. Identification of Pol IV and RDR2-dependent precursors of 24 nt siRNAs guiding de novo DNA methylation in Arabidopsis. Elife. 4, 09591 (2015).
  33. Zhai, J., et al. A One Precursor One siRNA Model for Pol IV-Dependent siRNA Biogenesis. Cell. 163 (2), 445-455 (2015).
  34. Werner, S., Wollmann, H., Schneeberger, K., Weigel, D. Structure determinants for accurate processing of miR172a in Arabidopsis thaliana. Current Biology. 20 (1), 42-48 (2010).
  35. Mateos, J. L., Bologna, N. G., Chorostecki, U., Palatnik, J. F. Identification of microRNA processing determinants by random mutagenesis of Arabidopsis MIR172a precursor. Current Biology. 20 (1), 49-54 (2010).
  36. Vitsios, D. M., et al. Mirnovo: genome-free prediction of microRNAs from small RNA sequencing data and single-cells using decision forests. Nucleic Acids Research. 45 (21), 177 (2017).

Play Video

Cite This Article
Wang, Y., Kuang, Z., Li, L., Yang, X. A Bioinformatics Pipeline to Accurately and Efficiently Analyze the MicroRNA Transcriptomes in Plants. J. Vis. Exp. (155), e59864, doi:10.3791/59864 (2020).

View Video