A Bioinformatics Pipeline to Accurately and Efficiently Analyze the MicroRNA Transcriptomes in Plants

Ying Wang; Zheng Kuang; Lei Li; Xiaozeng Yang

doi:10.3791/59864

JoVE Journal > Genetics

Please note that all translations are automatically generated. Click here for the English version.

Genetik

पौधों में माइक्रोआरएनए ट्रांसक्रिप्टोम का सटीक और कुशलता पूर्वक विश्लेषण करने के लिए एक बायोइन्फॉर्मेटिक्स पाइपलाइन

Published: January 21, 2020

doi:

10.3791/59864

Ying Wang*^1,2, Zheng Kuang*^1,2, Lei Li, Xiaozeng Yang

¹Beijing Key Laboratory of Agricultural Genetic Resources and Biotechnology, Beijing Agro-Biotechnology Research Center,Beijing Academy of Agriculture and Forestry Sciences, ²State Key Laboratory of Protein and Plant Gene Research, Peking-Tsinghua Center for Life Sciences, School of Advanced Agricultural Sciences and School of Life Sciences,Peking University

Summary

अद्यतन संयंत्र मिरना मानदंड और एक ओवरहाल ्ड एल्गोरिदम के साथ एक बायोइन्फॉर्मेटिक्स पाइपलाइन, अर्थात् एमआईआरदीप-पी 2 (एमआईआरपी2), पौधों में माइक्रोआरएनए ट्रांसक्रिप्टोम का सही और कुशलता से विश्लेषण कर सकती है, विशेष रूप से जटिल और बड़े जीनोम वाली प्रजातियों के लिए।

Abstract

माइक्रोआरएनए (एमआईआरएनए) 20 से 24-न्यूक्लियोटाइड (एनटी) एंडोजेनस स्मॉल आरएनए (एसआरएनसीए) बड़े पैमाने पर पौधों और जानवरों में मौजूद होते हैं जो पोस्ट-ट्रांसक्रिप्शनल स्तर पर जीन अभिव्यक्ति को विनियमित करने में शक्तिशाली भूमिका निभाते हैं। अगली पीढ़ी अनुक्रमण (एनजीएस) विधियों द्वारा srna पुस्तकालयों अनुक्रमण व्यापक रूप से पिछले दशक में miRNA टेपोम की पहचान करने और विश्लेषण करने के लिए नियोजित किया गया है, जिसके परिणामस्वरूप मिरना खोज की तेजी से वृद्धि हुई है । हालांकि, अनुक्रमित एसआरएनए पुस्तकालयों की बढ़ती गहराई के साथ-साथ पौधों के जीनोम के आकार और जटिलता के कारण पौधे मिरना एनोटेशन में दो प्रमुख चुनौतियां उत्पन्न होती हैं। सबसे पहले, एसआरए के कई अन्य प्रकार, विशेष रूप से, एसआरएएन पुस्तकालयों से कम हस्तक्षेप करने वाले आरएनए (सिनास) को कई कम्प्यूटेशनल टूल द्वारा गलत तरीके से miRNAs के रूप में एनोटेट किया जाता है। दूसरा, यह बड़े और जटिल जीनोम के साथ पौधों की प्रजातियों में मिरना ट्रांसक्रिप्टोम का विश्लेषण करने के लिए एक अत्यंत समय लेने वाली प्रक्रिया बन जाती है। इन चुनौतियों से उबरने के लिए, हमने हाल ही में एक नई फ़िल्टरिंग रणनीति को नियोजित करके, स्कोरिंग एल्गोरिदम की ओवरहालिंग और नए अद्यतन संयंत्र मिरना को शामिल करके एमआईआरदीप-पी (मिरना ट्रांसक्रिप्टोम विश्लेषण के लिए एक लोकप्रिय उपकरण) को एमआईआरदीप-पी (मिरना ट्रांसक्रिप्टोम विश्लेषण के लिए एक लोकप्रिय उपकरण) को अपग्रेड किया एनोटेशन मापदंड। हमने अरबीडोप्सिस, चावल, टमाटर, मक्का और गेहूं सहित जीनोमिक जटिलता बढ़ाने के साथ पांच प्रतिनिधि पौधों में अनुक्रमित एसआरएनए आबादी के खिलाफ miRDP2 का परीक्षण किया । परिणामों से संकेत मिलता है कि miRDP2 ने इन कार्यों को बहुत उच्च दक्षता के साथ संसाधित किया। इसके अलावा, miRDP2 ने संवेदनशीलता और सटीकता के बारे में अन्य भविष्यवाणी उपकरणों को बेहतर प्रदर्शन किया। एक साथ लिया, हमारे परिणाम संयंत्र miRNA टेपोम का विश्लेषण करने के लिए एक तेज और सटीक उपकरण के रूप में miRDP2 प्रदर्शित करते हैं, इसलिए समुदाय को पौधों में बेहतर एनोटेट miRNAs की मदद करने में एक उपयोगी उपकरण।

Introduction

जीव विज्ञान में पिछले दो दशकों में सबसे रोमांचक खोजों में से एक जीनोम¹के विविध कार्यों को विनियमित करने में एसआरएनए प्रजातियों की वृद्धि की भूमिका है । विशेष रूप से, miRNAs यूकेरियोट्स में 20 से 24-एनटी एसआरएनए का एक महत्वपूर्ण वर्ग है, और मुख्य रूप से जीवन चक्र विकास चरणों के साथ-साथ प्रोत्साहन और तनाव प्रतिक्रियाओं^{में 2,}³के रूप में प्रमुख जीन नियामकों के रूप में पोस्ट-ट्रांसक्रिप्शनल स्तर पर कार्य करता है। पौधों में, miRNAs प्रि-मिरना सजाने वाले प्राथमिक प्रतिलिपियों से उत्पन्न होता है, जो आम तौर पर आरएनए पॉलीमरेज II द्वारा व्यक्तिगत प्रतिलेखन इकाइयों^4,⁵के रूप में लिखित होते हैं। विकासवादी रूप से संरक्षित सेलुलर मशीनरी (जानवरों में ड्रोशा रनासे III, पौधों में डीआईईआर की तरह), पीआरआई-मिरना को तत्काल मिरना अग्रदूत, प्री-मिर्ना में उत्पादित किया जाता है, जिसमें इंट्रा-मॉलिक्यूलर स्टेम-लूप संरचनाओं^6,⁷बनाने वाले दृश्य होते हैं। इसके बाद प्री-मिनास को डबल-फंसे इंटरमीडिएट में संसाधित किया जाता है, अर्थात् मिरना डुप्लेक्स, जिसमें कार्यात्मक स्ट्रैंड, परिपक्व मिरना और कम बार-बार कार्यात्मक साथी, मिरना *^2,⁸शामिल हैं। आरएनए-प्रेरित चुप्पी परिसर (आरआईएससी) में लोड होने के बाद, परिपक्व miRNAs अनुक्रम पूरकता के आधार पर अपने एमआरएनए लक्ष्यों को पहचान सकता है, जिसके परिणामस्वरूप एक नकारात्मक नियामक कार्य^2,⁸हो सकता है। miRNAs या तो उनके लक्ष्य टेप अस्थिर या लक्ष्य अनुवाद को रोकने सकता है लेकिन पूर्व तरीके^से8^,⁹पौधों में प्रभुत्व है .

सूत्रकृमि कैनोरहाब्डिटिस एलिगेंस^10,¹¹में पहली मिरना की आकस्मिक खोज के बाद से, विशेष रूप से एनजीएस विधि की उपलब्धता के बाद, मिरना पहचान और इसके कार्यात्मक विश्लेषण के लिए बहुत शोध किया गया है। एनजीएस विधि के व्यापक अनुप्रयोग ने कम्प्यूटेशनल उपकरणों के उपयोग को बहुत बढ़ावा दिया है जिन्हें मिरना की अनूठी विशेषता पर कब्जा करने के लिए डिज़ाइन किया गया था, जैसे अग्रदूतों की स्टेम-लूप संरचना और अनुक्रम के उनके तरजीही संचय परिपक्व मिरना और मिरना * पर पढ़ता है। नतीजतन, शोधकर्ताओं ने विविध प्रजातियों में miRNAs की पहचान करने में उल्लेखनीय सफलता हासिल की है । पहले वर्णित संभावना मॉडल¹²के आधार पर, हमने एमआईआरदीप-पी¹³विकसित किया, जो एनजीएस डेटा से पौधे के एमआईआरएनए की खोज के लिए पहला कम्प्यूटेशनल उपकरण था। मिरदीप-पी विशेष रूप से अधिक चर अग्रदूत लंबाई और बड़े पैरालॉगस परिवारों¹³^,¹⁴^,¹⁵विशेषता डिकोडिंग संयंत्र miRNAs की चुनौतियों को जीतने के उद्देश्य से किया गया था . इसकी रिहाई के बाद, इस कार्यक्रम को हजारों बार डाउनलोड किया गया है और 40 से अधिक पौधों की प्रजातियों¹⁶में मिरना ट्रांसक्रिप्टोम को एनोटेट करने के लिए उपयोग किया जाता है। एमआईआरदीप-पी जैसे एनजीएस-आधारित उपकरणों द्वारा चालित, सार्वजनिक मिरना भंडार एमआईआरबेस¹⁷में पंजीकृत एमआईआरएनए की संख्या में नाटकीय वृद्धि हुई है, जहां 2008¹⁸में केवल ~ 500 मिरना आइटम (रिलीज 2.0) की तुलना में 38,000 से अधिक मिरना आइटम वर्तमान में होस्ट किए गए हैं (रिलीज 22.1)।

हालांकि, संयंत्र मिरना एनोटेशन से दो नई चुनौतियां पैदा हुई हैं । सबसे पहले, झूठे-सकारात्मक के उच्च अनुपात ने निम्नलिखित कारणों से पौधे मिरना एनोटेशन^16,¹⁹ की गुणवत्ता को भारी प्रभावित किया है: 1) एनजीएस एसआरएनए पुस्तकालयों से एंडोजेनस शॉर्ट इंटरफैंटिंग आरएनए (siRNAs) की बाढ़ गलती से एक कठोर मिरना एनोटेशन मानदंडों की कमी के कारण मिना के रूप में एनोटेट की गई थी; 2) एक प्राथमिकताओं miRNA जानकारी के बिना प्रजातियों के लिए, झूठी सकारात्मक NGS डेटा के आधार पर भविष्यवाणी को खत्म करने के लिए मुश्किल हैं । एक उदाहरण के रूप में miRBase का उपयोग करना, टेलर एट अल²⁰ सार्वजनिक भंडार 21 (रिलीज²¹⁾ में संयंत्र miRNA प्रविष्टियों के एक तिहाई पाया सबूत का समर्थन करने के लिए ठोस कमी रह गई थी और यहां तक कि संयंत्र miRNA परिवारों के तीन चौथाई संदिग्ध थे । दूसरा, यह बड़े और जटिल जीनोम¹⁶के साथ संयंत्र miRNAs की भविष्यवाणी के लिए एक अत्यंत समय लेने वाली प्रक्रिया बन जाता है । इन चुनौतियों से उबरने के लिए, हमने एक नई फ़िल्टरिंग रणनीति जोड़कर, स्कोरिंग एल्गोरिदम की ओवरहालिंग और संयंत्र मिरना एनोटेशन के लिए नए मानदंडों को एकीकृत करके एमआईआरदीप-पी को अपडेट किया, और नया संस्करण miRDP2 जारी किया। इसके अलावा, हमने धीरे-धीरे जीनोम आकार बढ़ाने के साथ एनजीएस एसआरएनए डेटासेट का उपयोग करके miRDP2 का परीक्षण किया: अरबीडोप्सिस, चावल, टमाटर, मक्का और गेहूं। अन्य पांच व्यापक रूप से उपयोग किए जाने वाले उपकरणों और इसके पुराने संस्करण की तुलना में, miRDP2 ने इन एसआरएनए डेटा को पार्स किया और बेहतर सटीकता और संवेदनशीलता के साथ तेजी से मिरना ट्रांसक्रिप्टोम का विश्लेषण किया।

miRDP2 पैकेज की सामग्री
miRDP2 पैकेज में छह प्रलेखित पर्ल स्क्रिप्ट शामिल हैं जिन्हें तैयार बैश स्क्रिप्ट द्वारा क्रमिक रूप से चलाया जाना चाहिए। छह लिपियों में से तीन(convert_bowtie_to_blast.pl, filter_alignments.pl,और excise_candidate.pl)एमआईआरदीप-पी से विरासत में मिली हैं । अन्य लिपियों को मूल संस्करण से संशोधित किया जाता है। छह लिपियों के कार्यनिम्नलिखित में वर्णित हैं:

preprocess_reads.pl फिल्टर इनपुट पढ़ता है, पढ़ता है कि बहुत लंबे या बहुत कम कर रहे है (25 nt), और Rfam ncRNA दृश्यों के साथ सहसंबद्ध पढ़ता है, साथ ही साथ RPM के साथ पढ़ता है (प्रति मिलियन प्रति पढ़ता है) 5 से भी कम है । स्क्रिप्ट तो पुनः प्राप्त ज्ञात miRNA परिपक्व दृश्यों से सहसंबद्ध पढ़ता है । इनपुट फाइलें फास्टा/FASTQ प्रारूप में मूल पढ़ता है और miRNA और NCRNA दृश्यों के लिए मैपिंग पढ़ता है के bowtie2 उत्पादन कर रहे हैं ।

आरपीएम की गणना का फार्मूला निम्नलिखित के रूप में है:

convert_bowtie_to_blast.pl ब्लास्ट-पार्स्ड फॉर्मेट में बोटाई फॉर्मेट को बदलता है । ब्लास्ट-पार्स्ड फॉर्मेट एक कस्टम टैबुलर अलग प्रारूप है जो मानक एनसीबीआई ब्लासआउटपुट प्रारूप से प्राप्त होता है।

filter_alignments.pl गहरी अनुक्रमण के संरेखण को फ़िल्टर करता है जो जीनोम में पढ़ता है। यह आंशिक संरेखण के साथ-साथ बहु-गठबंधन रीड (उपयोगकर्ता-निर्दिष्ट आवृत्ति कटऑफ) को फ़िल्टर करता है। मूल इनपुट ब्लास्ट-पार्स्ड फॉर्मेट में फाइल है ।

excise_candidate.pl दिशानिर्देशों के रूप में गठबंधन पढ़ता है का उपयोग करके एक संदर्भ अनुक्रम से संभावित अग्रदूत दृश्यों में कटौती करता है। मूल इनपुट ब्लास्ट-पार्स्ड फॉर्मेट में एक फाइल और फास्टा फाइल है । आउटपुट फास्टा प्रारूप में सभी संभावित अग्रदूत दृश्य हैं।

mod-miRDP.pl दो इनपुट फाइल, सिग्नेचर फाइल और स्ट्रक्चर फाइल की जरूरत है, जिसे प्लांट स्पेसिफिक पैरामीटर्स के साथ स्कोरिंग सिस्टम को बदलकर कोर एमआईआरदीप-पी एल्गोरिदम से संशोधित किया जाता है । इनपुट फाइलडॉट-ब्रैकेट अग्रदूत संरचना फ़ाइल हैं और वितरण हस्ताक्षर फ़ाइल पढ़ता है।

मॉड-rm_redundant_meet_plant.पीएल को तीन इनपुट फाइलों की आवश्यकता है: mod-miRDP.pl द्वारा उत्पन्न chromosome_length, अग्रदूत और original_prediction। यह दो आउटपुट फाइलें उत्पन्न करता है, गैर-बेमानी भविष्यवाणी की गई फ़ाइल और नए अद्यतन संयंत्र मिरना मानदंडों द्वारा फ़िल्टर की गई फाइल की भविष्यवाणी की गई है। आउटपुट फ़ाइल के प्रारूप पर विवरण धारा 1.4 में वर्णित है।

Protocol

1. स्थापना और परीक्षण आवश्यक निर्भरता डाउनलोड करें: बोटाई222 और आरएनएफोल्ड23. संकलित पैकेजों की सिफारिश की जाती है। अपने घर साइट(http://bowtie-bio.sourceforge.net/bowtie2/index.shtml…

Representative Results

मिरना एनोटेशन पाइपलाइन, miRDP2, यहां वर्णित 5 पौधों की प्रजातियों से 10 सार्वजनिक एसआरएनए-सीक्यू पुस्तकालयों पर लागू होती है, जिसमें धीरे-धीरे बढ़ी हुई जीनोम लंबाई होती है, जिसमें अरबीडोप्सिस थैलियाना, <em…

Discussion

एनजीएस के आगमन के साथ,^29,³⁰विभिन्न प्रजातियों में एसआरएनए अनुक्रमण डेटा की बढ़ती मात्रा से बड़ी संख्या में मिरना लोकी की पहचान की गई है। केंद्रीकृत सामुदायिक डेटाबेस एमआईआरबेस<sup cla…

Offenlegungen

The authors have nothing to disclose.

Acknowledgements

इस काम को बीजिंग कृषि और वानिकी विज्ञान अकादमी (KJCX201917, KJCX20180425, और KJCX20180204) द्वारा चीन के XY और राष्ट्रीय प्राकृतिक विज्ञान फाउंडेशन (31621001) को एलएल के लिए समर्थन दिया गया है ।

Materials

Computer/computing node

N/A

Perl is required; at least 8 GB RAM and 100 GB storage are recommended

Referenzen

Ghildiyal, M., Zamore, P. D. Small silencing RNAs: an expanding universe. Nature Reviews Genetics. 10 (2), 94-108 (2009).
Bartel, D. P. MicroRNAs: target recognition and regulatory functions. Cell. 136 (2), 215-233 (2009).
Moran, Y., Agron, M., Praher, D., Technau, U. The evolutionary origin of plant and animal microRNAs. Nature Ecology Evolution. 1 (3), 27 (2017).
Xie, Z., et al. Expression of Arabidopsis MIRNA genes. Plant Physiology. 138 (4), 2145-2154 (2005).
Zhao, X., Zhang, H., Li, L. Identification and analysis of the proximal promoters of microRNA genes in Arabidopsis. Genomics. 101 (3), 187-194 (2013).
Bologna, N. G., Mateos, J. L., Bresso, E. G., Palatnik, J. F. A loop-to-base processing mechanism underlies the biogenesis of plant microRNAs miR319 and miR159. EMBO JOURNAL. 28 (23), 3646-3656 (2009).
Rogers, K., Chen, X. Biogenesis, turnover, and mode of action of plant microRNAs. Plant Cell. 25 (7), 2383-2399 (2013).
Voinnet, O. Origin, biogenesis, and activity of plant microRNAs. Cell. 136 (4), 669-687 (2009).
Iwakawa, H. O., Tomari, Y. The Functions of MicroRNAs: mRNA Decay and Translational Repression. Trends in Cell Biology. 25 (11), 651-665 (2015).
Lee, R. C., Feinbaum, R. L., Ambros, V. The C. elegans heterochronic gene lin-4 encodes small RNAs with antisense complementarity to lin-14. Cell. 75 (5), 843-854 (1993).
Wightman, B., Ha, I., Ruvkun, G. Posttranscriptional regulation of the heterochronic gene lin-14 by lin-4 mediates temporal pattern formation in C. elegans. Cell. 75 (5), 855-862 (1993).
Friedlander, M. R., et al. Discovering microRNAs from deep sequencing data using miRDeep. Nature Biotechnology. 26 (4), 407-415 (2008).
Yang, X., Li, L. miRDeep-P: a computational tool for analyzing the microRNA transcriptome in plants. Bioinformatics. 27 (18), 2614-2615 (2011).
Meyers, B. C., et al. Criteria for annotation of plant MicroRNAs. Plant Cell. 20 (12), 3186-3190 (2008).
Yang, X., Zhang, H., Li, L. Global analysis of gene-level microRNA expression in Arabidopsis using deep sequencing data. Genomics. 98 (1), 40-46 (2011).
Kuang, Z., Wang, Y., Li, L., Yang, X. miRDeep-P2: accurate and fast analysis of the microRNA transcriptome in plants. Bioinformatics. , (2018).
Kozomara, A., Birgaoanu, M., Griffiths-Jones, S. miRBase: from microRNA sequences to function. Nucleic Acids Research. 47 (1), 155-162 (2019).
Griffiths-Jones, S., Saini, H. K., van Dongen, S., Enright, A. J. miRBase: tools for microRNA genomics. Nucleic Acids Research. 36, 154-158 (2008).
Axtell, M. J., Meyers, B. C. Revisiting Criteria for Plant MicroRNA Annotation in the Era of Big Data. Plant Cell. 30 (2), 272-284 (2018).
Taylor, R. S., Tarver, J. E., Hiscock, S. J., Donoghue, P. C. Evolutionary history of plant microRNAs. Trends in Plant Science. 19 (3), 175-182 (2014).
Kozomara, A., Griffiths-Jones, S. miRBase: annotating high confidence microRNAs using deep sequencing data. Nucleic Acids Research. 42, 68-73 (2014).
Langmead, B., Salzberg, S. L. Fast gapped-read alignment with Bowtie 2. Nature Methods. 9 (4), 357-359 (2012).
Lorenz, R., et al. ViennaRNA Package 2.0. Algorithms for Molecular Biology. 6, 26 (2011).
Langmead, B., Trapnell, C., Pop, M., Salzberg, S. L. Ultrafast and memory-efficient alignment of short DNA sequences to the human genome. Genome Biology. 10 (3), 25 (2009).
An, J., Lai, J., Sajjanhar, A., Lehman, M. L., Nelson, C. C. miRPlant: an integrated tool for identification of plant miRNA from RNA sequencing data. BMC Bioinformatics. 15, 275 (2014).
Lei, J., Sun, Y. miR-PREFeR: an accurate, fast and easy-to-use plant miRNA prediction tool using small RNA-Seq data. Bioinformatics. 30 (19), 2837-2839 (2014).
Evers, M., Huttner, M., Dueck, A., Meister, G., Engelmann, J. C. miRA: adaptable novel miRNA identification in plants using small RNA sequencing data. BMC Bioinformatics. 16, 370 (2015).
Mathelier, A., Carbone, A. MIReNA: finding microRNAs with high accuracy and no learning at genome scale and from deep sequencing data. Bioinformatics. 26 (18), 2226-2234 (2010).
Zhu, Q. H., et al. A diverse set of microRNAs and microRNA-like small RNAs in developing rice grains. Genome Research. 18 (9), 1456-1465 (2008).
Fahlgren, N., et al. MicroRNA gene evolution in Arabidopsis lyrata and Arabidopsis thaliana. Plant Cell. 22 (4), 1074-1089 (2010).
Fromm, B., et al. A Uniform System for the Annotation of Vertebrate microRNA Genes and the Evolution of the Human microRNAome. Annual Review of Genetics. 49, 213-242 (2015).
Blevins, T., et al. Identification of Pol IV and RDR2-dependent precursors of 24 nt siRNAs guiding de novo DNA methylation in Arabidopsis. Elife. 4, 09591 (2015).
Zhai, J., et al. A One Precursor One siRNA Model for Pol IV-Dependent siRNA Biogenesis. Cell. 163 (2), 445-455 (2015).
Werner, S., Wollmann, H., Schneeberger, K., Weigel, D. Structure determinants for accurate processing of miR172a in Arabidopsis thaliana. Current Biology. 20 (1), 42-48 (2010).
Mateos, J. L., Bologna, N. G., Chorostecki, U., Palatnik, J. F. Identification of microRNA processing determinants by random mutagenesis of Arabidopsis MIR172a precursor. Current Biology. 20 (1), 49-54 (2010).
Vitsios, D. M., et al. Mirnovo: genome-free prediction of microRNAs from small RNA sequencing data and single-cells using decision forests. Nucleic Acids Research. 45 (21), 177 (2017).

Play Video

PDF

DOI

DOWNLOAD MATERIALS LIST

Diesen Artikel zitieren

Wang, Y., Kuang, Z., Li, L., Yang, X. A Bioinformatics Pipeline to Accurately and Efficiently Analyze the MicroRNA Transcriptomes in Plants. J. Vis. Exp. (155), e59864, doi:10.3791/59864 (2020).