अद्यतन संयंत्र मिरना मानदंड और एक ओवरहाल ्ड एल्गोरिदम के साथ एक बायोइन्फॉर्मेटिक्स पाइपलाइन, अर्थात् एमआईआरदीप-पी 2 (एमआईआरपी2), पौधों में माइक्रोआरएनए ट्रांसक्रिप्टोम का सही और कुशलता से विश्लेषण कर सकती है, विशेष रूप से जटिल और बड़े जीनोम वाली प्रजातियों के लिए।
माइक्रोआरएनए (एमआईआरएनए) 20 से 24-न्यूक्लियोटाइड (एनटी) एंडोजेनस स्मॉल आरएनए (एसआरएनसीए) बड़े पैमाने पर पौधों और जानवरों में मौजूद होते हैं जो पोस्ट-ट्रांसक्रिप्शनल स्तर पर जीन अभिव्यक्ति को विनियमित करने में शक्तिशाली भूमिका निभाते हैं। अगली पीढ़ी अनुक्रमण (एनजीएस) विधियों द्वारा srna पुस्तकालयों अनुक्रमण व्यापक रूप से पिछले दशक में miRNA टेपोम की पहचान करने और विश्लेषण करने के लिए नियोजित किया गया है, जिसके परिणामस्वरूप मिरना खोज की तेजी से वृद्धि हुई है । हालांकि, अनुक्रमित एसआरएनए पुस्तकालयों की बढ़ती गहराई के साथ-साथ पौधों के जीनोम के आकार और जटिलता के कारण पौधे मिरना एनोटेशन में दो प्रमुख चुनौतियां उत्पन्न होती हैं। सबसे पहले, एसआरए के कई अन्य प्रकार, विशेष रूप से, एसआरएएन पुस्तकालयों से कम हस्तक्षेप करने वाले आरएनए (सिनास) को कई कम्प्यूटेशनल टूल द्वारा गलत तरीके से miRNAs के रूप में एनोटेट किया जाता है। दूसरा, यह बड़े और जटिल जीनोम के साथ पौधों की प्रजातियों में मिरना ट्रांसक्रिप्टोम का विश्लेषण करने के लिए एक अत्यंत समय लेने वाली प्रक्रिया बन जाती है। इन चुनौतियों से उबरने के लिए, हमने हाल ही में एक नई फ़िल्टरिंग रणनीति को नियोजित करके, स्कोरिंग एल्गोरिदम की ओवरहालिंग और नए अद्यतन संयंत्र मिरना को शामिल करके एमआईआरदीप-पी (मिरना ट्रांसक्रिप्टोम विश्लेषण के लिए एक लोकप्रिय उपकरण) को एमआईआरदीप-पी (मिरना ट्रांसक्रिप्टोम विश्लेषण के लिए एक लोकप्रिय उपकरण) को अपग्रेड किया एनोटेशन मापदंड। हमने अरबीडोप्सिस, चावल, टमाटर, मक्का और गेहूं सहित जीनोमिक जटिलता बढ़ाने के साथ पांच प्रतिनिधि पौधों में अनुक्रमित एसआरएनए आबादी के खिलाफ miRDP2 का परीक्षण किया । परिणामों से संकेत मिलता है कि miRDP2 ने इन कार्यों को बहुत उच्च दक्षता के साथ संसाधित किया। इसके अलावा, miRDP2 ने संवेदनशीलता और सटीकता के बारे में अन्य भविष्यवाणी उपकरणों को बेहतर प्रदर्शन किया। एक साथ लिया, हमारे परिणाम संयंत्र miRNA टेपोम का विश्लेषण करने के लिए एक तेज और सटीक उपकरण के रूप में miRDP2 प्रदर्शित करते हैं, इसलिए समुदाय को पौधों में बेहतर एनोटेट miRNAs की मदद करने में एक उपयोगी उपकरण।
जीव विज्ञान में पिछले दो दशकों में सबसे रोमांचक खोजों में से एक जीनोम1के विविध कार्यों को विनियमित करने में एसआरएनए प्रजातियों की वृद्धि की भूमिका है । विशेष रूप से, miRNAs यूकेरियोट्स में 20 से 24-एनटी एसआरएनए का एक महत्वपूर्ण वर्ग है, और मुख्य रूप से जीवन चक्र विकास चरणों के साथ-साथ प्रोत्साहन और तनाव प्रतिक्रियाओंमें 2,3के रूप में प्रमुख जीन नियामकों के रूप में पोस्ट-ट्रांसक्रिप्शनल स्तर पर कार्य करता है। पौधों में, miRNAs प्रि-मिरना सजाने वाले प्राथमिक प्रतिलिपियों से उत्पन्न होता है, जो आम तौर पर आरएनए पॉलीमरेज II द्वारा व्यक्तिगत प्रतिलेखन इकाइयों4,5के रूप में लिखित होते हैं। विकासवादी रूप से संरक्षित सेलुलर मशीनरी (जानवरों में ड्रोशा रनासे III, पौधों में डीआईईआर की तरह), पीआरआई-मिरना को तत्काल मिरना अग्रदूत, प्री-मिर्ना में उत्पादित किया जाता है, जिसमें इंट्रा-मॉलिक्यूलर स्टेम-लूप संरचनाओं6,7बनाने वाले दृश्य होते हैं। इसके बाद प्री-मिनास को डबल-फंसे इंटरमीडिएट में संसाधित किया जाता है, अर्थात् मिरना डुप्लेक्स, जिसमें कार्यात्मक स्ट्रैंड, परिपक्व मिरना और कम बार-बार कार्यात्मक साथी, मिरना *2,8शामिल हैं। आरएनए-प्रेरित चुप्पी परिसर (आरआईएससी) में लोड होने के बाद, परिपक्व miRNAs अनुक्रम पूरकता के आधार पर अपने एमआरएनए लक्ष्यों को पहचान सकता है, जिसके परिणामस्वरूप एक नकारात्मक नियामक कार्य2,8हो सकता है। miRNAs या तो उनके लक्ष्य टेप अस्थिर या लक्ष्य अनुवाद को रोकने सकता है लेकिन पूर्व तरीकेसे8,9पौधों में प्रभुत्व है .
सूत्रकृमि कैनोरहाब्डिटिस एलिगेंस10,11में पहली मिरना की आकस्मिक खोज के बाद से, विशेष रूप से एनजीएस विधि की उपलब्धता के बाद, मिरना पहचान और इसके कार्यात्मक विश्लेषण के लिए बहुत शोध किया गया है। एनजीएस विधि के व्यापक अनुप्रयोग ने कम्प्यूटेशनल उपकरणों के उपयोग को बहुत बढ़ावा दिया है जिन्हें मिरना की अनूठी विशेषता पर कब्जा करने के लिए डिज़ाइन किया गया था, जैसे अग्रदूतों की स्टेम-लूप संरचना और अनुक्रम के उनके तरजीही संचय परिपक्व मिरना और मिरना * पर पढ़ता है। नतीजतन, शोधकर्ताओं ने विविध प्रजातियों में miRNAs की पहचान करने में उल्लेखनीय सफलता हासिल की है । पहले वर्णित संभावना मॉडल12के आधार पर, हमने एमआईआरदीप-पी13विकसित किया, जो एनजीएस डेटा से पौधे के एमआईआरएनए की खोज के लिए पहला कम्प्यूटेशनल उपकरण था। मिरदीप-पी विशेष रूप से अधिक चर अग्रदूत लंबाई और बड़े पैरालॉगस परिवारों13,14,15विशेषता डिकोडिंग संयंत्र miRNAs की चुनौतियों को जीतने के उद्देश्य से किया गया था . इसकी रिहाई के बाद, इस कार्यक्रम को हजारों बार डाउनलोड किया गया है और 40 से अधिक पौधों की प्रजातियों16में मिरना ट्रांसक्रिप्टोम को एनोटेट करने के लिए उपयोग किया जाता है। एमआईआरदीप-पी जैसे एनजीएस-आधारित उपकरणों द्वारा चालित, सार्वजनिक मिरना भंडार एमआईआरबेस17में पंजीकृत एमआईआरएनए की संख्या में नाटकीय वृद्धि हुई है, जहां 200818में केवल ~ 500 मिरना आइटम (रिलीज 2.0) की तुलना में 38,000 से अधिक मिरना आइटम वर्तमान में होस्ट किए गए हैं (रिलीज 22.1)।
हालांकि, संयंत्र मिरना एनोटेशन से दो नई चुनौतियां पैदा हुई हैं । सबसे पहले, झूठे-सकारात्मक के उच्च अनुपात ने निम्नलिखित कारणों से पौधे मिरना एनोटेशन16,19 की गुणवत्ता को भारी प्रभावित किया है: 1) एनजीएस एसआरएनए पुस्तकालयों से एंडोजेनस शॉर्ट इंटरफैंटिंग आरएनए (siRNAs) की बाढ़ गलती से एक कठोर मिरना एनोटेशन मानदंडों की कमी के कारण मिना के रूप में एनोटेट की गई थी; 2) एक प्राथमिकताओं miRNA जानकारी के बिना प्रजातियों के लिए, झूठी सकारात्मक NGS डेटा के आधार पर भविष्यवाणी को खत्म करने के लिए मुश्किल हैं । एक उदाहरण के रूप में miRBase का उपयोग करना, टेलर एट अल20 सार्वजनिक भंडार 21 (रिलीज21) में संयंत्र miRNA प्रविष्टियों के एक तिहाई पाया सबूत का समर्थन करने के लिए ठोस कमी रह गई थी और यहां तक कि संयंत्र miRNA परिवारों के तीन चौथाई संदिग्ध थे । दूसरा, यह बड़े और जटिल जीनोम16के साथ संयंत्र miRNAs की भविष्यवाणी के लिए एक अत्यंत समय लेने वाली प्रक्रिया बन जाता है । इन चुनौतियों से उबरने के लिए, हमने एक नई फ़िल्टरिंग रणनीति जोड़कर, स्कोरिंग एल्गोरिदम की ओवरहालिंग और संयंत्र मिरना एनोटेशन के लिए नए मानदंडों को एकीकृत करके एमआईआरदीप-पी को अपडेट किया, और नया संस्करण miRDP2 जारी किया। इसके अलावा, हमने धीरे-धीरे जीनोम आकार बढ़ाने के साथ एनजीएस एसआरएनए डेटासेट का उपयोग करके miRDP2 का परीक्षण किया: अरबीडोप्सिस, चावल, टमाटर, मक्का और गेहूं। अन्य पांच व्यापक रूप से उपयोग किए जाने वाले उपकरणों और इसके पुराने संस्करण की तुलना में, miRDP2 ने इन एसआरएनए डेटा को पार्स किया और बेहतर सटीकता और संवेदनशीलता के साथ तेजी से मिरना ट्रांसक्रिप्टोम का विश्लेषण किया।
miRDP2 पैकेज की सामग्री
miRDP2 पैकेज में छह प्रलेखित पर्ल स्क्रिप्ट शामिल हैं जिन्हें तैयार बैश स्क्रिप्ट द्वारा क्रमिक रूप से चलाया जाना चाहिए। छह लिपियों में से तीन(convert_bowtie_to_blast.pl, filter_alignments.pl,और excise_candidate.pl)एमआईआरदीप-पी से विरासत में मिली हैं । अन्य लिपियों को मूल संस्करण से संशोधित किया जाता है। छह लिपियों के कार्यनिम्नलिखित में वर्णित हैं:
preprocess_reads.pl फिल्टर इनपुट पढ़ता है, पढ़ता है कि बहुत लंबे या बहुत कम कर रहे है (25 nt), और Rfam ncRNA दृश्यों के साथ सहसंबद्ध पढ़ता है, साथ ही साथ RPM के साथ पढ़ता है (प्रति मिलियन प्रति पढ़ता है) 5 से भी कम है । स्क्रिप्ट तो पुनः प्राप्त ज्ञात miRNA परिपक्व दृश्यों से सहसंबद्ध पढ़ता है । इनपुट फाइलें फास्टा/FASTQ प्रारूप में मूल पढ़ता है और miRNA और NCRNA दृश्यों के लिए मैपिंग पढ़ता है के bowtie2 उत्पादन कर रहे हैं ।
आरपीएम की गणना का फार्मूला निम्नलिखित के रूप में है:
convert_bowtie_to_blast.pl ब्लास्ट-पार्स्ड फॉर्मेट में बोटाई फॉर्मेट को बदलता है । ब्लास्ट-पार्स्ड फॉर्मेट एक कस्टम टैबुलर अलग प्रारूप है जो मानक एनसीबीआई ब्लासआउटपुट प्रारूप से प्राप्त होता है।
filter_alignments.pl गहरी अनुक्रमण के संरेखण को फ़िल्टर करता है जो जीनोम में पढ़ता है। यह आंशिक संरेखण के साथ-साथ बहु-गठबंधन रीड (उपयोगकर्ता-निर्दिष्ट आवृत्ति कटऑफ) को फ़िल्टर करता है। मूल इनपुट ब्लास्ट-पार्स्ड फॉर्मेट में फाइल है ।
excise_candidate.pl दिशानिर्देशों के रूप में गठबंधन पढ़ता है का उपयोग करके एक संदर्भ अनुक्रम से संभावित अग्रदूत दृश्यों में कटौती करता है। मूल इनपुट ब्लास्ट-पार्स्ड फॉर्मेट में एक फाइल और फास्टा फाइल है । आउटपुट फास्टा प्रारूप में सभी संभावित अग्रदूत दृश्य हैं।
mod-miRDP.pl दो इनपुट फाइल, सिग्नेचर फाइल और स्ट्रक्चर फाइल की जरूरत है, जिसे प्लांट स्पेसिफिक पैरामीटर्स के साथ स्कोरिंग सिस्टम को बदलकर कोर एमआईआरदीप-पी एल्गोरिदम से संशोधित किया जाता है । इनपुट फाइलडॉट-ब्रैकेट अग्रदूत संरचना फ़ाइल हैं और वितरण हस्ताक्षर फ़ाइल पढ़ता है।
मॉड-rm_redundant_meet_plant.पीएल को तीन इनपुट फाइलों की आवश्यकता है: mod-miRDP.pl द्वारा उत्पन्न chromosome_length, अग्रदूत और original_prediction। यह दो आउटपुट फाइलें उत्पन्न करता है, गैर-बेमानी भविष्यवाणी की गई फ़ाइल और नए अद्यतन संयंत्र मिरना मानदंडों द्वारा फ़िल्टर की गई फाइल की भविष्यवाणी की गई है। आउटपुट फ़ाइल के प्रारूप पर विवरण धारा 1.4 में वर्णित है।
एनजीएस के आगमन के साथ,29,30विभिन्न प्रजातियों में एसआरएनए अनुक्रमण डेटा की बढ़ती मात्रा से बड़ी संख्या में मिरना लोकी की पहचान की गई है। केंद्रीकृत सामुदायिक डेटाबेस एमआईआरबेस<sup cla…
The authors have nothing to disclose.
इस काम को बीजिंग कृषि और वानिकी विज्ञान अकादमी (KJCX201917, KJCX20180425, और KJCX20180204) द्वारा चीन के XY और राष्ट्रीय प्राकृतिक विज्ञान फाउंडेशन (31621001) को एलएल के लिए समर्थन दिया गया है ।
Computer/computing node | N/A | N/A | Perl is required; at least 8 GB RAM and 100 GB storage are recommended |