यह ट्यूटोरियल मेटाजनोमिक डेटा के 2-वर्ग अनुक्रम वर्गीकरण प्रदर्शन के लिए एक गहरी सीखने की एल्गोरिदम का निर्माण करने के लिए एक सरल विधि का वर्णन करता है।
प्रजातियों के वर्गीकरण, जीन समारोह वर्गीकरण और वायरल होस्ट वर्गीकरण जैसे विभिन्न जैविक अनुक्रम वर्गीकरण कार्यों, कई मेटाजन्नोमिक डेटा विश्लेषणों में अपेक्षित प्रक्रियाएं हैं। चूंकि मेटाजन्नोमिक डेटा में बड़ी संख्या में उपन्यास प्रजातियां और जीन होते हैं, इसलिए कई अध्ययनों में उच्च प्रदर्शन करने वाले वर्गीकरण एल्गोरिदम की आवश्यकता होती है। जीवविज्ञानी अक्सर किसी विशिष्ट कार्य के लिए उपयुक्त अनुक्रम वर्गीकरण और एनोटेशन टूल खोजने में चुनौतियों का सामना करते हैं और अक्सर आवश्यक गणितीय और कम्प्यूटेशनल ज्ञान की कमी के कारण अपने दम पर एक संबंधित एल्गोरिदम का निर्माण करने में सक्षम नहीं होते हैं। डीप लर्निंग तकनीक हाल ही में एक लोकप्रिय विषय बन गई है और कई वर्गीकरण कार्यों में मजबूत फायदे दिखाती है। आज तक, कई अत्यधिक पैक किए गए डीप लर्निंग पैकेज, जो जीव विज्ञानियों के लिए एल्गोरिदम विवरणों के गहन ज्ञान के बिना अपनी आवश्यकताओं के अनुसार गहरे सीखने के ढांचे का निर्माण करना संभव बनाते हैं, विकसित किए गए हैं। इस ट्यूटोरियल में, हम पर्याप्त गणितीय ज्ञान या प्रोग्रामिंग कौशल की आवश्यकता के बिना अनुक्रम वर्गीकरण के लिए एक आसान-से-उपयोग डीप लर्निंग फ्रेमवर्क के निर्माण के लिए एक दिशानिर्देश प्रदान करते हैं। सभी कोड को एक आभासी मशीन में अनुकूलित किया जाता है ताकि उपयोगकर्ता सीधे अपने डेटा का उपयोग करके कोड चला सकें।
मेटाजेनोमिक अनुक्रमण तकनीक तनाव अलगाव प्रक्रिया को नजरअंदाज करती है और सीधे पर्यावरणीय नमूने में कुल डीएनए को दृश्यों करती है। इस प्रकार, मेटाजन्नोमिक डेटा में विभिन्न जीवों से डीएनए होता है, और अधिकांश जैविक दृश्य उपन्यास जीवों से होते हैं जो वर्तमान डेटाबेस में मौजूद नहीं हैं। विभिन्न शोध उद्देश्यों के अनुसार, जीवविज्ञानियों को इन दृश्यों को विभिन्न दृष्टिकोणों से वर्गीकृत करने की आवश्यकता है, जैसे वर्गीकरण वर्गीकरण1,वायरस-बैक्टीरिया वर्गीकरण2,3,4,गुणसूत्र-प्लाज्मिड वर्गीकरण3,5,6,7,और जीन फंक्शन एनोटेशन (जैसे एंटीबायोटिक प्रतिरोध जीन वर्गीकरण8 और उग्रता कारक वर्गीकरण9 ). चूंकि मेटाजेनोमिक डेटा में बड़ी संख्या में उपन्यास प्रजातियां और जीन होते हैं, एबी इनिटियो एल्गोरिदम, जो अनुक्रम वर्गीकरण (डीएनए वर्गीकरण और प्रोटीन वर्गीकरण सहित) के लिए ज्ञात डेटाबेस पर भरोसा नहीं करते हैं, मेटाजनोमिक डेटा विश्लेषण में एक महत्वपूर्ण दृष्टिकोण हैं। हालांकि, इस तरह के एल्गोरिदम के डिजाइन के लिए पेशेवर गणित ज्ञान और प्रोग्रामिंग कौशल की आवश्यकता होती है; इसलिए, कई जीवविज्ञानियों और एल्गोरिदम डिजाइन शुरुआती लोगों को अपनी आवश्यकताओं के अनुरूप वर्गीकरण एल्गोरिदम का निर्माण करने में कठिनाई होती है।
आर्टिफिशियल इंटेलिजेंस के विकास के साथ, मेटाजेनोमिक विश्लेषण में अनुक्रम वर्गीकरण जैसे कार्यों को पूरा करने के लिए बायोइन्फॉर्मेटिक्स के क्षेत्र में डीप लर्निंग एल्गोरिदम का व्यापक रूप से उपयोग किया गया है। शुरुआती लोगों को डीप लर्निंग एल्गोरिदम को समझने में मदद करने के लिए, हम नीचे एक आसान-से-समझ फैशन में एल्गोरिदम का वर्णन करते हैं।
एक गहरी सीखने की तकनीक का अवलोकन चित्र 1में दिखाया गया है । एक डीप लर्निंग एल्गोरिदम की मुख्य तकनीक एक कृत्रिम तंत्रिका नेटवर्क है, जो मानव मस्तिष्क की संरचना से प्रेरित है। एक गणितीय दृष्टिकोण से, एक कृत्रिम तंत्रिका नेटवर्क को एक जटिल कार्य के रूप में माना जा सकता है। प्रत्येक वस्तु (जैसे डीएनए अनुक्रम, एक तस्वीर या वीडियो) पहले डिजिटाइज्ड होती है। डिजिटाइज्ड ऑब्जेक्ट को तब फ़ंक्शन में आयात किया जाता है। आर्टिफिशियल न्यूरल नेटवर्क का काम इनपुट डेटा के हिसाब से सही रिस्पॉन्स देना है। उदाहरण के लिए, यदि 2-श्रेणी वर्गीकरण कार्य करने के लिए एक कृत्रिम तंत्रिका नेटवर्क का निर्माण किया जाता है, तो नेटवर्क को एक संभावना स्कोर आउटपुट करना चाहिए जो प्रत्येक वस्तु के लिए 0-1 के बीच है। तंत्रिका नेटवर्क को नकारात्मक वस्तु को कम स्कोर देते समय सकारात्मक वस्तु को उच्च स्कोर (जैसे 0.5 से अधिक स्कोर) देना चाहिए। इस लक्ष्य को प्राप्त करने के लिए, प्रशिक्षण और परीक्षण प्रक्रियाओं के साथ एक कृत्रिम तंत्रिका नेटवर्क का निर्माण किया जाता है। इन प्रक्रियाओं के दौरान, ज्ञात डेटाबेस से डेटा डाउनलोड किया जाता है और फिर एक प्रशिक्षण सेट और परीक्षण सेट में विभाजित किया जाता है। प्रत्येक वस्तु को उचित तरीके से डिजिटाइज्ड किया जाता है और सकारात्मक वस्तुओं के लिए एक लेबल (“1” और नकारात्मक वस्तुओं के लिए “0” दिया जाता है)। प्रशिक्षण प्रक्रिया में, प्रशिक्षण सेट में डिजिटाइज्ड डेटा तंत्रिका नेटवर्क में इनपुट किया जाता है। कृत्रिम तंत्रिका नेटवर्क एक नुकसान फ़ंक्शन का निर्माण करता है जो इनपुट ऑब्जेक्ट के आउटपुट स्कोर और ऑब्जेक्ट के संबंधित लेबल के बीच विघटन का प्रतिनिधित्व करता है। उदाहरण के लिए, यदि इनपुट ऑब्जेक्ट का लेबल “1” है, जबकि आउटपुट स्कोर “0.1” है, तो नुकसान फ़ंक्शन अधिक होगा; और यदि इनपुट ऑब्जेक्ट का लेबल “0” है, जबकि आउटपुट स्कोर “0.1” है, तो नुकसान का कार्य कम होगा। कृत्रिम तंत्रिका नेटवर्क एक विशिष्ट पुनरावृत्ति एल्गोरिदम को नियोजित करता है जो नुकसान के कार्य को कम करने के लिए तंत्रिका नेटवर्क के मापदंडों को समायोजित करता है। प्रशिक्षण प्रक्रिया खत्म जब नुकसान समारोह स्पष्ट रूप से और अधिक कम नहीं किया जा सकता है । अंत में, परीक्षण सेट में डेटा का उपयोग निश्चित तंत्रिका नेटवर्क का परीक्षण करने के लिए किया जाता है, और उपन्यास वस्तुओं के लिए सही लेबल की गणना करने के लिए तंत्रिका नेटवर्क की क्षमता का मूल्यांकन किया जाता है। डीप लर्निंग एल्गोरिदम के अधिक सिद्धांत लेकुन एट अल में समीक्षा में पाए जा सकते हैं। 10.
यद्यपि डीप लर्निंग एल्गोरिदम के गणितीय सिद्धांत जटिल हो सकते हैं, हाल ही में कई अत्यधिक पैक किए गए डीप लर्निंग पैकेज विकसित किए गए हैं, और प्रोग्रामर सीधे कोड की कुछ पंक्तियों के साथ एक सरल कृत्रिम तंत्रिका नेटवर्क का निर्माण कर सकते हैं।
अधिक तेजी से गहरी शिक्षा का उपयोग करने में शुरू होने में जीव विज्ञानियों और एल्गोरिदम डिजाइन शुरुआती की सहायता करने के लिए, यह ट्यूटोरियल अनुक्रम वर्गीकरण के लिए एक आसान-से-उपयोग गहरे सीखने के ढांचे के निर्माण के लिए एक दिशानिर्देश प्रदान करता है। यह फ्रेमवर्क जैविक दृश्यों को डिजिटाइज करने के लिए गणितीय मॉडल के रूप में “एक-गर्म” एन्कोडिंग फॉर्म का उपयोग करता है और वर्गीकरण कार्य करने के लिए एक जटिल तंत्रिका नेटवर्क का उपयोग करता है (पूरक सामग्रीदेखें)। इस दिशानिर्देश का उपयोग करने से पहले उपयोगकर्ताओं को केवल एक चीज की आवश्यकता है कि “फास्टा” प्रारूप में चार अनुक्रम फ़ाइलें तैयार करना है। पहली फ़ाइल में प्रशिक्षण प्रक्रिया के लिए सकारात्मक वर्ग के सभी दृश्य शामिल हैं (जिसे “p_train.fasta” कहा जाता है); दूसरी फ़ाइल में प्रशिक्षण प्रक्रिया के लिए नकारात्मक वर्ग के सभी दृश्य शामिल हैं (जिसे “n_train.fasta” कहा जाता है); तीसरी फ़ाइल में परीक्षण प्रक्रिया के लिए सकारात्मक वर्ग के सभी दृश्य शामिल हैं (जिसे “p_test.fasta” कहा जाता है); और अंतिम फ़ाइल में परीक्षण प्रक्रिया के लिए नकारात्मक वर्ग के सभी दृश्य शामिल हैं (जिसे “n_test.fasta” कहा जाता है)। इस ट्यूटोरियल के फ्लोचार्ट का अवलोकन चित्र 2में प्रदान किया गया है, और अधिक विवरण नीचे उल्लेख किया जाएगा।
यह ट्यूटोरियल जीव विज्ञानियों और एल्गोरिदम डिजाइन शुरुआती लोगों के लिए एक अवलोकन प्रदान करता है कि मेटाजेनोमिक डेटा में जैविक अनुक्रम वर्गीकरण के लिए एक आसान-से-उपयोग गहरे सीखने के ढांचे का निर्माण ?…
The authors have nothing to disclose.
इस जांच को नेशनल नेचुरल साइंस फाउंडेशन ऑफ चाइना (81925026, 82002201, 81800746, 82102508) ने आर्थिक रूप से समर्थन दिया था ।
PC or server | NA | NA | Suggested memory: >6GB |
VirtualBox software | NA | NA | Link: https://www.virtualbox.org |