Engineering

जटिल वातावरण में मुख्य वस्तु का पता लगाने के लिए एंड-टू-एंड डीप न्यूरल नेटवर्क

Published: December 15, 2023 doi: 10.3791/65554

¹Zhengzhou University of Economics and Business, ²The 713 Research Institute of CSSC

Summary

वर्तमान प्रोटोकॉल एक उपन्यास एंड-टू-एंड मुख्य ऑब्जेक्ट डिटेक्शन एल्गोरिदम का वर्णन करता है। यह जटिल पर्यावरणीय संदर्भों के भीतर मुख्य वस्तु का पता लगाने की सटीकता को बढ़ाने के लिए गहरे तंत्रिका नेटवर्क का लाभ उठाता है।

Abstract

मुख्य वस्तु का पता लगाना कंप्यूटर दृष्टि के दायरे में रुचि के एक बढ़ते क्षेत्र के रूप में उभरा है। हालांकि, प्रचलित एल्गोरिदम जटिल और बहुआयामी वातावरण के भीतर मुख्य वस्तुओं का पता लगाने का काम सौंपे जाने पर कम सटीकता प्रदर्शित करते हैं। इस दबाव वाली चिंता के प्रकाश में, यह लेख एक एंड-टू-एंड गहरे तंत्रिका नेटवर्क प्रस्तुत करता है जिसका उद्देश्य जटिल वातावरण के भीतर मुख्य वस्तुओं का पता लगाना है। अध्ययन एक एंड-टू-एंड गहरे तंत्रिका नेटवर्क का परिचय देता है जिसका उद्देश्य जटिल वातावरण के भीतर मुख्य वस्तुओं का पता लगाना है। दो परस्पर संबंधित घटकों, अर्थात् एक पिक्सेल-स्तरीय मल्टीस्केल पूर्ण दृढ़ नेटवर्क और एक गहरी एनकोडर-डिकोडर नेटवर्क का मिश्रण, प्रस्तावित नेटवर्क ऑब्जेक्ट सीमा पहचान की सटीकता में सुधार करने के लिए गहरी और उथली छवि सुविधाओं को नियोजित करते हुए मल्टीस्केल फीचर मैप्स में दृश्य विपरीत उत्पन्न करने के लिए प्रासंगिक शब्दार्थ को एकीकृत करता है। पूरी तरह से जुड़े सशर्त यादृच्छिक क्षेत्र (सीआरएफ) मॉडल का एकीकरण मुख्य मानचित्रों के स्थानिक सुसंगतता और समोच्च चित्रण को और बढ़ाता है। प्रस्तावित एल्गोरिथ्म का एसओडी और ईसीएसएसडी डेटाबेस पर 10 समकालीन एल्गोरिदम के खिलाफ बड़े पैमाने पर मूल्यांकन किया गया है। मूल्यांकन के परिणाम दर्शाते हैं कि प्रस्तावित एल्गोरिथ्म सटीकता और सटीकता के मामले में अन्य दृष्टिकोणों से बेहतर प्रदर्शन करता है, जिससे जटिल वातावरण के भीतर मुख्य वस्तु का पता लगाने में इसकी प्रभावकारिता स्थापित होती है।

Introduction

मुख्य वस्तु का पता लगाने मानव दृश्य ध्यान की नकल करता है, पृष्ठभूमि की जानकारी को दबाते हुए प्रमुख छवि क्षेत्रों की तेजी से पहचान करता है। इस तकनीक को व्यापक रूप से इमेज क्रॉपिंग¹, सिमेंटिक सेगमेंटेशन² और इमेज एडिटिंग³ जैसे कार्यों में प्री-प्रोसेसिंग टूल के रूप में नियोजित किया जाता है। यह पृष्ठभूमि प्रतिस्थापन और अग्रभूमि निष्कर्षण जैसे कार्यों को सुव्यवस्थित करता है, संपादन दक्षता और सटीकता में सुधार करता है। इसके अतिरिक्त, यह लक्ष्य स्थानीयकरण को बढ़ाकर सिमेंटिक विभाजन में सहायता करता है। कम्प्यूटेशनल दक्षता बढ़ाने और स्मृति को संरक्षित करने के लिए मुख्य वस्तु का पता लगाने की क्षमता इसके महत्वपूर्ण शोध और अनुप्रयोग संभावनाओं को रेखांकित करती है।

इन वर्षों में, मुख्य वस्तु का पता लगाने प्रारंभिक पारंपरिक एल्गोरिदम से गहन शिक्षण एल्गोरिदम के समावेश के लिए विकसित हुआ है। इन प्रगति का उद्देश्य मुख्य वस्तु का पता लगाने और मानव दृश्य तंत्र के बीच अंतर को कम करना है। इसने मुख्य वस्तु का पता लगाने के अध्ययन के लिए गहरे दृढ़ नेटवर्क मॉडल को अपनाया है। बोरजी एट अल ⁴ ने अधिकांश शास्त्रीय पारंपरिक एल्गोरिदम को संक्षेप में प्रस्तुत और सामान्यीकृत किया, जो छवि की अंतर्निहित विशेषताओं पर भरोसा करते हैं। पता लगाने की सटीकता में कुछ सुधार के बावजूद, मैनुअल अनुभव और अनुभूति जटिल वातावरण में मुख्य वस्तु का पता लगाने के लिए चुनौतियों का सामना करना जारी रखती है।

कन्वेन्शनल न्यूरल नेटवर्क (CNNs) का उपयोग मुख्य वस्तु का पता लगाने के क्षेत्र में प्रचलित है। इस संदर्भ में, स्वायत्त सीखने के माध्यम से वजन अद्यतन के लिए गहरी दृढ़ तंत्रिका नेटवर्क का उपयोग किया जाता है। कैस्केड कन्वेन्शनल और पूलिंग परतों के उपयोग के माध्यम से छवियों से प्रासंगिक शब्दार्थ निकालने के लिए दृढ़ तंत्रिका नेटवर्क को नियोजित किया गया है, जिससे उच्च स्तर पर जटिल छवि सुविधाओं को सीखने में सक्षम बनाया जा सकता है, जिसमें विभिन्न वातावरणों में मुख्य वस्तु का पता लगाने के लिए उच्च भेदभाव और लक्षण वर्णन क्षमता है।

2016 में, पूरी तरह से दृढ़ तंत्रिका नेटवर्क⁵ ने मुख्य वस्तु का पता लगाने के लिए एक लोकप्रिय दृष्टिकोण के रूप में महत्वपूर्ण कर्षण प्राप्त किया, जिसके आधार पर शोधकर्ताओं ने पिक्सेल-स्तरीय मुख्य वस्तु का पता लगाना शुरू किया। कई मॉडल आमतौर पर मौजूदा नेटवर्क (जैसे, VGG16⁶, ResNet⁷) पर बनाए जाते हैं, जिसका उद्देश्य छवि प्रतिनिधित्व को बढ़ाना और किनारे का पता लगाने के प्रभाव को मजबूत करना है।

Liu et ^al.8 ने विश्व स्तर पर छवि की गणना करने के लिए ढांचे के रूप में पहले से ही प्रशिक्षित तंत्रिका नेटवर्क का उपयोग किया और फिर एक पदानुक्रमित नेटवर्क का उपयोग करके ऑब्जेक्ट सीमा को परिष्कृत किया। दो नेटवर्कों का संयोजन अंतिम गहरी लवणता नेटवर्क बनाता है। यह पहले से अधिग्रहित मुख्य मानचित्र को नेटवर्क में पूर्व ज्ञान के रूप में दोहराए जाने वाले तरीके से खिलाकर पूरा किया गया था। झांग एट ^अल.9 प्रभावी ढंग से गहरे नेटवर्क का उपयोग करके छवि अर्थ और स्थानिक जानकारी को क्रमशः उथले से गहरे और गहरे से उथले परतों तक द्विदिश सूचना हस्तांतरण के साथ जोड़ता है। एक आपसी सीखने गहरी मॉडल का उपयोग कर मुख्य वस्तुओं का पता लगाने वू एट ^अल10 द्वारा आगे रखा गया था. मॉडल पता लगाने की प्रक्रिया को सुविधाजनक बनाने के लिए एक दृढ़ तंत्रिका नेटवर्क के भीतर अग्रभूमि और किनारे की जानकारी का उपयोग करता है। ली एट ^अल.11 ने मुख्य वस्तु का पता लगाने के संदर्भ में गहरे तंत्रिका नेटवर्क में विविध परतों के ग्रहणशील क्षेत्रों को ठीक करने की चुनौती को संबोधित करने के लिए तंत्रिका नेटवर्क के 'होल एल्गोरिथ्म' को नियोजित किया। हालांकि, सुपर-पिक्सेल विभाजन का उपयोग ऑब्जेक्ट एज अधिग्रहण के लिए किया जाता है, कम्प्यूटेशनल प्रयास और कंप्यूटिंग समय में काफी वृद्धि होती है। रेन एट अल ¹² ने मुख्य वस्तुओं का पता लगाने के लिए एक बहु-स्तरीय एनकोडर-डिकोडर नेटवर्क तैयार किया और गहरी और उथली विशेषताओं को प्रभावी ढंग से संयोजित करने के लिए दृढ़ तंत्रिका नेटवर्क का उपयोग किया। यद्यपि ऑब्जेक्ट डिटेक्शन में सीमा धुंधलापन की चुनौती को इस दृष्टिकोण के माध्यम से हल किया जाता है, सूचना के बहु-पैमाने पर संलयन के परिणामस्वरूप कम्प्यूटेशनल मांगों में वृद्धि होती है।

साहित्य समीक्षा¹³ का प्रस्ताव है कि पारंपरिक तरीकों से लेकर गहरी सीखने की विधियों तक नम्रता का पता लगाने को संक्षेप में प्रस्तुत किया गया है, और इसकी उत्पत्ति से लेकर गहरी शिक्षा के युग तक लवणता लक्ष्य का पता लगाने का विकास बहुत स्पष्ट रूप से देखा जा सकता है। ^{साहित्य में} अच्छे निष्पादन के साथ विभिन्न आरजीबी-डी-आधारित मुख्य वस्तु संसूचन मॉडल प्रस्तावित किए गए हैं। उपरोक्त साहित्य लवणता वस्तु का पता लगाने के लिए विभिन्न प्रकार के एल्गोरिदम की समीक्षा और वर्गीकरण करता है और उनके अनुप्रयोग परिदृश्यों, उपयोग किए गए डेटाबेस और मूल्यांकन मैट्रिक्स का वर्णन करता है। यह लेख उनके सुझाए गए डेटाबेस और मूल्यांकन मैट्रिक्स से संबंधित प्रस्तावित एल्गोरिदम का गुणात्मक और मात्रात्मक विश्लेषण भी प्रदान करता है।

उपरोक्त सभी एल्गोरिदम ने सार्वजनिक डेटाबेस में उल्लेखनीय परिणाम प्राप्त किए हैं, जो जटिल वातावरण में मुख्य वस्तु का पता लगाने के लिए एक आधार प्रदान करते हैं। यद्यपि इस क्षेत्र में घरेलू और अंतरराष्ट्रीय स्तर पर कई शोध उपलब्धियां हुई हैं, फिर भी कुछ मुद्दों को संबोधित किया जाना बाकी है। (1) पारंपरिक गैर-गहन शिक्षण एल्गोरिदम में रंग, बनावट और आवृत्ति जैसी मैन्युअल रूप से लेबल की गई विशेषताओं पर निर्भरता के कारण कम सटीकता होती है, जो व्यक्तिपरक अनुभव और धारणा से आसानी से प्रभावित हो सकती है। नतीजतन, उनकी मुख्य वस्तु का पता लगाने की क्षमताओं की सटीकता कम हो जाती है। पारंपरिक गैर-गहन शिक्षण एल्गोरिदम का उपयोग करके जटिल वातावरण में मुख्य वस्तुओं का पता लगाना जटिल परिदृश्यों को संभालने में उनकी कठिनाई के कारण चुनौतीपूर्ण है। (2) मुख्य वस्तु का पता लगाने के लिए पारंपरिक तरीके रंग, बनावट और आवृत्ति जैसी मैन्युअल रूप से लेबल की गई विशेषताओं पर निर्भरता के कारण सीमित सटीकता प्रदर्शित करते हैं। इसके अतिरिक्त, क्षेत्र-स्तरीय पहचान कम्प्यूटेशनल रूप से महंगी हो सकती है, अक्सर स्थानिक स्थिरता की अनदेखी करती है, और वस्तु सीमाओं का खराब पता लगाती है। मुख्य वस्तु का पता लगाने की सटीकता को बढ़ाने के लिए इन मुद्दों को संबोधित करने की आवश्यकता है। (3) जटिल वातावरण में मुख्य वस्तु का पता लगाना अधिकांश एल्गोरिदम के लिए एक चुनौती प्रस्तुत करता है। अधिकांश प्रमुख ऑब्जेक्ट डिटेक्शन एल्गोरिदम को चर पृष्ठभूमि (समान पृष्ठभूमि और अग्रभूमि रंग, जटिल पृष्ठभूमि बनावट, आदि) के साथ तेजी से जटिल मुख्य वस्तु का पता लगाने के वातावरण के कारण गंभीर चुनौतियों का सामना करना पड़ता है, कई अनिश्चितताएं जैसे असंगत पहचान वस्तु आकार, और अग्रभूमि और पृष्ठभूमि किनारों की अस्पष्ट परिभाषा।

अधिकांश वर्तमान एल्गोरिदम समान पृष्ठभूमि और अग्रभूमि रंगों, जटिल पृष्ठभूमि बनावट और धुंधले किनारों के साथ जटिल वातावरण में मुख्य वस्तुओं का पता लगाने में कम सटीकता प्रदर्शित करते हैं। यद्यपि वर्तमान गहरी सीखने-आधारित मुख्य वस्तु एल्गोरिदम पारंपरिक पहचान विधियों की तुलना में उच्च सटीकता प्रदर्शित करते हैं, अंतर्निहित छवि सुविधाओं का उपयोग वे अभी भी सिमेंटिक विशेषताओं को प्रभावी ढंग से चिह्नित करने में कम हैं, जिससे उनके प्रदर्शन में सुधार के लिए जगह छोड़ दी जाती है।

सारांश में, यह अध्ययन एक प्रमुख वस्तु का पता लगाने वाले एल्गोरिदम के लिए एक अंत-से-अंत गहरे तंत्रिका नेटवर्क का प्रस्ताव करता है, जिसका उद्देश्य जटिल वातावरण में मुख्य वस्तु का पता लगाने की सटीकता को बढ़ाना, लक्ष्य किनारों में सुधार करना और सिमेंटिक विशेषताओं को बेहतर ढंग से चिह्नित करना है। इस पेपर का योगदान इस प्रकार है: (1) पहला नेटवर्क VGG16 को बेस नेटवर्क के रूप में नियोजित करता है और 'होल एल्गोरिथ्म'11का उपयोग करके अपनी पांच पूलिंग परतों को संशोधित करता है। पिक्सेल-स्तरीय बहु-स्तरीय पूरी तरह से दृढ़ तंत्रिका नेटवर्क विभिन्न स्थानिक पैमानों से छवि सुविधाओं को सीखता है, गहरे तंत्रिका नेटवर्क की विभिन्न परतों में स्थिर ग्रहणशील क्षेत्रों की चुनौती को संबोधित करता है और क्षेत्र में फोकस के महत्वपूर्ण क्षेत्रों में पहचान सटीकता को बढ़ाता है। (2) मुख्य वस्तु का पता लगाने की सटीकता में सुधार करने के हालिया प्रयासों ने एनकोडर नेटवर्क से गहराई सुविधाओं और डिकोडर नेटवर्क से उथले सुविधाओं दोनों को निकालने के लिए वीजीजी 16 जैसे गहरे तंत्रिका नेटवर्क का लाभ उठाने पर ध्यान केंद्रित किया है। यह दृष्टिकोण प्रभावी रूप से ऑब्जेक्ट सीमाओं की पहचान सटीकता को बढ़ाता है और सिमेंटिक जानकारी में सुधार करता है, विशेष रूप से चर पृष्ठभूमि, असंगत वस्तु आकार और अग्रभूमि और पृष्ठभूमि के बीच अस्पष्ट सीमाओं के साथ जटिल वातावरण में। (3) मुख्य वस्तु का पता लगाने की सटीकता को बढ़ाने के लिए हाल के प्रयासों ने एनकोडर नेटवर्क से गहरी विशेषताओं और डिकोडर नेटवर्क से उथले सुविधाओं को निकालने के लिए वीजीजी 16 सहित गहरे नेटवर्क के उपयोग पर जोर दिया है। इस दृष्टिकोण ने ऑब्जेक्ट सीमाओं और अधिक अर्थ जानकारी का बेहतर पता लगाने का प्रदर्शन किया है, विशेष रूप से जटिल वातावरण में अलग-अलग पृष्ठभूमि, वस्तु आकार और अग्रभूमि और पृष्ठभूमि के बीच अस्पष्ट सीमाओं के साथ। इसके अतिरिक्त, मुख्य मानचित्रों के स्थानिक सुसंगतता और समोच्च परिशुद्धता को बढ़ाने के लिए पूरी तरह से जुड़े सशर्त यादृच्छिक क्षेत्र (सीआरएफ) मॉडल का एकीकरण लागू किया गया है। इस दृष्टिकोण की प्रभावशीलता का मूल्यांकन जटिल पृष्ठभूमि वाले एसओडी और ईसीएसएसडी डेटासेट पर किया गया था और इसे सांख्यिकीय रूप से महत्वपूर्ण पाया गया था।

संबंधित काम
फू एट अल ¹⁵ ने आरजीबी का उपयोग करके एक संयुक्त दृष्टिकोण का प्रस्ताव दिया और मुख्य वस्तु का पता लगाने के लिए गहरी शिक्षा दी। लाइ एट ^अल.16 ने मुख्य ऑब्जेक्ट डिटेक्शन के लिए एक कमजोर पर्यवेक्षित मॉडल पेश किया, एनोटेशन से प्रमुखता सीखना, मुख्य रूप से एनोटेशन समय बचाने के लिए स्क्रिबल लेबल का उपयोग करना। जबकि इन एल्गोरिदम ने नम्रता वस्तु का पता लगाने के लिए दो पूरक नेटवर्क का एक संलयन प्रस्तुत किया, उनमें जटिल परिदृश्यों के तहत लवणता का पता लगाने की गहन जांच की कमी है। वांग एट अल ¹⁷ ने तंत्रिका नेटवर्क सुविधाओं के दो-मोड पुनरावृत्त संलयन को डिजाइन किया, दोनों नीचे-ऊपर और ऊपर-नीचे, अभिसरण तक पिछले पुनरावृत्ति के परिणामों को उत्तरोत्तर अनुकूलित करते हुए। झांग एट ^अल.18 प्रभावी ढंग से गहरे नेटवर्क का उपयोग करके छवि अर्थ और स्थानिक जानकारी को क्रमशः उथले से गहरे और गहरे से उथले परतों तक द्विदिश सूचना हस्तांतरण के साथ जोड़ता है। एक आपसी सीखने गहरी मॉडल का उपयोग कर मुख्य वस्तुओं का पता लगाने वू एट ^अल19 द्वारा प्रस्तावित किया गया था. मॉडल पता लगाने की प्रक्रिया को सुविधाजनक बनाने के लिए एक दृढ़ तंत्रिका नेटवर्क के भीतर अग्रभूमि और किनारे की जानकारी का उपयोग करता है। इन गहरे तंत्रिका नेटवर्क-आधारित मुख्य वस्तु पहचान मॉडल ने सार्वजनिक रूप से उपलब्ध डेटासेट पर उल्लेखनीय प्रदर्शन हासिल किया है, जिससे जटिल प्राकृतिक दृश्यों में मुख्य वस्तु का पता लगाने में सक्षम बनाया गया है। फिर भी, इस शोध क्षेत्र में और भी बेहतर मॉडल डिजाइन करना एक महत्वपूर्ण उद्देश्य बना हुआ है और इस अध्ययन के लिए प्राथमिक प्रेरणा के रूप में कार्य करता है।

समग्र ढांचा
प्रस्तावित मॉडल का योजनाबद्ध प्रतिनिधित्व, जैसा कि चित्र 1 में दर्शाया गया है, मुख्य रूप से वीजीजी 16 आर्किटेक्चर से लिया गया है, जिसमें पिक्सेल-स्तरीय मल्टीस्केल पूरी तरह से दृढ़ तंत्रिका नेटवर्क (डीसीएल) और एक गहरी एनकोडर-डिकोडर नेटवर्क (डीईडीएन) दोनों शामिल हैं। मॉडल डब्ल्यू × एच के इनपुट छवि आयामों को समायोजित करते हुए वीजीजी 16 की सभी अंतिम पूलिंग और पूरी तरह से जुड़ी परतों को समाप्त करता है। परिचालन तंत्र में डीसीएल के माध्यम से इनपुट छवि का प्रारंभिक प्रसंस्करण शामिल है, जो गहरी सुविधाओं के निष्कर्षण की सुविधा प्रदान करता है, जबकि उथली सुविधाओं को डीईडीएन नेटवर्क से प्राप्त किया जाता है। इन विशेषताओं के समामेलन को बाद में पूरी तरह से जुड़े सशर्त यादृच्छिक क्षेत्र (सीआरएफ) मॉडल के अधीन किया जाता है, जो उत्पादित नम्रता मानचित्रों की स्थानिक सुसंगतता और समोच्च सटीकता को बढ़ाता है।

मॉडल की प्रभावकारिता का पता लगाने के लिए, जटिल पृष्ठभूमि वाले SOD²⁰ और ECSSD²¹ डेटासेट पर परीक्षण और सत्यापन किया गया। इनपुट छवि डीसीएल से गुजरने के बाद, विभिन्न ग्रहणशील क्षेत्रों के साथ विभिन्न पैमाने पर फीचर मैप प्राप्त किए जाते हैं, और प्रासंगिक शब्दार्थ को अंतर-आयामी सुसंगतता के साथ डब्ल्यू × एच मुख्य मानचित्र बनाने के लिए जोड़ा जाता है। डीसीएल मूल वीजीजी 16 नेटवर्क की अंतिम पूलिंग परत को प्रतिस्थापित करने के लिए 7 x 7 कर्नेल के साथ दृढ़ परतों की एक जोड़ी को नियोजित करता है, जिससे फीचर मैप्स में स्थानिक जानकारी का संरक्षण बढ़ जाता है। यह, प्रासंगिक शब्दार्थ के साथ मिलकर, अंतर-आयामी सुसंगतता के साथ डब्ल्यू × एच मुख्य मानचित्र का उत्पादन करता है। इसी तरह, डीप एनकोडर-डिकोडर नेटवर्क (डीईडीएन) डिकोडर में 3 x 3 कर्नेल के साथ दृढ़ परतों का उपयोग करता है और अंतिम डिकोडिंग मॉड्यूल के बाद एक एकल दृढ़ परत का उपयोग करता है। छवि की गहरी और उथली विशेषताओं का लाभ उठाते हुए, अस्पष्ट वस्तु सीमाओं की चुनौती को संबोधित करते हुए, डब्ल्यू × एच के स्थानिक आयाम के साथ एक मुख्य मानचित्र उत्पन्न करना संभव है। अध्ययन मुख्य वस्तु का पता लगाने के लिए एक अग्रणी तकनीक का वर्णन करता है जो डीसीएल और डीईडीएन मॉडल को एक एकीकृत नेटवर्क में समामेलित करता है। इन दो गहरे नेटवर्कों के वजन को एक प्रशिक्षण प्रक्रिया के माध्यम से सीखा जाता है, और परिणामी लवणता मानचित्रों को विलय कर दिया जाता है और फिर पूरी तरह से जुड़े सशर्त यादृच्छिक क्षेत्र (सीआरएफ) का उपयोग करके परिष्कृत किया जाता है। इस शोधन का प्राथमिक उद्देश्य स्थानिक स्थिरता और समोच्च स्थानीयकरण में सुधार करना है।

पिक्सेल-स्तरीय मल्टीस्केल पूरी तरह से दृढ़ तंत्रिका नेटवर्क
VGG16 आर्किटेक्चर में मूल रूप से पांच पूलिंग परतें शामिल थीं, जिनमें से प्रत्येक में 2 की प्रगति थी। प्रत्येक पूलिंग परत चैनलों की संख्या बढ़ाने के लिए छवि आकार को संपीड़ित करती है, अधिक प्रासंगिक जानकारी प्राप्त करती है। डीसीएल मॉडल साहित्य¹³ से प्रेरित है और वीजीजी 16 के ढांचे में सुधार है। इस लेख में, एक पिक्सेल-स्तरीय डीसीएल मॉडल¹¹ का उपयोग किया जाता है, जैसा कि वीजीजी 16 की वास्तुकला के भीतर चित्र 2 में दिखाया गया है, एक गहरा दृढ़ तंत्रिका नेटवर्क। प्रारंभिक चार अधिकतम पूलिंग परतें तीन गुठली के साथ परस्पर जुड़ी हुई हैं। पहला कर्नेल 3 × 3 × 128 है; दूसरा कर्नेल 1 × 1 × 128 है; और तीसरी गिरी 1 × 1 × 1 है। प्रारंभिक चार पूलिंग परतों के बाद फीचर मानचित्रों का एक समान आकार प्राप्त करने के लिए, तीन कर्नेल से जुड़ा हुआ है, प्रत्येक आकार मूल छवि के एक-आठवें के बराबर है, इन चार सबसे बड़ी पूलिंग परतों से जुड़े पहले कर्नेल का चरण आकार क्रमशः 4, 2, 1 और 1 पर सेट है।

विभिन्न गुठली में मूल ग्रहणशील क्षेत्र को संरक्षित करने के लिए, साहित्य¹¹ में प्रस्तावित "होल एल्गोरिथ्म" का उपयोग शून्य जोड़कर कर्नेल के आकार का विस्तार करने के लिए किया जाता है, इस प्रकार कर्नेल की अखंडता को बनाए रखा जाता है। ये चार फीचर मैप अलग-अलग चरण आकारों के साथ पहले कर्नेल से जुड़े हैं। नतीजतन, अंतिम चरण में निर्मित फीचर मानचित्रों में समान आयाम होते हैं। चार फीचर मैप अलग-अलग पैमानों से प्राप्त बहु-स्तरीय विशेषताओं का एक सेट बनाते हैं, जिनमें से प्रत्येक ग्रहणशील क्षेत्रों के विभिन्न आकारों का प्रतिनिधित्व करता है। चार मध्यवर्ती परतों से प्राप्त परिणामी फीचर मानचित्रों को VGG16 से प्राप्त अंतिम फीचर मैप के साथ जोड़ा जाता है, इस प्रकार 5-चैनल आउटपुट उत्पन्न होता है। आगामी आउटपुट को बाद में सिग्मॉइड सक्रियण फ़ंक्शन के साथ 1 × 1 × 1 कर्नेल के अधीन किया जाता है, अंततः मुख्य मानचित्र (मूल छवि के एक-आठवें रिज़ॉल्यूशन के साथ) का उत्पादन करता है। छवि को बिलिनियर प्रक्षेप का उपयोग करके अप-सैंपल और बड़ा किया जाता है, यह सुनिश्चित करता है कि परिणामी छवि, जिसे लवणता मानचित्र के रूप में संदर्भित किया जाता है, प्रारंभिक छवि के समान रिज़ॉल्यूशन बनाए रखता है।

डीप एनकोडर-डिकोडर नेटवर्क
इसी तरह, VGG16 नेटवर्क को बैकबोन नेटवर्क के रूप में नियोजित किया जाता है। VGG16 को उथले फीचर मैप चैनलों की कम संख्या लेकिन उच्च रिज़ॉल्यूशन और उच्च संख्या में गहरे फीचर चैनलों लेकिन कम रिज़ॉल्यूशन की विशेषता है। पूलिंग लेयर्स और डाउन-सैंपलिंग इसके फीचर मैप रिज़ॉल्यूशन को कम करने की कीमत पर डीप नेटवर्क की कम्प्यूटेशनल गति को बढ़ाते हैं। इस समस्या को हल करने के लिए, साहित्य¹⁴ में विश्लेषण के बाद, एनकोडर नेटवर्क का उपयोग मूल VGG16 में अंतिम पूलिंग परत की पूर्ण कनेक्टिविटी को संशोधित करने के लिए किया जाता है। इस संशोधन में इसे 7 × 7 गुठली के साथ दो दृढ़ परतों के साथ बदलना शामिल है (बड़े दृढ़ गुठली ग्रहणशील क्षेत्र को बढ़ाते हैं)। दोनों कनवल्शन कर्नेल एक सामान्यीकरण (बीएन) ऑपरेशन और एक संशोधित रैखिक इकाई (आरईएलयू) से लैस हैं। इस समायोजन के परिणामस्वरूप एक एनकोडर आउटपुट सुविधा मानचित्र होता है जो छवि स्थान जानकारी को बेहतर ढंग से संरक्षित करता है।

जबकि एनकोडर मुख्य वस्तुओं के वैश्विक स्थानीयकरण के लिए उच्च-स्तरीय छवि शब्दार्थ में सुधार करता है, इसकी मुख्य वस्तु की सीमा-धुंधली समस्या में प्रभावी ढंग से सुधार नहीं होता है। इस समस्या से निपटने के लिए, गहरी सुविधाओं को उथले सुविधाओं के साथ जोड़ा जाता है, जो किनारे का पता लगाने के काम¹² से प्रेरित होता है, एन्कोडर-डिकोडर नेटवर्क मॉडल (डीईडीएन) का प्रस्ताव करता है जैसा कि चित्र 3में दिखाया गया है। एनकोडर आर्किटेक्चर में प्रारंभिक चार के साथ परस्पर जुड़े तीन कर्नेल शामिल होते हैं, जबकि डिकोडर अधिकतम पूलिंग परतों से प्राप्त अधिकतम मूल्यों का उपयोग करके फीचर मैप रिज़ॉल्यूशन को व्यवस्थित रूप से बढ़ाता है।

मुख्य वस्तु का पता लगाने के लिए इस अभिनव पद्धति में, डिकोडर चरण के दौरान, 3 × 3 कर्नेल के साथ एक दृढ़ परत का उपयोग बैच सामान्यीकरण परत और एक अनुकूलित रैखिक इकाई के संयोजन में किया जाता है। डिकोडर आर्किटेक्चर के भीतर अंतिम डिकोडिंग मॉड्यूल के समापन पर, एक एकांत-चैनल दृढ़ परत को स्थानिक आयामों डब्ल्यू × एच के मुख्य मानचित्र की खरीद के लिए नियोजित किया जाता है। मुख्य मानचित्र एनकोडर-डिकोडर मॉडल के एक सहयोगी संलयन के माध्यम से उत्पन्न होता है, परिणाम प्राप्त करता है, और दो के पूरक संलयन-यानी, गहरी जानकारी और उथले जानकारी का पूरक संलयन। यह न केवल मुख्य वस्तु के सटीक स्थानीयकरण को प्राप्त करता है और ग्रहणशील क्षेत्र को बढ़ाता है बल्कि छवि विवरण जानकारी को प्रभावी ढंग से संरक्षित करता है और मुख्य वस्तु की सीमा को मजबूत करता है।

एकीकरण तंत्र
एनकोडर आर्किटेक्चर में तीन कर्नेल शामिल हैं, जो VGG16 मॉडल की प्रारंभिक चार अधिकतम पूलिंग परतों से जुड़े हैं। इसके विपरीत, डिकोडर को जानबूझकर अप-सैंपलिंग परतों से प्राप्त फीचर मैप्स के रिज़ॉल्यूशन को उत्तरोत्तर बढ़ाने के लिए तैयार किया जाता है, जो संबंधित पूलिंग परतों से प्राप्त अधिकतम मूल्यों का उपयोग करता है। एक 3 x 3 कर्नेल, एक बैच सामान्यीकरण परत, और एक संशोधित रैखिक इकाई का उपयोग करके एक दृढ़ परत का उपयोग तब डिकोडर में किया जाता है, इसके बाद डब्ल्यू × एच आयामों का एक मुख्य मानचित्र उत्पन्न करने के लिए एकल-चैनल दृढ़ परत का उपयोग किया जाता है। दो गहरे नेटवर्क के वजन को वैकल्पिक प्रशिक्षण चक्रों के माध्यम से सीखा जाता है। पहले नेटवर्क के मापदंडों को तय रखा गया था, जबकि दूसरे नेटवर्क के मापदंडों को कुल पचास चक्रों के लिए प्रशिक्षण दिया गया था। प्रक्रिया के दौरान, संलयन के लिए उपयोग किए जाने वाले लवणता मानचित्र (^एस1 और ^एस2) के वजन को यादृच्छिक ढाल के माध्यम से अद्यतन किया जाता है। हानि फलन¹¹ है:

Equation 1 (1)

दिए गए व्यंजक में, प्रतीक G मैन्युअल रूप से लेबल किए गए मान का प्रतिनिधित्व करता है, जबकि W नेटवर्क पैरामीटर के पूर्ण सेट को दर्शाता है। वजन _β मैं गणना प्रक्रिया में मुख्य पिक्सेल बनाम गैर-मुख्य पिक्सेल के अनुपात को विनियमित करने के लिए एक संतुलन कारक के रूप में कार्य करता हूं।

छवि I को तीन मापदंडों की विशेषता है: |मैं|, |मैं|_- और |मैं|₊, जो क्रमशः पिक्सेल की कुल संख्या, गैर-मुख्य पिक्सेल की संख्या और मुख्य पिक्सेल की संख्या का प्रतिनिधित्व करते हैं। Equation 2

चूंकि उपरोक्त दो नेटवर्क से प्राप्त मुख्य मानचित्र पड़ोसी पिक्सेल के सुसंगतता पर विचार नहीं करते हैं, इसलिए स्थानिक सुसंगतता में सुधार के लिए पूरी तरह से जुड़े पिक्सेल-स्तरीय लवणता शोधन मॉडल सीआरएफ¹⁵ का उपयोग किया जाता है। ऊर्जा समीकरण¹¹ इस प्रकार है, बाइनरी पिक्सेल लेबलिंग समस्या को हल करना।

Equation 3 (2)

जहां एल सभी पिक्सल को सौंपे गए बाइनरी लेबल (मुख्य मूल्य या गैर-मुख्य मान) को दर्शाता है। चर P(l_i) किसी दिए गए पिक्सेल x_iको एक विशिष्ट लेबल l_i सौंपे जाने की संभावना को दर्शाता है, जो पिक्सेल x_iके saliency होने की संभावना को दर्शाता है। शुरुआत में, P(1) = S_iऔर P(0) = 1 - S_i, जहां S_iफ्यूज्ड सेलेंसी मैप S के भीतर पिक्सेल x_iपर लवणता मान को दर्शाता है। θ_i,j(l_i,l _j) युग्मवार विभव है, जिसे निम्नानुसार परिभाषित किया गया है।

Equation 4 (3)

उनमें से, यदि l_i≠ l_j, तो μ(l_i,l _j) = 1, अन्यथा μ(l_i,l _j) = 0। θ_i,j की गणना में दो कर्नेल का उपयोग शामिल है, जहां प्रारंभिक कर्नेल पिक्सेल स्थिति P और पिक्सेल तीव्रता I दोनों पर निर्भर है। इसके परिणामस्वरूप समान रंगों वाले पिक्सेल की निकटता तुलनीय लवणता मूल्यों का प्रदर्शन करती है। _αऔर σ β σ दो पैरामीटर, इस बात को नियंत्रित करते हैं कि रंग समानता और स्थानिक निकटता परिणाम को किस हद तक प्रभावित करती है। दूसरे कर्नेल का उद्देश्य अलग-अलग छोटे क्षेत्रों को खत्म करना है। ऊर्जा का न्यूनतमकरण उच्च-आयामी फ़िल्टरिंग के माध्यम से प्राप्त किया जाता है, जो सशर्त यादृच्छिक क्षेत्र (सीआरएफ) वितरण के औसत क्षेत्र को तेज करता है। गणना करने पर, एस_{सीआरएफ} के रूप में निरूपित मुख्य मानचित्र पता लगाए गए मुख्य वस्तुओं के संबंध में उन्नत स्थानिक सुसंगतता और समोच्च प्रदर्शित करता है।

प्रायोगिक विन्यास
इस लेख में, वीजीजी 16 तंत्रिका नेटवर्क के आधार पर मुख्य लक्ष्य का पता लगाने के लिए एक गहरा नेटवर्क पायथन का उपयोग करके बनाया गया है। प्रस्तावित मॉडल की तुलना SOD²⁰ और ECSSD²¹ डेटासेट का उपयोग करके अन्य तरीकों से की जाती है। एसओडी छवि डेटाबेस अपनी जटिल और अव्यवस्थित पृष्ठभूमि, अग्रभूमि और पृष्ठभूमि के बीच रंगों में समानता और छोटे ऑब्जेक्ट आकारों के लिए जाना जाता है। इस डेटासेट में प्रत्येक छवि को मात्रात्मक और गुणात्मक प्रदर्शन मूल्यांकन दोनों के लिए मैन्युअल रूप से लेबल किया गया सही मान सौंपा गया है। दूसरी ओर, ECSSD डेटासेट में मुख्य रूप से इंटरनेट से प्राप्त छवियां होती हैं, जिसमें छवि पृष्ठभूमि और मुख्य वस्तुओं के बीच कम विपरीत के साथ अधिक जटिल और यथार्थवादी प्राकृतिक दृश्य होते हैं।

इस पेपर में मॉडल की तुलना करने के लिए उपयोग किए जाने वाले मूल्यांकन इंडेक्स में आमतौर पर इस्तेमाल किए जाने वाले प्रेसिजन-रिकॉल कर्व, एफ_βऔर ई_{एमएई शामिल हैं}। मात्रात्मक रूप से अनुमानित लवणता मानचित्र का आकलन करने के लिए, प्रेसिजन-रिकॉल (पीआर) वक्र²² को लवणता मानचित्र को बिनाराइज़ करने के लिए थ्रेशोल्ड को 0 से 255 में बदलकर नियोजित किया जाता है। एफ_βएक व्यापक मूल्यांकन मीट्रिक है, जिसकी गणना सटीक और याद समीकरणों के साथ की जाती है जो कि बिनाराइज्ड मुख्य मानचित्र और एक सच्चे मूल्य मानचित्र से प्राप्त होती है।

Equation 5 (4)

जहां सटीकता और याद को समायोजित करने के लिए वजन पैरामीटर β है, β² = 0.3 सेट करना। ई_एमएईकी गणना परिणामी नम्रता मानचित्र और जमीनी सच्चाई मानचित्र के बीच औसत पूर्ण त्रुटि की गणना करने के बराबर है, जैसा कि आगामी गणितीय अभिव्यक्ति द्वारा परिभाषित किया गया है:

Equation 6 (5)

T_s(u,v) को मुख्य मानचित्र (u,v) पिक्सेल के निकाले गए मान को निरूपित करने दें, और T_G(u,v) को सच्चे मानचित्र (u,v) पिक्सेल के संगत मान को निरूपित करने दें।

Subscription Required. Please recommend JoVE to your librarian.

Protocol

1. प्रायोगिक सेटअप और प्रक्रिया

पूर्व-प्रशिक्षित VGG16 मॉडल लोड करें।
नोट: पहला कदम केरस लाइब्रेरी 16 से पूर्व-प्रशिक्षित^VGG6 मॉडल को लोड करना है।
1. PyTorch जैसी लोकप्रिय डीप लर्निंग लाइब्रेरी का उपयोग करके पायथन में पूर्व-प्रशिक्षित VGG16 मॉडल लोड करने के लिए ( सामग्री की तालिकादेखें), इन सामान्य चरणों का पालन करें:
  1. आयात मशाल। मॉडल के रूप में torchvision.models आयात करें।
  2. पूर्व-प्रशिक्षित VGG16 मॉडल लोड करें। vgg16_model = models.vgg16 (pretrained = True)।
  3. सुनिश्चित करें कि VGG16 मॉडल का सारांश "प्रिंट (vgg16_model)" है।
DCL और DEDN मॉडल को परिभाषित करें।
1. DCL एल्गोरिथम के छद्म कोड के लिए, इनपुट प्रदान करें: छवि डेटासेट SOD और आउटपुट: प्रशिक्षित DCL मॉडल।
  1. VGG16 बैकबोन नेटवर्क के साथ DCL मॉडल को इनिशियलाइज़ करें।
  2. छवि डेटासेट D को प्रीप्रोसेस करें (उदाहरण के लिए, आकार बदलें, सामान्यीकरण)।
  3. डेटासेट को प्रशिक्षण और सत्यापन सेट में विभाजित करें।
  4. डीसीएल मॉडल (जैसे, बाइनरी क्रॉस-एन्ट्रापी) के प्रशिक्षण के लिए हानि फ़ंक्शन को परिभाषित करें।
  5. प्रशिक्षण के लिए हाइपरपैरामीटर सेट करें: सीखने की दर (0.0001), प्रशिक्षण युगों की संख्या सेट (50), बैच आकार (8), ऑप्टिमाइज़र (एडम)।
  6. डीसीएल मॉडल को प्रशिक्षित करें: युगों की निर्धारित संख्या में प्रत्येक युग के लिए, प्रशिक्षण सेट में प्रत्येक बैच के लिए करें। निम्नलिखित इनपुट करें:
    1. फॉरवर्ड पास: बैच इमेज को DCL मॉडल में फीड करें। अनुमानित लवणता मानचित्रों और जमीनी सच्चाई मानचित्रों का उपयोग करके नुकसान की गणना करें।
    2. बैकवर्ड पास: ग्रेडिएंट डिसेंट एंड का उपयोग करके मॉडल पैरामीटर अपडेट करें। सत्यापन हानि और अन्य मूल्यांकन मीट्रिक की गणना सत्यापन सेट के अंत में करें।
  7. प्रशिक्षित डीसीएल मॉडल सहेजें।
  8. प्रशिक्षित डीसीएल मॉडल लौटाएं।
2. डीईडीएन एल्गोरिथ्म के लिए छद्म कोड के लिए, इनपुट: छवि डेटासेट (एक्स), ग्राउंड ट्रुथ सेलिएंसी मैप्स (वाई), प्रशिक्षण पुनरावृत्तियों की संख्या (एन)।
  1. एनकोडर नेटवर्क के लिए, सुनिश्चित करें कि एनकोडर संशोधनों के साथ VGG16 कंकाल पर आधारित है (जैसा कि नीचे उल्लेख किया गया है)।
    नोट: encoder_input = इनपुट (आकार = input_shape)
    encoder_conv1 = Conv2D(64, (3, 3), सक्रियण = 'रेलू', पैडिंग = 'वही') (encoder_input)
    encoder_pool1 = मैक्सपूलिंग2डी((2, 2))(encoder_conv1)
    encoder_conv2 = Conv2D(128, (3, 3), सक्रियण = 'रेलू', पैडिंग = 'वही') (encoder_pool1)
    encoder_pool2 = मैक्सपूलिंग2डी((2, 2))(encoder_conv2)
    encoder_conv3 = Conv2D(256, (3, 3), सक्रियण = 'रेलू', पैडिंग = 'वही')(encoder_pool2)
    encoder_pool3 = मैक्सपूलिंग2डी((2, 2))(encoder_conv3)
  2. डिकोडर नेटवर्क के लिए, सुनिश्चित करें कि डिकोडर संशोधनों के साथ VGG16 कंकाल पर आधारित है (जैसा कि नीचे उल्लेख किया गया है)।
    नोट: decoder_conv1 = Conv2D(256, (3, 3), सक्रियण = 'रेलू', पैडिंग = 'वही') (encoder_pool3)
    decoder_upsample1 = अपसैंपलिंग2डी((2, 2))(decoder_conv1)
    decoder_conv2 = Conv2D(128, (3, 3), सक्रियण = 'रेलू', पैडिंग = 'वही')(decoder_upsample1)
    decoder_upsample2 = अपसैंपलिंग2डी((2, 2))(decoder_conv2)
    decoder_conv3 = Conv2D(64, (3, 3), सक्रियण = 'रेलू', पैडिंग = 'वही')(decoder_upsample2)
    decoder_upsample3 = अपसैंपलिंग2डी((2, 2))(decoder_conv3)
    decoder_output = Conv2D(1, (1, 1), सक्रियण = 'सिग्मॉइड', पैडिंग = 'वही')(decoder_upsample3)
3. DEDN मॉडल को परिभाषित करें। मॉडल = मॉडल (इनपुट = encoder_input, आउटपुट = decoder_output)।
4. मॉडल संकलित करें। model.compile (ऑप्टिमाइज़र = एडम, लॉस = binary_crossentropy)।
5. प्रशिक्षण लूप का चयन करें।
  नोट: सीमा (एन) में पुनरावृत्ति के लिए: # बेतरतीब ढंग से छवियों और जमीनी सच्चाई के नक्शे के एक बैच का चयन करें; batch_X, batch_Y = randomly_select_batch(X, Y, batch_size)।
  1. बैच पर मॉडल को प्रशिक्षित करें। हानि = model.train_on_batch(batch_X, batch_Y)। निगरानी के लिए नुकसान प्रिंट करें।
6. प्रशिक्षित मॉडल सहेजें। model.save ('dedn_model.h5')।
चावलपका हुआ।
1. DCL और DEDN नेटवर्क के आउटपुट को मिलाएं और पूरी तरह से जुड़े सशर्त यादृच्छिक फ़ील्ड (CRF) मॉडल का उपयोग करके लवणता मानचित्र को परिष्कृत करें।

2. इमेज प्रोसेसिंग

जीयूआई इंटरफ़ेस (चित्रा 4) लाने के लिए रन कोड पर क्लिक करें।
पथ का चयन करने के लिए खुली छवि पर क्लिक करें और इस प्रकार छवि का पता लगाया जाना है।
उस छवि को प्रदर्शित करने के लिए प्रदर्शन छवि पर क्लिक करें जिसे पहचान के लिए चुना गया है।
चयनित छवि का पता लगाने के लिए स्टार्ट डिटेक्शन पर क्लिक करें।
नोट: पता लगाने का परिणाम पता लगाया छवि के साथ दिखाई देगा, अर्थात, मुख्य वस्तु का परिणाम (चित्रा 5)।
मुख्य ऑब्जेक्ट डिटेक्शन के छवि परिणामों को सहेजने के लिए सेव पाथ का चयन करें पर क्लिक करें।

Subscription Required. Please recommend JoVE to your librarian.

Representative Results

यह अध्ययन एक एंड-टू-एंड डीप न्यूरल नेटवर्क का परिचय देता है जिसमें दो पूरक नेटवर्क शामिल हैं: एक पिक्सेल-स्तरीय मल्टी-स्केल पूरी तरह से दृढ़ नेटवर्क और एक गहरा एनकोडर-डिकोडर नेटवर्क। पहला नेटवर्क बहु-स्तरीय फीचर मानचित्रों से दृश्य विरोधाभासों को प्राप्त करने के लिए प्रासंगिक शब्दार्थ को एकीकृत करता है, जो विभिन्न परतों में गहरे तंत्रिका नेटवर्क में निश्चित ग्रहणशील क्षेत्रों की चुनौती को संबोधित करता है। दूसरा नेटवर्क लक्ष्य वस्तुओं में धुंधली सीमाओं के मुद्दे को कम करने के लिए गहरी और उथली दोनों छवि सुविधाओं का उपयोग करता है। अंत में, एक पूरी तरह से जुड़ा हुआ सशर्त यादृच्छिक क्षेत्र (सीआरएफ) मॉडल स्थानिक सुसंगतता और लवणता मानचित्र की आकृति को बेहतर बनाने के लिए लागू किया जाता है।

अध्ययन प्रस्तावित एल्गोरिथ्म और क्षेत्र में दस मौजूदा एल्गोरिदम के बीच गुणात्मक और मात्रात्मक तुलना करता है। प्रायोगिक परिणाम महत्वपूर्ण वस्तु का पता लगाने की सटीकता को बढ़ाने में प्रस्तावित एल्गोरिथ्म की प्रभावशीलता को प्रदर्शित करते हैं। इसके अलावा, एल्गोरिथ्म बिजली दृश्य कार्यों में संभावित प्रयोज्यता दिखाता है, बुद्धिमान पावर ग्रिड के क्षेत्र के भीतर विभिन्न जटिल वातावरणों में आशाजनक संभावनाओं की पेशकश करता है।

पृथक्करण प्रयोग
वर्तमान जांच ने एल्गोरिथ्म की प्रभावशीलता का मूल्यांकन करने के लिए एसओडी डेटाबेस पर पृथक्करण प्रयोगों की एक श्रृंखला को निष्पादित किया है। उक्त प्रयोगों के परिणाम तालिका 1 में विस्तृत हैं। (1) मॉडल की तुलना करने के लिए उपयोग किए जाने वाले मूल्यांकन मीट्रिक प्रेसिजन-रिकॉल वक्र²², एफ_βऔर ई_एमएई हैं। तालिका 1 (नंबर 1) परिणाम बताते हैं कि एल्गोरिथ्म से डीसीएल मॉडल को हटाने से एफ_βमान में कमी और ई_एमएईमूल्य में वृद्धि होती है। उपर्युक्त अवलोकन से पता चलता है कि डायनेमिक कन्वेन्शनल लेयर्स (डीसीएल) में गतिशील ग्रहणशील क्षेत्रों को विविध परतों में एकीकृत करके गहरे तंत्रिका नेटवर्क की प्रभावकारिता को बढ़ाने की क्षमता हो सकती है, जो बदले में, बहु-स्केल किए गए फीचर मानचित्रों के दृश्य विपरीत को बढ़ा सकती है। (2) तालिका 1 (नंबर 2) से, हम देख सकते हैं कि इस पेपर में एल्गोरिथ्म केवल डीईडीएन संरचना को हटा देता है, तालिका 1 (नंबर 3) में पूर्ण मॉड्यूल की तुलना में, तालिका 1 (नंबर 2) में F_β मान घट जाता है और E_MAE मूल्य बढ़ जाता है, जो इंगित करता है कि डीईडीएन प्रभावी ढंग से और सटीक रूप से प्रमुखता का पता लगा सकता है, ग्रहणशील क्षेत्र को बढ़ा सकता है, और प्रमुखता की सीमाओं को मजबूत करते हुए, छवि की विस्तृत जानकारी को बनाए रखें।

चित्रा 6 पृथक्करण प्रयोग के दृश्य परिणाम प्रस्तुत करता है। छवियों को बाएं से दाएं व्यवस्थित किया जाता है, मूल छवि, डीसीएल एल्गोरिथ्म परिणाम, डीईडीएन एल्गोरिथ्म परिणाम, इस पत्र में प्रस्तावित एल्गोरिथ्म और संबंधित जमीन-सच्चाई छवि प्रदर्शित करता है। चित्रा 6 के करीब निरीक्षण पर, यह डीसीएल एल्गोरिथ्म एसओडी डेटाबेस में छवियों का पता लगाने पर लक्ष्य सीमा का वर्णन करने के लिए जाता है, लेकिन प्रभावी ढंग से पृष्ठभूमि फिल्टर करने के लिए संघर्ष करता है कि स्पष्ट है. दूसरी ओर, DEDN एल्गोरिथ्म, लक्ष्य सीमा को मजबूत करता है लेकिन पृष्ठभूमि अतिरेक जानकारी को दबाने में चुनौतियों का सामना करता है। इसके विपरीत, इस पत्र में प्रस्तावित एल्गोरिथ्म इन दो एल्गोरिदम की ताकत को एक पूरक तरीके से जोड़ता है, जटिल पृष्ठभूमि से अतिरेक जानकारी को दबाते हुए लक्ष्य को प्रभावी ढंग से उजागर करता है। इस पेपर के परिणाम अकेले एल्गोरिथ्म के उन लोगों को पार करते हैं।

अन्य उन्नत एल्गोरिदम के साथ तुलना
प्रस्तावित एल्गोरिथ्म के प्रदर्शन का मूल्यांकन करने के लिए, ग्यारह प्रमुख प्रमुख वस्तु पहचान विधियों, अर्थात् जीएमआर²³, जीएस²⁴, एसएफ²⁵, पीडी²⁶, एसएस²⁷, डीआरएफआई²⁸, एमडीएफ²⁹, ईएलडी³⁰, डीएचएस³¹, और डीसीएल¹¹ के साथ एक तुलनात्मक विश्लेषण किया गया था। उनमें से, जीएमआर²³, जीएस²⁴, एसएफ²⁵, पीडी²⁶, एसएस²⁷, और डीआरएफआई²⁸ अच्छी तरह से प्रदर्शन करने वाले पारंपरिक असुरक्षित लवणता का पता लगाने के तरीके हैं जो आमतौर पर कई गहरी लवणता मॉडल द्वारा बेंचमार्क के रूप में नियोजित होते हैं। शेष चार विधियां गहरी दृढ़ तंत्रिका नेटवर्क का लाभ उठाती हैं और अपने संबंधित शोध साहित्य में बेहतर प्रदर्शन का प्रदर्शन करती हैं। इस अध्ययन के लिए नियोजित मूल्यांकन मेट्रिक्स में पीआर घटता, अधिकतम एफ-माप मान और माध्य पूर्ण त्रुटि (एमएई) शामिल हैं। चयनित परीक्षण डेटासेट में SOD और ECSSD डेटासेट शामिल हैं।

मात्रात्मक तुलना
चित्रा 7 एसओडी और ईसीएसएसडी सार्वजनिक रूप से उपलब्ध छवि डेटासेट पर 10 अन्य प्रमुख मुख्य वस्तु का पता लगाने के तरीकों के साथ इस अध्ययन में प्रस्तावित एल्गोरिथ्म की तुलना में सटीक-याद (पीआर) घटता दिखाता है। घटता स्पष्ट रूप से इंगित करता है कि इस अध्ययन में प्रस्तावित एल्गोरिथ्म अन्य 10 एल्गोरिदम से बेहतर प्रदर्शन करता है, जिससे इस पत्र में प्रस्तुत विधि के बेहतर पहचान प्रदर्शन को मान्य किया जाता है। विशेष रूप से ध्यान दें कि इस एल्गोरिथ्म की उच्च परिशुद्धता को बनाए रखने की क्षमता है, भले ही याद 1 तक पहुंचता है, जो उनकी अखंडता सुनिश्चित करते हुए नेत्रहीन मुख्य वस्तुओं के सटीक विभाजन का संकेत देता है। तालिका 2 एसओडी और ईसीएसएसडी परीक्षण डेटासेट पर विधियों की मात्रात्मक तुलना प्रदान करता है, जिससे पता चलता है कि हमारा एल्गोरिथ्म अधिकतम एफ-माप (एफ_β) और मतलब पूर्ण त्रुटि (ई_एमएई) के संदर्भ में बेहतर प्रदर्शन प्राप्त करता है, मुख्य रूप से डीसीएल नेटवर्क और डीईडीएन नेटवर्क के पूरक संयोजन के लिए जिम्मेदार है।

गुणात्मक तुलना
इसके अलावा, विश्लेषण की गई तकनीकों के दृश्य परिणामों को रस देने के लिए एक गुणात्मक मूल्यांकन किया गया था, जैसा कि चित्र 8में दिखाया गया है। ये आंकड़े मूल छवियों से शुरू होने वाले बाएं से दाएं व्यवस्थित छवियों का एक क्रम दिखाते हैं, इसके बाद जीएमआर²³, जीएस²⁴, एसएफ²⁵, पीडी²⁶, एसएस²⁷, डीआरएफआई²⁸, एमडीएफ²⁹, ईएलडी³⁰, डीएचएस³¹, और डीसीएल¹¹, इस लेख में प्रस्तावित एल्गोरिथ्म और ग्राउंड-ट्रुथ मैप।

चित्रा 8 ए में, एसओडी डेटासेट में गुणात्मक तुलना प्रस्तुत की गई है। यह स्पष्ट है कि कॉलम 1 में मूल छवि पृष्ठभूमि और अग्रभूमि तत्वों के बीच अपेक्षाकृत समान रंग वितरण प्रदर्शित करती है। इसके अतिरिक्त, पहले और तीसरे लवणता मानचित्र एक अधिक जटिल पृष्ठभूमि बनावट प्रस्तुत करते हैं, संभावित रूप से मुख्य वस्तु का पता लगाने में बाधा डालते हैं। इस अध्ययन में उल्लिखित एल्गोरिथ्म जटिल वातावरण में मुख्य वस्तुओं का पता लगाने में एक महत्वपूर्ण सुधार दिखाता है, जो अन्य मौजूदा एल्गोरिदम के प्रदर्शन को पार करता है। कॉलम 1 में प्रारंभिक छवि, विशेष रूप से दूसरी छवि, में पृष्ठभूमि शाखाएं होती हैं जो अग्रभूमि जानवर के साथ परस्पर जुड़ी होती हैं, जो अग्रभूमि वस्तु के सही आकलन के लिए एक चुनौती पेश करती हैं। इस अध्ययन में सामने रखा एल्गोरिथ्म सफलतापूर्वक पृष्ठभूमि हस्तक्षेप के मुद्दे को संबोधित करता है और प्रभावी ढंग से अग्रभूमि वस्तु क्षेत्र पर प्रकाश डालता है। प्रयोग दर्शाता है कि प्रस्तावित एल्गोरिथ्म जटिल पृष्ठभूमि वाली छवियों से निपटने में उच्च सटीकता और सटीकता प्राप्त करता है।

चित्रा 8 बी में, ईसीएसएसडी डेटासेट के भीतर एक गुणात्मक तुलना प्रस्तुत की जाती है, जो विभिन्न प्रमुख ऑब्जेक्ट डिटेक्शन विधियों के दृश्य विपरीत परिणामों को प्रदर्शित करती है। निष्कर्ष बताते हैं कि प्रस्तावित एल्गोरिथ्म विविध और जटिल प्राकृतिक दृश्यों में बेहतर पहचान प्रदर्शन प्राप्त करता है। ये प्राकृतिक दृश्य छवियां पहली और दूसरी छवियों में छवि सीमाओं के संपर्क में मुख्य वस्तुओं और तीसरी छवि में अग्रभूमि और पृष्ठभूमि के बीच कम विपरीत और रंग समानता जैसे परिदृश्यों को शामिल करती हैं। इन दृश्य परिणामों के माध्यम से, यहां प्रस्तावित एल्गोरिथ्म स्पष्ट वस्तु सीमाओं को सुनिश्चित करते हुए पूर्ण मुख्य वस्तुओं को प्रभावी ढंग से उजागर करता है। मुख्य वस्तुओं के पैमाने के बावजूद, चाहे वे बड़े हों या छोटे, एल्गोरिथ्म लगातार उच्च विभाजन सटीकता प्रदर्शित करता है, इसकी प्रभावशीलता को मान्य करता है। इसके अलावा, अन्य तरीकों की तुलना में, इस अध्ययन में प्रस्तुत एल्गोरिथ्म उच्च मजबूती को प्रदर्शित करता है, लवणता क्षेत्रों (या पृष्ठभूमि क्षेत्रों) में झूठी पहचान को कम करता है।

चित्रा 1: समग्र संरचना ढांचा। प्रस्तावित मॉडल का योजनाबद्ध प्रतिनिधित्व। कृपया इस चित्र का एक बड़ा संस्करण देखने के लिए यहाँ क्लिक करें.

चित्र 2: पिक्सेल-स्तरीय डीसीएल मॉडल। एक पिक्सेल-स्तरीय डीसीएल मॉडल का उपयोग वीजीजी 16 की वास्तुकला के भीतर किया जाता है, जो एक गहरा दृढ़ तंत्रिका नेटवर्क है। प्रारंभिक चार अधिकतम पूलिंग परतें तीन गुठली के साथ परस्पर जुड़ी हुई हैं। कृपया इस चित्र का एक बड़ा संस्करण देखने के लिए यहाँ क्लिक करें.

चित्रा 3: एन्कोडिंग-डिकोडिंग नेटवर्क मॉडल (डीईडीएन)। गहरी विशेषताओं को किनारे का पता लगाने के काम से प्रेरित उथले सुविधाओं के साथ जोड़ा जाता है, जो एन्कोडर-डिकोडर नेटवर्क मॉडल (डीईडीएन) का प्रस्ताव करता है। कृपया इस चित्र का एक बड़ा संस्करण देखने के लिए यहाँ क्लिक करें.

चित्रा 4: जीयूआई इंटरफ़ेस। आसान संचालन के लिए जीयूआई इंटरफ़ेस उत्पन्न करने के लिए कोड चलाया जाता है। कृपया इस चित्र का एक बड़ा संस्करण देखने के लिए यहाँ क्लिक करें.

चित्रा 5: जीयूआई इंटरफ़ेस डेमो। परीक्षण छवि परिणामों की आसान तुलना के लिए जीयूआई इंटरफ़ेस प्रस्तुति। कृपया इस चित्र का एक बड़ा संस्करण देखने के लिए यहाँ क्लिक करें.

चित्रा 6: पृथक्करण प्रयोग के दृश्य परिणाम। (ए) मूल छवि, (बी) डीसीएल एल्गोरिथ्म, (सी) डीईडीएन एल्गोरिथ्म, (डी) वर्तमान अध्ययन में उपयोग किए जाने वाले एल्गोरिथ्म, और (ई) संबंधित जमीन-सच्चाई छवि बाएं से दाएं दिखाए जाते हैं। जैसा कि चित्रा 6 से देखा जा सकता है, (बी) डीसीएल एल्गोरिथ्म केवल छवियों का पता लगाने पर लक्ष्य सीमा का वर्णन कर सकता है, और पृष्ठभूमि को फ़िल्टर करना मुश्किल है। (सी) डीईडीएन एल्गोरिथ्म में लक्ष्य सीमा को मजबूत करने का प्रभाव है, लेकिन पृष्ठभूमि अतिरेक जानकारी को दबाना भी उतना ही मुश्किल है; जबकि (डी) इस पत्र में एल्गोरिथ्म इन दो एल्गोरिदम को एक पूरक तरीके से जोड़ता है, जटिल पृष्ठभूमि की अतिरेक जानकारी को दबाते हुए लक्ष्य को उजागर करता है। कृपया इस चित्र का एक बड़ा संस्करण देखने के लिए यहाँ क्लिक करें.

चित्र 7: P-R वक्र। (A) P-R वक्र SOD डेटाबेस में हैं और (B) P-R वक्र क्रमशः ECSSD डेटाबेस में हैं। (ए) और (बी) दोनों में इस अध्ययन के एल्गोरिदम के पीआर घटता अन्य 10 एल्गोरिदम की तुलना में अधिक हैं, जो साबित होता है कि इस पेपर में एल्गोरिदम में इन 10 एल्गोरिदम के सापेक्ष उच्च सटीकता है। कृपया इस चित्र का एक बड़ा संस्करण देखने के लिए यहाँ क्लिक करें.

चित्रा 8: गुणात्मक तुलना। "एसओडी डेटाबेस (ए) और ईसीएसएसडी डेटाबेस (बी) में क्रमशः विभिन्न प्रमुख ऑब्जेक्ट डिटेक्शन एल्गोरिदम की गुणात्मक तुलना। मूलइनपुट छवियों को बाएं से दाएं, जीएमआर, जीएस, एसएफ, पीडी, एसएस, डीआरएफआई, एमडीएफ, ईएलडी, डीएचएस और डीसीएल, इस अध्ययन में प्रस्तावित एल्गोरिथ्म और ग्राउंड-ट्रुथ मैप से प्रस्तुत किया गया है। जैसा कि (ए) में देखा गया है, उल्लिखित एल्गोरिथ्म जटिल वातावरण में मुख्य वस्तुओं का पता लगाने में एक महत्वपूर्ण सुधार प्रदान करता है, जो अन्य मौजूदा एल्गोरिदम के प्रदर्शन को पार करता है। जैसा कि (बी) में देखा जा सकता है, इस अध्ययन में प्रस्तावित एल्गोरिथ्म में अन्य तरीकों की तुलना में अधिक मजबूती है क्योंकि यह मुख्य (या पृष्ठभूमि) क्षेत्रों की झूठी पहचान को कम करता है। कृपया इस चित्र का एक बड़ा संस्करण देखने के लिए यहाँ क्लिक करें.

नहीं।	मॉड्यूल सेटिंग	एफ_β	ई_एमएई
क्रमांक 1	केवल डीसीएल को हटाना	0.835	0.117
क्रमांक 2	केवल DEDN को हटाना	0.832	0.126
क्रमांक 3	पूरा मॉड्यूल	0.854	0.110

तालिका 1: पृथक्करण प्रयोगों के परिणाम।

को गढ़ना	आदमी		ईसीएसएसडी
को गढ़ना	एफ_β	ई_एमएई	एफ_β	ई_एमएई
जीएमआर	0.740	0.148	0.476	0.189
जी एस	0.677	0.188	0.355	0.344
एस एफ	0.779	0.150	0.309	0.230
पीडी	0.720	0.162	0.358	0.248
एस एस	0.574	0.225	0.268	0.344
डीआरएफआई	0.801	0.127	0.516	0.166
एमडीएफ	0.709	0.150	0.832	0.105
वृधावस्था	0.737	0.154	0.869	0.078
डीएचएस	0.812	0.127	0.907	0.059
डीसीएल	0.786	0.131	0.901	0.068
यह अध्ययन	0.854	0.110	0.938	0.044

तालिका 2: दो छवि डेटासेट में विभिन्न एल्गोरिदम के अधिकतम एफ-माप मान (एफ_β) और एमएई (मीन एब्सोल्यूट एरर) मान।

Subscription Required. Please recommend JoVE to your librarian.

Discussion

लेख एक एंड-टू-एंड गहरे तंत्रिका नेटवर्क का परिचय देता है जिसे विशेष रूप से जटिल वातावरण में मुख्य वस्तुओं का पता लगाने के लिए डिज़ाइन किया गया है। नेटवर्क दो परस्पर जुड़े घटकों से बना है: एक पिक्सेल-स्तरीय मल्टीस्केल पूरी तरह से दृढ़ नेटवर्क (डीसीएल) और एक गहरा एनकोडर-डिकोडर नेटवर्क (डीईडीएन)। ये घटक सहक्रियात्मक रूप से काम करते हैं, मल्टीस्केल फीचर मैप्स के भीतर दृश्य विरोधाभास उत्पन्न करने के लिए प्रासंगिक शब्दार्थ को शामिल करते हैं। इसके अतिरिक्त, वे वस्तु सीमा परिसीमन की सटीकता में सुधार करने के लिए गहरी और उथली छवि सुविधाओं दोनों का लाभ उठाते हैं। पूरी तरह से जुड़े कंडीशनल रैंडम फील्ड (सीआरएफ) मॉडल का एकीकरण नम्रता मानचित्रों और समोच्च परिसीमन के स्थानिक सामंजस्य को और बढ़ाता है।

इस उद्देश्य को प्राप्त करने के लिए, वीजीजी 16 आर्किटेक्चर के आधार पर दो डीप नेटवर्क, अर्थात् डीप कॉन्टेक्स्ट लर्निंग (डीसीएल) नेटवर्क और डीप एनकोडर-डिकोडर नेटवर्क (डीईडीएन) का निर्माण किया गया था। जैसा कि परिचालन चरण 1.2 में बताया गया है, अलग-अलग ग्रहणशील क्षेत्रों की विशेषता वाले अलग-अलग पैमानों के डीसीएल उपज सुविधा मानचित्रों के माध्यम से संसाधित इनपुट छवियां। इन मानचित्रों को बाद में प्रासंगिक शब्दार्थ के साथ जोड़ा जाता है, अंततः अंतर-आयामी सुसंगतता रखने वाले आयाम डब्ल्यू × एच के साथ लवणता मानचित्र उत्पन्न करते हैं। विशेष रूप से, DCL¹¹ मूल VGG16 नेटवर्क की अंतिम पूलिंग परत को बदलने के लिए 7 x 7 कर्नेल से सुसज्जित दृढ़ परतों की एक जोड़ी का उपयोग करता है। फीचर मैप्स के भीतर स्थानिक जानकारी को संरक्षित करने में यह संशोधन महत्वपूर्ण है। प्रासंगिक शब्दार्थ के सहयोग से, यह अंतर-आयामी सुसंगतता के साथ संपन्न नम्रता मानचित्रों में परिणत होता है।

इसके साथ ही, डीप एनकोडर-डिकोडर नेटवर्क (डीईडीएन)¹⁴ अपने डिकोडर सेक्शन में 3 x 3 कर्नेल कन्वेंशनल लेयर्स को नियोजित करता है, इसके बाद अंतिम डिकोडिंग मॉड्यूल के बाद एक एकान्त दृढ़ परत होती है। डीईडीएन द्वारा गहरी और उथले-स्तर की विशेषताओं का यह एकीकरण स्थानिक आयामों डब्ल्यू × एच के साथ लवणता मानचित्रों की पीढ़ी की सुविधा प्रदान करता है, जो अस्पष्ट वस्तु सीमाओं से जुड़ी चुनौतियों को संबोधित करता है। इस लेख में प्रस्तुत शोध मुख्य वस्तु का पता लगाने के लिए एक अग्रणी तकनीक का परिचय देता है, जैसा कि परिचालन चरण 1.3 में बताया गया है। यह DCL और DEDN मॉडल को एक प्रशिक्षण प्रक्रिया के माध्यम से एक एकीकृत नेटवर्क ढांचे में समाहित करता है जो इन दो गहरे नेटवर्कों के वजन को सीखता है और बाद में अधिग्रहित लवणता मानचित्रों को मर्ज करता है। पूरी तरह से जुड़े तरीके से सशर्त यादृच्छिक फ़ील्ड (सीआरएफ) को लागू करके आगे परिशोधन प्राप्त किया जाता है। इस शोधन का प्राथमिक उद्देश्य स्थानिक स्थिरता और समोच्च स्थानीयकरण को बढ़ाना है।

दोनों नेटवर्कों को VGG16 आर्किटेक्चर का उपयोग उनके तंत्रिका नेटवर्क रीढ़ के रूप में किया गया है, अंततः सशर्त रैंडम फील्ड्स (CRF) के माध्यम से फ़्यूज़िंग किया गया है। जबकि प्रस्तावित एल्गोरिथ्म जटिल वातावरण के भीतर लक्ष्य का पता लगाने के क्षेत्र में काफी क्षमता प्रदर्शित करता है, भविष्य की अनुसंधान पहलों को इसकी कम्प्यूटेशनल दक्षता बढ़ाने की दिशा में निर्देशित किया जाएगा। इसका उद्देश्य पता लगाने के प्रदर्शन से समझौता किए बिना बेहतर प्रसंस्करण गति प्राप्त करना है।

प्रस्तावित एल्गोरिथ्म एसओडी²⁰ और ईसीएसएसडी²¹ डेटाबेस पर 10 समकालीन एल्गोरिदम के खिलाफ व्यापक मूल्यांकन से गुजरता है। मूल्यांकन के परिणाम बताते हैं कि प्रस्तावित एल्गोरिथ्म सटीकता और सटीकता के मामले में अन्य दृष्टिकोणों से बेहतर प्रदर्शन करता है, जटिल वातावरण के भीतर मुख्य वस्तु का पता लगाने में इसकी प्रभावकारिता स्थापित करता है। इसके अलावा, एल्गोरिथ्म विद्युत ऊर्जा प्रणालियों के क्षेत्र में दृश्य कार्यों के लिए हस्तांतरणीयता के लिए वादा दिखाता है। यह इंसुलेटर के विभाजन और बुद्धिमान पावर ग्रिड के भीतर जटिल वातावरण में आग के खतरों का शीघ्र पता लगाने जैसे अनुप्रयोगों के लिए महत्वपूर्ण क्षमता रखता है।

Subscription Required. Please recommend JoVE to your librarian.

Disclosures

लेखकों के पास खुलासा करने के लिए कुछ भी नहीं है।

Acknowledgments

यह काम 2024 हेनान प्रांतीय उच्च शिक्षा संस्थानों प्रमुख वैज्ञानिक अनुसंधान परियोजना वित्त पोषण कार्यक्रम स्थापना (परियोजना संख्या: 24A520053) द्वारा समर्थित है। यह अध्ययन हेनान प्रांत में विशिष्ट निर्माण और एकीकरण विशेषता प्रदर्शन पाठ्यक्रम निर्माण द्वारा भी समर्थित है।

Materials

Name	Company	Catalog Number	Comments
Matlab	MathWorks	Matlab R2016a	MATLAB's programming interface provides development tools for improving code quality maintainability and maximizing performance. It provides tools for building applications using custom graphical interfaces. It provides tools for combining MATLAB-based algorithms with external applications and languages
Processor	Intel	11th Gen Intel(R) Core (TM) i5-1135G7 @ 2.40GHz	64-bit Win11 processor
Pycharm	JetBrains	PyCharm 3.0	PyCharm is a Python IDE (Integrated Development Environment) a list of required python: modulesmatplotlib skimage torch os time pydensecrf opencv glob PIL torchvision numpy tkinter
PyTorch	Facebook	PyTorch 1.4	PyTorch is an open source Python machine learning library , based on Torch , used for natural language processing and other applications.PyTorch can be viewed both as the addition of GPU support numpy , but also can be viewed as a powerful deep neural network with automatic derivatives .

DOWNLOAD MATERIALS LIST

References

Wang, W. G., Shen, J. B., Ling, H. B. A deep network solution for attention and aesthetics aware photo cropping. IEEE Transactions on Pattern Analysis and Machine Intelligence. 41 (7), 1531-1544 (2018).
Wang, W. G., Sun, G. L., Gool, L. V. Looking beyond single images for weakly supervised semantic segmentation learning. IEEE Transactions on Pattern Analysis and Machine. , (2022).
Mei, H. L., et al. Exploring dense context for salient object detection. IEEE Transactions on Circuits and Systems for Video Technology. 32 (3), 1378-1389 (2021).
Borji, A., Itti, L. State-of-the-art in visual attention modeling. IEEE Transactions on Pattern Analysis and Machine Intelligence. 35 (1), 185-207 (2012).
Fully convolutional networks for semantic segmentation. Long, J., Shelhamer, E., Darrell, T. Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, , 3431-3440 (2015).
Simonyan, K., Zisserman, A. Very deep convolutional networks for large-scale image recognition. arXiv preprint. , 1409-1556 (2014).
Deep residual learning for image recognition. He, K., Zhang, X., Ren, S., Sun, J. Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, , 770-778 (2016).
Dhsnet: Deep hierarchical saliency network for salient object detection. Liu, N., Han, J. Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, , 678-686 (2016).
A bi-directional message passing model for salient object detection. Zhang, L., Dai, J., Lu, H., He, Y., Wang, G. Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, , 1741-1750 (2018).
Wu, R., et al. A mutual learning method for salient object detection with intertwined multi-supervision. Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, , 8150-8159 (2019).
Deep contrast learning for salient object detection. Li, G., Yu, Y. Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, , 478-487 (2019).
Ren, Q., Hu, R. Multi-scale deep encoder-decoder network for salient object detection. Neurocomputing. 316, 95-104 (2018).
Wang, W. G., et al. Salient object detection in the deep learning era: An in-depth survey. IEEE Transactions on Pattern Analysis and Machine Intelligence. 44 (6), 3239-3259 (2021).
Zhou, T., et al. RGB-D salient object detection: A survey. Computational Visual Media. 7, 37-69 (2021).
Fu, K., et al. Siamese network for RGB-D salient object detection and beyond. IEEE Transactions on Pattern Analysis and Machine Intelligence. 44 (9), 5541-5559 (2021).
Lai, Q., et al. Weakly supervised visual saliency prediction. IEEE Transactions on Image Processing. 31, 3111-3124 (2022).
A bi-directional message passing model for salient object detection. Zhang, L., Dai, J., Lu, H., He, Y., Wang, G. Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, , 1741-1750 (2018).
A mutual learning method for salient object detection with intertwined multi-supervision. Wu, R. Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, , 8150-8159 (2019).
Wang, W., Shen, J., Dong, X., Borji, A., Yang, R. Inferring salient objects from human fixations. IEEE Transactions on Pattern Analysis and Machine Intelligence. 42 (8), 1913-1927 (2019).
Design and perceptual validation of performance measures for salient object segmentation. Movahedi, V., Elder, J. H. 2010 IEEE Computer Society Conference on Computer Vision and Pattern Recognition-Workshops, , 49-56 (2010).
Shi, J., Yan, Q., Xu, L., Jia, J. Hierarchical image saliency detection on extended CSSD. IEEE Transactions on Pattern Analysis and Machine Intelligence. 38 (4), 717-729 (2015).
Frequency-tuned salient region detection. Achanta, R., Hemami, S., Estrada, F., Susstrunk, S. 2009 IEEE Conference on Computer Vision and Pattern Recognition, , 1597-1604 (2009).
Saliency detection via graph-based manifold ranking. Yang, C., Zhang, L., Lu, H., Ruan, X., Yang, M. H. Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, , 3166-3173 (2013).
Wei, Y., et al. Geodesic saliency using background priors. Computer Vision-ECCV 2012. , Springer. Berlin Heidelberg. 29-42 (2012).
What makes a patch distinct. Margolin, R., Tal, A., Zelnik-Manor, L. Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, , 1139-1146 (2013).
Saliency filters: Contrast based filtering for salient region detection. Perazzi, F., Krähenbühl, P., Pritch, Y., Hornung, A. 2012 IEEE Conference on Computer Vision and Pattern Recognition, , 733-740 (2012).
Hou, X., Harel, J., Koch, C. Image signature: Highlighting sparse salient regions. IEEE Transactions on Pattern Analysis and Machine Intelligence. 34 (1), 194-201 (2011).
Salient object detection: A discriminative regional feature integration approach. Jiang, H., et al. Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, , 2083-2090 (2013).
Visual saliency based on multiscale deep features. Li, G., Yu, Y. Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, , 5455-5463 (2015).
Deep saliency with encoded low level distance map and high-level features. Lee, G., Tai, Y. W., Kim, J. Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, , 660-668 (2016).
Dhsnet: Deep hierarchical saliency network for salient object detection. Liu, N., Han, J. Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, , 678-686 (2016).

Engineering

जटिल वातावरण में मुख्य वस्तु का पता लगाने के लिए एंड-टू-एंड डीप न्यूरल नेटवर्क

Summary

Abstract

Introduction

Protocol

Representative Results

Discussion

Disclosures

Acknowledgments

Materials

References

Tags

Cite this Article

Summary

Abstract

Introduction

Protocol

Representative Results

Discussion

Disclosures

Acknowledgments

Materials

References

Tags

Cite this Article

Get cutting-edge science videos from JoVE sent straight to your inbox every month.