Waiting
로그인 처리 중...

Trial ends in Request Full Access Tell Your Colleague About Jove
Click here for the English version

Engineering

जटिल वातावरण में मुख्य वस्तु का पता लगाने के लिए एंड-टू-एंड डीप न्यूरल नेटवर्क

Published: December 15, 2023 doi: 10.3791/65554

Summary

वर्तमान प्रोटोकॉल एक उपन्यास एंड-टू-एंड मुख्य ऑब्जेक्ट डिटेक्शन एल्गोरिदम का वर्णन करता है। यह जटिल पर्यावरणीय संदर्भों के भीतर मुख्य वस्तु का पता लगाने की सटीकता को बढ़ाने के लिए गहरे तंत्रिका नेटवर्क का लाभ उठाता है।

Abstract

मुख्य वस्तु का पता लगाना कंप्यूटर दृष्टि के दायरे में रुचि के एक बढ़ते क्षेत्र के रूप में उभरा है। हालांकि, प्रचलित एल्गोरिदम जटिल और बहुआयामी वातावरण के भीतर मुख्य वस्तुओं का पता लगाने का काम सौंपे जाने पर कम सटीकता प्रदर्शित करते हैं। इस दबाव वाली चिंता के प्रकाश में, यह लेख एक एंड-टू-एंड गहरे तंत्रिका नेटवर्क प्रस्तुत करता है जिसका उद्देश्य जटिल वातावरण के भीतर मुख्य वस्तुओं का पता लगाना है। अध्ययन एक एंड-टू-एंड गहरे तंत्रिका नेटवर्क का परिचय देता है जिसका उद्देश्य जटिल वातावरण के भीतर मुख्य वस्तुओं का पता लगाना है। दो परस्पर संबंधित घटकों, अर्थात् एक पिक्सेल-स्तरीय मल्टीस्केल पूर्ण दृढ़ नेटवर्क और एक गहरी एनकोडर-डिकोडर नेटवर्क का मिश्रण, प्रस्तावित नेटवर्क ऑब्जेक्ट सीमा पहचान की सटीकता में सुधार करने के लिए गहरी और उथली छवि सुविधाओं को नियोजित करते हुए मल्टीस्केल फीचर मैप्स में दृश्य विपरीत उत्पन्न करने के लिए प्रासंगिक शब्दार्थ को एकीकृत करता है। पूरी तरह से जुड़े सशर्त यादृच्छिक क्षेत्र (सीआरएफ) मॉडल का एकीकरण मुख्य मानचित्रों के स्थानिक सुसंगतता और समोच्च चित्रण को और बढ़ाता है। प्रस्तावित एल्गोरिथ्म का एसओडी और ईसीएसएसडी डेटाबेस पर 10 समकालीन एल्गोरिदम के खिलाफ बड़े पैमाने पर मूल्यांकन किया गया है। मूल्यांकन के परिणाम दर्शाते हैं कि प्रस्तावित एल्गोरिथ्म सटीकता और सटीकता के मामले में अन्य दृष्टिकोणों से बेहतर प्रदर्शन करता है, जिससे जटिल वातावरण के भीतर मुख्य वस्तु का पता लगाने में इसकी प्रभावकारिता स्थापित होती है।

Introduction

मुख्य वस्तु का पता लगाने मानव दृश्य ध्यान की नकल करता है, पृष्ठभूमि की जानकारी को दबाते हुए प्रमुख छवि क्षेत्रों की तेजी से पहचान करता है। इस तकनीक को व्यापक रूप से इमेज क्रॉपिंग1, सिमेंटिक सेगमेंटेशन2 और इमेज एडिटिंग3 जैसे कार्यों में प्री-प्रोसेसिंग टूल के रूप में नियोजित किया जाता है। यह पृष्ठभूमि प्रतिस्थापन और अग्रभूमि निष्कर्षण जैसे कार्यों को सुव्यवस्थित करता है, संपादन दक्षता और सटीकता में सुधार करता है। इसके अतिरिक्त, यह लक्ष्य स्थानीयकरण को बढ़ाकर सिमेंटिक विभाजन में सहायता करता है। कम्प्यूटेशनल दक्षता बढ़ाने और स्मृति को संरक्षित करने के लिए मुख्य वस्तु का पता लगाने की क्षमता इसके महत्वपूर्ण शोध और अनुप्रयोग संभावनाओं को रेखांकित करती है।

इन वर्षों में, मुख्य वस्तु का पता लगाने प्रारंभिक पारंपरिक एल्गोरिदम से गहन शिक्षण एल्गोरिदम के समावेश के लिए विकसित हुआ है। इन प्रगति का उद्देश्य मुख्य वस्तु का पता लगाने और मानव दृश्य तंत्र के बीच अंतर को कम करना है। इसने मुख्य वस्तु का पता लगाने के अध्ययन के लिए गहरे दृढ़ नेटवर्क मॉडल को अपनाया है। बोरजी एट अल 4 ने अधिकांश शास्त्रीय पारंपरिक एल्गोरिदम को संक्षेप में प्रस्तुत और सामान्यीकृत किया, जो छवि की अंतर्निहित विशेषताओं पर भरोसा करते हैं। पता लगाने की सटीकता में कुछ सुधार के बावजूद, मैनुअल अनुभव और अनुभूति जटिल वातावरण में मुख्य वस्तु का पता लगाने के लिए चुनौतियों का सामना करना जारी रखती है।

कन्वेन्शनल न्यूरल नेटवर्क (CNNs) का उपयोग मुख्य वस्तु का पता लगाने के क्षेत्र में प्रचलित है। इस संदर्भ में, स्वायत्त सीखने के माध्यम से वजन अद्यतन के लिए गहरी दृढ़ तंत्रिका नेटवर्क का उपयोग किया जाता है। कैस्केड कन्वेन्शनल और पूलिंग परतों के उपयोग के माध्यम से छवियों से प्रासंगिक शब्दार्थ निकालने के लिए दृढ़ तंत्रिका नेटवर्क को नियोजित किया गया है, जिससे उच्च स्तर पर जटिल छवि सुविधाओं को सीखने में सक्षम बनाया जा सकता है, जिसमें विभिन्न वातावरणों में मुख्य वस्तु का पता लगाने के लिए उच्च भेदभाव और लक्षण वर्णन क्षमता है।

2016 में, पूरी तरह से दृढ़ तंत्रिका नेटवर्क5 ने मुख्य वस्तु का पता लगाने के लिए एक लोकप्रिय दृष्टिकोण के रूप में महत्वपूर्ण कर्षण प्राप्त किया, जिसके आधार पर शोधकर्ताओं ने पिक्सेल-स्तरीय मुख्य वस्तु का पता लगाना शुरू किया। कई मॉडल आमतौर पर मौजूदा नेटवर्क (जैसे, VGG166, ResNet7) पर बनाए जाते हैं, जिसका उद्देश्य छवि प्रतिनिधित्व को बढ़ाना और किनारे का पता लगाने के प्रभाव को मजबूत करना है।

Liu et al.8 ने विश्व स्तर पर छवि की गणना करने के लिए ढांचे के रूप में पहले से ही प्रशिक्षित तंत्रिका नेटवर्क का उपयोग किया और फिर एक पदानुक्रमित नेटवर्क का उपयोग करके ऑब्जेक्ट सीमा को परिष्कृत किया। दो नेटवर्कों का संयोजन अंतिम गहरी लवणता नेटवर्क बनाता है। यह पहले से अधिग्रहित मुख्य मानचित्र को नेटवर्क में पूर्व ज्ञान के रूप में दोहराए जाने वाले तरीके से खिलाकर पूरा किया गया था। झांग एट अल.9 प्रभावी ढंग से गहरे नेटवर्क का उपयोग करके छवि अर्थ और स्थानिक जानकारी को क्रमशः उथले से गहरे और गहरे से उथले परतों तक द्विदिश सूचना हस्तांतरण के साथ जोड़ता है। एक आपसी सीखने गहरी मॉडल का उपयोग कर मुख्य वस्तुओं का पता लगाने वू एट अल10 द्वारा आगे रखा गया था. मॉडल पता लगाने की प्रक्रिया को सुविधाजनक बनाने के लिए एक दृढ़ तंत्रिका नेटवर्क के भीतर अग्रभूमि और किनारे की जानकारी का उपयोग करता है। ली एट अल.11 ने मुख्य वस्तु का पता लगाने के संदर्भ में गहरे तंत्रिका नेटवर्क में विविध परतों के ग्रहणशील क्षेत्रों को ठीक करने की चुनौती को संबोधित करने के लिए तंत्रिका नेटवर्क के 'होल एल्गोरिथ्म' को नियोजित किया। हालांकि, सुपर-पिक्सेल विभाजन का उपयोग ऑब्जेक्ट एज अधिग्रहण के लिए किया जाता है, कम्प्यूटेशनल प्रयास और कंप्यूटिंग समय में काफी वृद्धि होती है। रेन एट अल 12 ने मुख्य वस्तुओं का पता लगाने के लिए एक बहु-स्तरीय एनकोडर-डिकोडर नेटवर्क तैयार किया और गहरी और उथली विशेषताओं को प्रभावी ढंग से संयोजित करने के लिए दृढ़ तंत्रिका नेटवर्क का उपयोग किया। यद्यपि ऑब्जेक्ट डिटेक्शन में सीमा धुंधलापन की चुनौती को इस दृष्टिकोण के माध्यम से हल किया जाता है, सूचना के बहु-पैमाने पर संलयन के परिणामस्वरूप कम्प्यूटेशनल मांगों में वृद्धि होती है।

साहित्य समीक्षा13 का प्रस्ताव है कि पारंपरिक तरीकों से लेकर गहरी सीखने की विधियों तक नम्रता का पता लगाने को संक्षेप में प्रस्तुत किया गया है, और इसकी उत्पत्ति से लेकर गहरी शिक्षा के युग तक लवणता लक्ष्य का पता लगाने का विकास बहुत स्पष्ट रूप से देखा जा सकता है। साहित्य में अच्छे निष्पादन के साथ विभिन्न आरजीबी-डी-आधारित मुख्य वस्तु संसूचन मॉडल प्रस्तावित किए गए हैं। उपरोक्त साहित्य लवणता वस्तु का पता लगाने के लिए विभिन्न प्रकार के एल्गोरिदम की समीक्षा और वर्गीकरण करता है और उनके अनुप्रयोग परिदृश्यों, उपयोग किए गए डेटाबेस और मूल्यांकन मैट्रिक्स का वर्णन करता है। यह लेख उनके सुझाए गए डेटाबेस और मूल्यांकन मैट्रिक्स से संबंधित प्रस्तावित एल्गोरिदम का गुणात्मक और मात्रात्मक विश्लेषण भी प्रदान करता है।

उपरोक्त सभी एल्गोरिदम ने सार्वजनिक डेटाबेस में उल्लेखनीय परिणाम प्राप्त किए हैं, जो जटिल वातावरण में मुख्य वस्तु का पता लगाने के लिए एक आधार प्रदान करते हैं। यद्यपि इस क्षेत्र में घरेलू और अंतरराष्ट्रीय स्तर पर कई शोध उपलब्धियां हुई हैं, फिर भी कुछ मुद्दों को संबोधित किया जाना बाकी है। (1) पारंपरिक गैर-गहन शिक्षण एल्गोरिदम में रंग, बनावट और आवृत्ति जैसी मैन्युअल रूप से लेबल की गई विशेषताओं पर निर्भरता के कारण कम सटीकता होती है, जो व्यक्तिपरक अनुभव और धारणा से आसानी से प्रभावित हो सकती है। नतीजतन, उनकी मुख्य वस्तु का पता लगाने की क्षमताओं की सटीकता कम हो जाती है। पारंपरिक गैर-गहन शिक्षण एल्गोरिदम का उपयोग करके जटिल वातावरण में मुख्य वस्तुओं का पता लगाना जटिल परिदृश्यों को संभालने में उनकी कठिनाई के कारण चुनौतीपूर्ण है। (2) मुख्य वस्तु का पता लगाने के लिए पारंपरिक तरीके रंग, बनावट और आवृत्ति जैसी मैन्युअल रूप से लेबल की गई विशेषताओं पर निर्भरता के कारण सीमित सटीकता प्रदर्शित करते हैं। इसके अतिरिक्त, क्षेत्र-स्तरीय पहचान कम्प्यूटेशनल रूप से महंगी हो सकती है, अक्सर स्थानिक स्थिरता की अनदेखी करती है, और वस्तु सीमाओं का खराब पता लगाती है। मुख्य वस्तु का पता लगाने की सटीकता को बढ़ाने के लिए इन मुद्दों को संबोधित करने की आवश्यकता है। (3) जटिल वातावरण में मुख्य वस्तु का पता लगाना अधिकांश एल्गोरिदम के लिए एक चुनौती प्रस्तुत करता है। अधिकांश प्रमुख ऑब्जेक्ट डिटेक्शन एल्गोरिदम को चर पृष्ठभूमि (समान पृष्ठभूमि और अग्रभूमि रंग, जटिल पृष्ठभूमि बनावट, आदि) के साथ तेजी से जटिल मुख्य वस्तु का पता लगाने के वातावरण के कारण गंभीर चुनौतियों का सामना करना पड़ता है, कई अनिश्चितताएं जैसे असंगत पहचान वस्तु आकार, और अग्रभूमि और पृष्ठभूमि किनारों की अस्पष्ट परिभाषा।

अधिकांश वर्तमान एल्गोरिदम समान पृष्ठभूमि और अग्रभूमि रंगों, जटिल पृष्ठभूमि बनावट और धुंधले किनारों के साथ जटिल वातावरण में मुख्य वस्तुओं का पता लगाने में कम सटीकता प्रदर्शित करते हैं। यद्यपि वर्तमान गहरी सीखने-आधारित मुख्य वस्तु एल्गोरिदम पारंपरिक पहचान विधियों की तुलना में उच्च सटीकता प्रदर्शित करते हैं, अंतर्निहित छवि सुविधाओं का उपयोग वे अभी भी सिमेंटिक विशेषताओं को प्रभावी ढंग से चिह्नित करने में कम हैं, जिससे उनके प्रदर्शन में सुधार के लिए जगह छोड़ दी जाती है।

सारांश में, यह अध्ययन एक प्रमुख वस्तु का पता लगाने वाले एल्गोरिदम के लिए एक अंत-से-अंत गहरे तंत्रिका नेटवर्क का प्रस्ताव करता है, जिसका उद्देश्य जटिल वातावरण में मुख्य वस्तु का पता लगाने की सटीकता को बढ़ाना, लक्ष्य किनारों में सुधार करना और सिमेंटिक विशेषताओं को बेहतर ढंग से चिह्नित करना है। इस पेपर का योगदान इस प्रकार है: (1) पहला नेटवर्क VGG16 को बेस नेटवर्क के रूप में नियोजित करता है और 'होल एल्गोरिथ्म'11का उपयोग करके अपनी पांच पूलिंग परतों को संशोधित करता है। पिक्सेल-स्तरीय बहु-स्तरीय पूरी तरह से दृढ़ तंत्रिका नेटवर्क विभिन्न स्थानिक पैमानों से छवि सुविधाओं को सीखता है, गहरे तंत्रिका नेटवर्क की विभिन्न परतों में स्थिर ग्रहणशील क्षेत्रों की चुनौती को संबोधित करता है और क्षेत्र में फोकस के महत्वपूर्ण क्षेत्रों में पहचान सटीकता को बढ़ाता है। (2) मुख्य वस्तु का पता लगाने की सटीकता में सुधार करने के हालिया प्रयासों ने एनकोडर नेटवर्क से गहराई सुविधाओं और डिकोडर नेटवर्क से उथले सुविधाओं दोनों को निकालने के लिए वीजीजी 16 जैसे गहरे तंत्रिका नेटवर्क का लाभ उठाने पर ध्यान केंद्रित किया है। यह दृष्टिकोण प्रभावी रूप से ऑब्जेक्ट सीमाओं की पहचान सटीकता को बढ़ाता है और सिमेंटिक जानकारी में सुधार करता है, विशेष रूप से चर पृष्ठभूमि, असंगत वस्तु आकार और अग्रभूमि और पृष्ठभूमि के बीच अस्पष्ट सीमाओं के साथ जटिल वातावरण में। (3) मुख्य वस्तु का पता लगाने की सटीकता को बढ़ाने के लिए हाल के प्रयासों ने एनकोडर नेटवर्क से गहरी विशेषताओं और डिकोडर नेटवर्क से उथले सुविधाओं को निकालने के लिए वीजीजी 16 सहित गहरे नेटवर्क के उपयोग पर जोर दिया है। इस दृष्टिकोण ने ऑब्जेक्ट सीमाओं और अधिक अर्थ जानकारी का बेहतर पता लगाने का प्रदर्शन किया है, विशेष रूप से जटिल वातावरण में अलग-अलग पृष्ठभूमि, वस्तु आकार और अग्रभूमि और पृष्ठभूमि के बीच अस्पष्ट सीमाओं के साथ। इसके अतिरिक्त, मुख्य मानचित्रों के स्थानिक सुसंगतता और समोच्च परिशुद्धता को बढ़ाने के लिए पूरी तरह से जुड़े सशर्त यादृच्छिक क्षेत्र (सीआरएफ) मॉडल का एकीकरण लागू किया गया है। इस दृष्टिकोण की प्रभावशीलता का मूल्यांकन जटिल पृष्ठभूमि वाले एसओडी और ईसीएसएसडी डेटासेट पर किया गया था और इसे सांख्यिकीय रूप से महत्वपूर्ण पाया गया था।

संबंधित काम
फू एट अल 15 ने आरजीबी का उपयोग करके एक संयुक्त दृष्टिकोण का प्रस्ताव दिया और मुख्य वस्तु का पता लगाने के लिए गहरी शिक्षा दी। लाइ एट अल.16 ने मुख्य ऑब्जेक्ट डिटेक्शन के लिए एक कमजोर पर्यवेक्षित मॉडल पेश किया, एनोटेशन से प्रमुखता सीखना, मुख्य रूप से एनोटेशन समय बचाने के लिए स्क्रिबल लेबल का उपयोग करना। जबकि इन एल्गोरिदम ने नम्रता वस्तु का पता लगाने के लिए दो पूरक नेटवर्क का एक संलयन प्रस्तुत किया, उनमें जटिल परिदृश्यों के तहत लवणता का पता लगाने की गहन जांच की कमी है। वांग एट अल 17 ने तंत्रिका नेटवर्क सुविधाओं के दो-मोड पुनरावृत्त संलयन को डिजाइन किया, दोनों नीचे-ऊपर और ऊपर-नीचे, अभिसरण तक पिछले पुनरावृत्ति के परिणामों को उत्तरोत्तर अनुकूलित करते हुए। झांग एट अल.18 प्रभावी ढंग से गहरे नेटवर्क का उपयोग करके छवि अर्थ और स्थानिक जानकारी को क्रमशः उथले से गहरे और गहरे से उथले परतों तक द्विदिश सूचना हस्तांतरण के साथ जोड़ता है। एक आपसी सीखने गहरी मॉडल का उपयोग कर मुख्य वस्तुओं का पता लगाने वू एट अल19 द्वारा प्रस्तावित किया गया था. मॉडल पता लगाने की प्रक्रिया को सुविधाजनक बनाने के लिए एक दृढ़ तंत्रिका नेटवर्क के भीतर अग्रभूमि और किनारे की जानकारी का उपयोग करता है। इन गहरे तंत्रिका नेटवर्क-आधारित मुख्य वस्तु पहचान मॉडल ने सार्वजनिक रूप से उपलब्ध डेटासेट पर उल्लेखनीय प्रदर्शन हासिल किया है, जिससे जटिल प्राकृतिक दृश्यों में मुख्य वस्तु का पता लगाने में सक्षम बनाया गया है। फिर भी, इस शोध क्षेत्र में और भी बेहतर मॉडल डिजाइन करना एक महत्वपूर्ण उद्देश्य बना हुआ है और इस अध्ययन के लिए प्राथमिक प्रेरणा के रूप में कार्य करता है।

समग्र ढांचा
प्रस्तावित मॉडल का योजनाबद्ध प्रतिनिधित्व, जैसा कि चित्र 1 में दर्शाया गया है, मुख्य रूप से वीजीजी 16 आर्किटेक्चर से लिया गया है, जिसमें पिक्सेल-स्तरीय मल्टीस्केल पूरी तरह से दृढ़ तंत्रिका नेटवर्क (डीसीएल) और एक गहरी एनकोडर-डिकोडर नेटवर्क (डीईडीएन) दोनों शामिल हैं। मॉडल डब्ल्यू × एच के इनपुट छवि आयामों को समायोजित करते हुए वीजीजी 16 की सभी अंतिम पूलिंग और पूरी तरह से जुड़ी परतों को समाप्त करता है। परिचालन तंत्र में डीसीएल के माध्यम से इनपुट छवि का प्रारंभिक प्रसंस्करण शामिल है, जो गहरी सुविधाओं के निष्कर्षण की सुविधा प्रदान करता है, जबकि उथली सुविधाओं को डीईडीएन नेटवर्क से प्राप्त किया जाता है। इन विशेषताओं के समामेलन को बाद में पूरी तरह से जुड़े सशर्त यादृच्छिक क्षेत्र (सीआरएफ) मॉडल के अधीन किया जाता है, जो उत्पादित नम्रता मानचित्रों की स्थानिक सुसंगतता और समोच्च सटीकता को बढ़ाता है।

मॉडल की प्रभावकारिता का पता लगाने के लिए, जटिल पृष्ठभूमि वाले SOD20 और ECSSD21 डेटासेट पर परीक्षण और सत्यापन किया गया। इनपुट छवि डीसीएल से गुजरने के बाद, विभिन्न ग्रहणशील क्षेत्रों के साथ विभिन्न पैमाने पर फीचर मैप प्राप्त किए जाते हैं, और प्रासंगिक शब्दार्थ को अंतर-आयामी सुसंगतता के साथ डब्ल्यू × एच मुख्य मानचित्र बनाने के लिए जोड़ा जाता है। डीसीएल मूल वीजीजी 16 नेटवर्क की अंतिम पूलिंग परत को प्रतिस्थापित करने के लिए 7 x 7 कर्नेल के साथ दृढ़ परतों की एक जोड़ी को नियोजित करता है, जिससे फीचर मैप्स में स्थानिक जानकारी का संरक्षण बढ़ जाता है। यह, प्रासंगिक शब्दार्थ के साथ मिलकर, अंतर-आयामी सुसंगतता के साथ डब्ल्यू × एच मुख्य मानचित्र का उत्पादन करता है। इसी तरह, डीप एनकोडर-डिकोडर नेटवर्क (डीईडीएन) डिकोडर में 3 x 3 कर्नेल के साथ दृढ़ परतों का उपयोग करता है और अंतिम डिकोडिंग मॉड्यूल के बाद एक एकल दृढ़ परत का उपयोग करता है। छवि की गहरी और उथली विशेषताओं का लाभ उठाते हुए, अस्पष्ट वस्तु सीमाओं की चुनौती को संबोधित करते हुए, डब्ल्यू × एच के स्थानिक आयाम के साथ एक मुख्य मानचित्र उत्पन्न करना संभव है। अध्ययन मुख्य वस्तु का पता लगाने के लिए एक अग्रणी तकनीक का वर्णन करता है जो डीसीएल और डीईडीएन मॉडल को एक एकीकृत नेटवर्क में समामेलित करता है। इन दो गहरे नेटवर्कों के वजन को एक प्रशिक्षण प्रक्रिया के माध्यम से सीखा जाता है, और परिणामी लवणता मानचित्रों को विलय कर दिया जाता है और फिर पूरी तरह से जुड़े सशर्त यादृच्छिक क्षेत्र (सीआरएफ) का उपयोग करके परिष्कृत किया जाता है। इस शोधन का प्राथमिक उद्देश्य स्थानिक स्थिरता और समोच्च स्थानीयकरण में सुधार करना है।

पिक्सेल-स्तरीय मल्टीस्केल पूरी तरह से दृढ़ तंत्रिका नेटवर्क
VGG16 आर्किटेक्चर में मूल रूप से पांच पूलिंग परतें शामिल थीं, जिनमें से प्रत्येक में 2 की प्रगति थी। प्रत्येक पूलिंग परत चैनलों की संख्या बढ़ाने के लिए छवि आकार को संपीड़ित करती है, अधिक प्रासंगिक जानकारी प्राप्त करती है। डीसीएल मॉडल साहित्य13 से प्रेरित है और वीजीजी 16 के ढांचे में सुधार है। इस लेख में, एक पिक्सेल-स्तरीय डीसीएल मॉडल11 का उपयोग किया जाता है, जैसा कि वीजीजी 16 की वास्तुकला के भीतर चित्र 2 में दिखाया गया है, एक गहरा दृढ़ तंत्रिका नेटवर्क। प्रारंभिक चार अधिकतम पूलिंग परतें तीन गुठली के साथ परस्पर जुड़ी हुई हैं। पहला कर्नेल 3 × 3 × 128 है; दूसरा कर्नेल 1 × 1 × 128 है; और तीसरी गिरी 1 × 1 × 1 है। प्रारंभिक चार पूलिंग परतों के बाद फीचर मानचित्रों का एक समान आकार प्राप्त करने के लिए, तीन कर्नेल से जुड़ा हुआ है, प्रत्येक आकार मूल छवि के एक-आठवें के बराबर है, इन चार सबसे बड़ी पूलिंग परतों से जुड़े पहले कर्नेल का चरण आकार क्रमशः 4, 2, 1 और 1 पर सेट है।

विभिन्न गुठली में मूल ग्रहणशील क्षेत्र को संरक्षित करने के लिए, साहित्य11 में प्रस्तावित "होल एल्गोरिथ्म" का उपयोग शून्य जोड़कर कर्नेल के आकार का विस्तार करने के लिए किया जाता है, इस प्रकार कर्नेल की अखंडता को बनाए रखा जाता है। ये चार फीचर मैप अलग-अलग चरण आकारों के साथ पहले कर्नेल से जुड़े हैं। नतीजतन, अंतिम चरण में निर्मित फीचर मानचित्रों में समान आयाम होते हैं। चार फीचर मैप अलग-अलग पैमानों से प्राप्त बहु-स्तरीय विशेषताओं का एक सेट बनाते हैं, जिनमें से प्रत्येक ग्रहणशील क्षेत्रों के विभिन्न आकारों का प्रतिनिधित्व करता है। चार मध्यवर्ती परतों से प्राप्त परिणामी फीचर मानचित्रों को VGG16 से प्राप्त अंतिम फीचर मैप के साथ जोड़ा जाता है, इस प्रकार 5-चैनल आउटपुट उत्पन्न होता है। आगामी आउटपुट को बाद में सिग्मॉइड सक्रियण फ़ंक्शन के साथ 1 × 1 × 1 कर्नेल के अधीन किया जाता है, अंततः मुख्य मानचित्र (मूल छवि के एक-आठवें रिज़ॉल्यूशन के साथ) का उत्पादन करता है। छवि को बिलिनियर प्रक्षेप का उपयोग करके अप-सैंपल और बड़ा किया जाता है, यह सुनिश्चित करता है कि परिणामी छवि, जिसे लवणता मानचित्र के रूप में संदर्भित किया जाता है, प्रारंभिक छवि के समान रिज़ॉल्यूशन बनाए रखता है।

डीप एनकोडर-डिकोडर नेटवर्क
इसी तरह, VGG16 नेटवर्क को बैकबोन नेटवर्क के रूप में नियोजित किया जाता है। VGG16 को उथले फीचर मैप चैनलों की कम संख्या लेकिन उच्च रिज़ॉल्यूशन और उच्च संख्या में गहरे फीचर चैनलों लेकिन कम रिज़ॉल्यूशन की विशेषता है। पूलिंग लेयर्स और डाउन-सैंपलिंग इसके फीचर मैप रिज़ॉल्यूशन को कम करने की कीमत पर डीप नेटवर्क की कम्प्यूटेशनल गति को बढ़ाते हैं। इस समस्या को हल करने के लिए, साहित्य14 में विश्लेषण के बाद, एनकोडर नेटवर्क का उपयोग मूल VGG16 में अंतिम पूलिंग परत की पूर्ण कनेक्टिविटी को संशोधित करने के लिए किया जाता है। इस संशोधन में इसे 7 × 7 गुठली के साथ दो दृढ़ परतों के साथ बदलना शामिल है (बड़े दृढ़ गुठली ग्रहणशील क्षेत्र को बढ़ाते हैं)। दोनों कनवल्शन कर्नेल एक सामान्यीकरण (बीएन) ऑपरेशन और एक संशोधित रैखिक इकाई (आरईएलयू) से लैस हैं। इस समायोजन के परिणामस्वरूप एक एनकोडर आउटपुट सुविधा मानचित्र होता है जो छवि स्थान जानकारी को बेहतर ढंग से संरक्षित करता है।

जबकि एनकोडर मुख्य वस्तुओं के वैश्विक स्थानीयकरण के लिए उच्च-स्तरीय छवि शब्दार्थ में सुधार करता है, इसकी मुख्य वस्तु की सीमा-धुंधली समस्या में प्रभावी ढंग से सुधार नहीं होता है। इस समस्या से निपटने के लिए, गहरी सुविधाओं को उथले सुविधाओं के साथ जोड़ा जाता है, जो किनारे का पता लगाने के काम12 से प्रेरित होता है, एन्कोडर-डिकोडर नेटवर्क मॉडल (डीईडीएन) का प्रस्ताव करता है जैसा कि चित्र 3में दिखाया गया है। एनकोडर आर्किटेक्चर में प्रारंभिक चार के साथ परस्पर जुड़े तीन कर्नेल शामिल होते हैं, जबकि डिकोडर अधिकतम पूलिंग परतों से प्राप्त अधिकतम मूल्यों का उपयोग करके फीचर मैप रिज़ॉल्यूशन को व्यवस्थित रूप से बढ़ाता है।

मुख्य वस्तु का पता लगाने के लिए इस अभिनव पद्धति में, डिकोडर चरण के दौरान, 3 × 3 कर्नेल के साथ एक दृढ़ परत का उपयोग बैच सामान्यीकरण परत और एक अनुकूलित रैखिक इकाई के संयोजन में किया जाता है। डिकोडर आर्किटेक्चर के भीतर अंतिम डिकोडिंग मॉड्यूल के समापन पर, एक एकांत-चैनल दृढ़ परत को स्थानिक आयामों डब्ल्यू × एच के मुख्य मानचित्र की खरीद के लिए नियोजित किया जाता है। मुख्य मानचित्र एनकोडर-डिकोडर मॉडल के एक सहयोगी संलयन के माध्यम से उत्पन्न होता है, परिणाम प्राप्त करता है, और दो के पूरक संलयन-यानी, गहरी जानकारी और उथले जानकारी का पूरक संलयन। यह न केवल मुख्य वस्तु के सटीक स्थानीयकरण को प्राप्त करता है और ग्रहणशील क्षेत्र को बढ़ाता है बल्कि छवि विवरण जानकारी को प्रभावी ढंग से संरक्षित करता है और मुख्य वस्तु की सीमा को मजबूत करता है।

एकीकरण तंत्र
एनकोडर आर्किटेक्चर में तीन कर्नेल शामिल हैं, जो VGG16 मॉडल की प्रारंभिक चार अधिकतम पूलिंग परतों से जुड़े हैं। इसके विपरीत, डिकोडर को जानबूझकर अप-सैंपलिंग परतों से प्राप्त फीचर मैप्स के रिज़ॉल्यूशन को उत्तरोत्तर बढ़ाने के लिए तैयार किया जाता है, जो संबंधित पूलिंग परतों से प्राप्त अधिकतम मूल्यों का उपयोग करता है। एक 3 x 3 कर्नेल, एक बैच सामान्यीकरण परत, और एक संशोधित रैखिक इकाई का उपयोग करके एक दृढ़ परत का उपयोग तब डिकोडर में किया जाता है, इसके बाद डब्ल्यू × एच आयामों का एक मुख्य मानचित्र उत्पन्न करने के लिए एकल-चैनल दृढ़ परत का उपयोग किया जाता है। दो गहरे नेटवर्क के वजन को वैकल्पिक प्रशिक्षण चक्रों के माध्यम से सीखा जाता है। पहले नेटवर्क के मापदंडों को तय रखा गया था, जबकि दूसरे नेटवर्क के मापदंडों को कुल पचास चक्रों के लिए प्रशिक्षण दिया गया था। प्रक्रिया के दौरान, संलयन के लिए उपयोग किए जाने वाले लवणता मानचित्र (एस1 और एस2) के वजन को यादृच्छिक ढाल के माध्यम से अद्यतन किया जाता है। हानि फलन11 है:

Equation 1 (1)

दिए गए व्यंजक में, प्रतीक G मैन्युअल रूप से लेबल किए गए मान का प्रतिनिधित्व करता है, जबकि W नेटवर्क पैरामीटर के पूर्ण सेट को दर्शाता है। वजन β मैं गणना प्रक्रिया में मुख्य पिक्सेल बनाम गैर-मुख्य पिक्सेल के अनुपात को विनियमित करने के लिए एक संतुलन कारक के रूप में कार्य करता हूं।

छवि I को तीन मापदंडों की विशेषता है: |मैं|, |मैं|- और |मैं|+, जो क्रमशः पिक्सेल की कुल संख्या, गैर-मुख्य पिक्सेल की संख्या और मुख्य पिक्सेल की संख्या का प्रतिनिधित्व करते हैं। Equation 2

चूंकि उपरोक्त दो नेटवर्क से प्राप्त मुख्य मानचित्र पड़ोसी पिक्सेल के सुसंगतता पर विचार नहीं करते हैं, इसलिए स्थानिक सुसंगतता में सुधार के लिए पूरी तरह से जुड़े पिक्सेल-स्तरीय लवणता शोधन मॉडल सीआरएफ15 का उपयोग किया जाता है। ऊर्जा समीकरण11 इस प्रकार है, बाइनरी पिक्सेल लेबलिंग समस्या को हल करना।

Equation 3 (2)

जहां एल सभी पिक्सल को सौंपे गए बाइनरी लेबल (मुख्य मूल्य या गैर-मुख्य मान) को दर्शाता है। चर P(li) किसी दिए गए पिक्सेल xiको एक विशिष्ट लेबल li सौंपे जाने की संभावना को दर्शाता है, जो पिक्सेल xiके saliency होने की संभावना को दर्शाता है। शुरुआत में, P(1) = Siऔर P(0) = 1 - Si, जहां Siफ्यूज्ड सेलेंसी मैप S के भीतर पिक्सेल xiपर लवणता मान को दर्शाता है। θi,j(li,l j) युग्मवार विभव है, जिसे निम्नानुसार परिभाषित किया गया है।

Equation 4 (3)

उनमें से, यदि lilj, तो μ(li,l j) = 1, अन्यथा μ(li,l j) = 0। θi,j की गणना में दो कर्नेल का उपयोग शामिल है, जहां प्रारंभिक कर्नेल पिक्सेल स्थिति P और पिक्सेल तीव्रता I दोनों पर निर्भर है। इसके परिणामस्वरूप समान रंगों वाले पिक्सेल की निकटता तुलनीय लवणता मूल्यों का प्रदर्शन करती है। αऔर σ β σ दो पैरामीटर, इस बात को नियंत्रित करते हैं कि रंग समानता और स्थानिक निकटता परिणाम को किस हद तक प्रभावित करती है। दूसरे कर्नेल का उद्देश्य अलग-अलग छोटे क्षेत्रों को खत्म करना है। ऊर्जा का न्यूनतमकरण उच्च-आयामी फ़िल्टरिंग के माध्यम से प्राप्त किया जाता है, जो सशर्त यादृच्छिक क्षेत्र (सीआरएफ) वितरण के औसत क्षेत्र को तेज करता है। गणना करने पर, एससीआरएफ के रूप में निरूपित मुख्य मानचित्र पता लगाए गए मुख्य वस्तुओं के संबंध में उन्नत स्थानिक सुसंगतता और समोच्च प्रदर्शित करता है।

प्रायोगिक विन्यास
इस लेख में, वीजीजी 16 तंत्रिका नेटवर्क के आधार पर मुख्य लक्ष्य का पता लगाने के लिए एक गहरा नेटवर्क पायथन का उपयोग करके बनाया गया है। प्रस्तावित मॉडल की तुलना SOD20 और ECSSD21 डेटासेट का उपयोग करके अन्य तरीकों से की जाती है। एसओडी छवि डेटाबेस अपनी जटिल और अव्यवस्थित पृष्ठभूमि, अग्रभूमि और पृष्ठभूमि के बीच रंगों में समानता और छोटे ऑब्जेक्ट आकारों के लिए जाना जाता है। इस डेटासेट में प्रत्येक छवि को मात्रात्मक और गुणात्मक प्रदर्शन मूल्यांकन दोनों के लिए मैन्युअल रूप से लेबल किया गया सही मान सौंपा गया है। दूसरी ओर, ECSSD डेटासेट में मुख्य रूप से इंटरनेट से प्राप्त छवियां होती हैं, जिसमें छवि पृष्ठभूमि और मुख्य वस्तुओं के बीच कम विपरीत के साथ अधिक जटिल और यथार्थवादी प्राकृतिक दृश्य होते हैं।

इस पेपर में मॉडल की तुलना करने के लिए उपयोग किए जाने वाले मूल्यांकन इंडेक्स में आमतौर पर इस्तेमाल किए जाने वाले प्रेसिजन-रिकॉल कर्व, एफβऔर एमएई शामिल हैं। मात्रात्मक रूप से अनुमानित लवणता मानचित्र का आकलन करने के लिए, प्रेसिजन-रिकॉल (पीआर) वक्र22 को लवणता मानचित्र को बिनाराइज़ करने के लिए थ्रेशोल्ड को 0 से 255 में बदलकर नियोजित किया जाता है। एफβएक व्यापक मूल्यांकन मीट्रिक है, जिसकी गणना सटीक और याद समीकरणों के साथ की जाती है जो कि बिनाराइज्ड मुख्य मानचित्र और एक सच्चे मूल्य मानचित्र से प्राप्त होती है।

Equation 5 (4)

जहां सटीकता और याद को समायोजित करने के लिए वजन पैरामीटर β है, β2 = 0.3 सेट करना। एमएईकी गणना परिणामी नम्रता मानचित्र और जमीनी सच्चाई मानचित्र के बीच औसत पूर्ण त्रुटि की गणना करने के बराबर है, जैसा कि आगामी गणितीय अभिव्यक्ति द्वारा परिभाषित किया गया है:

Equation 6 (5)

Ts(u,v) को मुख्य मानचित्र (u,v) पिक्सेल के निकाले गए मान को निरूपित करने दें, और TG(u,v) को सच्चे मानचित्र (u,v) पिक्सेल के संगत मान को निरूपित करने दें।

Subscription Required. Please recommend JoVE to your librarian.

Protocol

1. प्रायोगिक सेटअप और प्रक्रिया

  1. पूर्व-प्रशिक्षित VGG16 मॉडल लोड करें।
    नोट: पहला कदम केरस लाइब्रेरी 16 से पूर्व-प्रशिक्षितVGG6 मॉडल को लोड करना है।
    1. PyTorch जैसी लोकप्रिय डीप लर्निंग लाइब्रेरी का उपयोग करके पायथन में पूर्व-प्रशिक्षित VGG16 मॉडल लोड करने के लिए ( सामग्री की तालिकादेखें), इन सामान्य चरणों का पालन करें:
      1. आयात मशाल। मॉडल के रूप में torchvision.models आयात करें।
      2. पूर्व-प्रशिक्षित VGG16 मॉडल लोड करें। vgg16_model = models.vgg16 (pretrained = True)।
      3. सुनिश्चित करें कि VGG16 मॉडल का सारांश "प्रिंट (vgg16_model)" है।
  2. DCL और DEDN मॉडल को परिभाषित करें।
    1. DCL एल्गोरिथम के छद्म कोड के लिए, इनपुट प्रदान करें: छवि डेटासेट SOD और आउटपुट: प्रशिक्षित DCL मॉडल
      1. VGG16 बैकबोन नेटवर्क के साथ DCL मॉडल को इनिशियलाइज़ करें।
      2. छवि डेटासेट D को प्रीप्रोसेस करें (उदाहरण के लिए, आकार बदलें, सामान्यीकरण)।
      3. डेटासेट को प्रशिक्षण और सत्यापन सेट में विभाजित करें।
      4. डीसीएल मॉडल (जैसे, बाइनरी क्रॉस-एन्ट्रापी) के प्रशिक्षण के लिए हानि फ़ंक्शन को परिभाषित करें।
      5. प्रशिक्षण के लिए हाइपरपैरामीटर सेट करें: सीखने की दर (0.0001), प्रशिक्षण युगों की संख्या सेट (50), बैच आकार (8), ऑप्टिमाइज़र (एडम)।
      6. डीसीएल मॉडल को प्रशिक्षित करें: युगों की निर्धारित संख्या में प्रत्येक युग के लिए, प्रशिक्षण सेट में प्रत्येक बैच के लिए करें। निम्नलिखित इनपुट करें:
        1. फॉरवर्ड पास: बैच इमेज को DCL मॉडल में फीड करें। अनुमानित लवणता मानचित्रों और जमीनी सच्चाई मानचित्रों का उपयोग करके नुकसान की गणना करें।
        2. बैकवर्ड पास: ग्रेडिएंट डिसेंट एंड का उपयोग करके मॉडल पैरामीटर अपडेट करें। सत्यापन हानि और अन्य मूल्यांकन मीट्रिक की गणना सत्यापन सेट के अंत में करें।
      7. प्रशिक्षित डीसीएल मॉडल सहेजें।
      8. प्रशिक्षित डीसीएल मॉडल लौटाएं।
    2. डीईडीएन एल्गोरिथ्म के लिए छद्म कोड के लिए, इनपुट: छवि डेटासेट (एक्स), ग्राउंड ट्रुथ सेलिएंसी मैप्स (वाई), प्रशिक्षण पुनरावृत्तियों की संख्या (एन)।
      1. एनकोडर नेटवर्क के लिए, सुनिश्चित करें कि एनकोडर संशोधनों के साथ VGG16 कंकाल पर आधारित है (जैसा कि नीचे उल्लेख किया गया है)।
        नोट: encoder_input = इनपुट (आकार = input_shape)
        encoder_conv1 = Conv2D(64, (3, 3), सक्रियण = 'रेलू', पैडिंग = 'वही') (encoder_input)
        encoder_pool1 = मैक्सपूलिंग2डी((2, 2))(encoder_conv1)
        encoder_conv2 = Conv2D(128, (3, 3), सक्रियण = 'रेलू', पैडिंग = 'वही') (encoder_pool1)
        encoder_pool2 = मैक्सपूलिंग2डी((2, 2))(encoder_conv2)
        encoder_conv3 = Conv2D(256, (3, 3), सक्रियण = 'रेलू', पैडिंग = 'वही')(encoder_pool2)
        encoder_pool3 = मैक्सपूलिंग2डी((2, 2))(encoder_conv3)
      2. डिकोडर नेटवर्क के लिए, सुनिश्चित करें कि डिकोडर संशोधनों के साथ VGG16 कंकाल पर आधारित है (जैसा कि नीचे उल्लेख किया गया है)।
        नोट: decoder_conv1 = Conv2D(256, (3, 3), सक्रियण = 'रेलू', पैडिंग = 'वही') (encoder_pool3)
        decoder_upsample1 = अपसैंपलिंग2डी((2, 2))(decoder_conv1)
        decoder_conv2 = Conv2D(128, (3, 3), सक्रियण = 'रेलू', पैडिंग = 'वही')(decoder_upsample1)
        decoder_upsample2 = अपसैंपलिंग2डी((2, 2))(decoder_conv2)
        decoder_conv3 = Conv2D(64, (3, 3), सक्रियण = 'रेलू', पैडिंग = 'वही')(decoder_upsample2)
        decoder_upsample3 = अपसैंपलिंग2डी((2, 2))(decoder_conv3)
        decoder_output = Conv2D(1, (1, 1), सक्रियण = 'सिग्मॉइड', पैडिंग = 'वही')(decoder_upsample3)
    3. DEDN मॉडल को परिभाषित करें। मॉडल = मॉडल (इनपुट = encoder_input, आउटपुट = decoder_output)।
    4. मॉडल संकलित करें। model.compile (ऑप्टिमाइज़र = एडम, लॉस = binary_crossentropy)।
    5. प्रशिक्षण लूप का चयन करें।
      नोट: सीमा (एन) में पुनरावृत्ति के लिए: # बेतरतीब ढंग से छवियों और जमीनी सच्चाई के नक्शे के एक बैच का चयन करें; batch_X, batch_Y = randomly_select_batch(X, Y, batch_size)।
      1. बैच पर मॉडल को प्रशिक्षित करें। हानि = model.train_on_batch(batch_X, batch_Y)। निगरानी के लिए नुकसान प्रिंट करें।
    6. प्रशिक्षित मॉडल सहेजें। model.save ('dedn_model.h5')।
  3. चावलपका हुआ।
    1. DCL और DEDN नेटवर्क के आउटपुट को मिलाएं और पूरी तरह से जुड़े सशर्त यादृच्छिक फ़ील्ड (CRF) मॉडल का उपयोग करके लवणता मानचित्र को परिष्कृत करें।

2. इमेज प्रोसेसिंग

  1. जीयूआई इंटरफ़ेस (चित्रा 4) लाने के लिए रन कोड पर क्लिक करें।
  2. पथ का चयन करने के लिए खुली छवि पर क्लिक करें और इस प्रकार छवि का पता लगाया जाना है।
  3. उस छवि को प्रदर्शित करने के लिए प्रदर्शन छवि पर क्लिक करें जिसे पहचान के लिए चुना गया है।
  4. चयनित छवि का पता लगाने के लिए स्टार्ट डिटेक्शन पर क्लिक करें।
    नोट: पता लगाने का परिणाम पता लगाया छवि के साथ दिखाई देगा, अर्थात, मुख्य वस्तु का परिणाम (चित्रा 5)।
  5. मुख्य ऑब्जेक्ट डिटेक्शन के छवि परिणामों को सहेजने के लिए सेव पाथ का चयन करें पर क्लिक करें।

Subscription Required. Please recommend JoVE to your librarian.

Representative Results

यह अध्ययन एक एंड-टू-एंड डीप न्यूरल नेटवर्क का परिचय देता है जिसमें दो पूरक नेटवर्क शामिल हैं: एक पिक्सेल-स्तरीय मल्टी-स्केल पूरी तरह से दृढ़ नेटवर्क और एक गहरा एनकोडर-डिकोडर नेटवर्क। पहला नेटवर्क बहु-स्तरीय फीचर मानचित्रों से दृश्य विरोधाभासों को प्राप्त करने के लिए प्रासंगिक शब्दार्थ को एकीकृत करता है, जो विभिन्न परतों में गहरे तंत्रिका नेटवर्क में निश्चित ग्रहणशील क्षेत्रों की चुनौती को संबोधित करता है। दूसरा नेटवर्क लक्ष्य वस्तुओं में धुंधली सीमाओं के मुद्दे को कम करने के लिए गहरी और उथली दोनों छवि सुविधाओं का उपयोग करता है। अंत में, एक पूरी तरह से जुड़ा हुआ सशर्त यादृच्छिक क्षेत्र (सीआरएफ) मॉडल स्थानिक सुसंगतता और लवणता मानचित्र की आकृति को बेहतर बनाने के लिए लागू किया जाता है।

अध्ययन प्रस्तावित एल्गोरिथ्म और क्षेत्र में दस मौजूदा एल्गोरिदम के बीच गुणात्मक और मात्रात्मक तुलना करता है। प्रायोगिक परिणाम महत्वपूर्ण वस्तु का पता लगाने की सटीकता को बढ़ाने में प्रस्तावित एल्गोरिथ्म की प्रभावशीलता को प्रदर्शित करते हैं। इसके अलावा, एल्गोरिथ्म बिजली दृश्य कार्यों में संभावित प्रयोज्यता दिखाता है, बुद्धिमान पावर ग्रिड के क्षेत्र के भीतर विभिन्न जटिल वातावरणों में आशाजनक संभावनाओं की पेशकश करता है।

पृथक्करण प्रयोग
वर्तमान जांच ने एल्गोरिथ्म की प्रभावशीलता का मूल्यांकन करने के लिए एसओडी डेटाबेस पर पृथक्करण प्रयोगों की एक श्रृंखला को निष्पादित किया है। उक्त प्रयोगों के परिणाम तालिका 1 में विस्तृत हैं। (1) मॉडल की तुलना करने के लिए उपयोग किए जाने वाले मूल्यांकन मीट्रिक प्रेसिजन-रिकॉल वक्र22, एफβऔर एमएई हैं। तालिका 1 (नंबर 1) परिणाम बताते हैं कि एल्गोरिथ्म से डीसीएल मॉडल को हटाने से एफβमान में कमी और एमएईमूल्य में वृद्धि होती है। उपर्युक्त अवलोकन से पता चलता है कि डायनेमिक कन्वेन्शनल लेयर्स (डीसीएल) में गतिशील ग्रहणशील क्षेत्रों को विविध परतों में एकीकृत करके गहरे तंत्रिका नेटवर्क की प्रभावकारिता को बढ़ाने की क्षमता हो सकती है, जो बदले में, बहु-स्केल किए गए फीचर मानचित्रों के दृश्य विपरीत को बढ़ा सकती है। (2) तालिका 1 (नंबर 2) से, हम देख सकते हैं कि इस पेपर में एल्गोरिथ्म केवल डीईडीएन संरचना को हटा देता है, तालिका 1 (नंबर 3) में पूर्ण मॉड्यूल की तुलना में, तालिका 1 (नंबर 2) में F_β मान घट जाता है और E_MAE मूल्य बढ़ जाता है, जो इंगित करता है कि डीईडीएन प्रभावी ढंग से और सटीक रूप से प्रमुखता का पता लगा सकता है, ग्रहणशील क्षेत्र को बढ़ा सकता है, और प्रमुखता की सीमाओं को मजबूत करते हुए, छवि की विस्तृत जानकारी को बनाए रखें।

चित्रा 6 पृथक्करण प्रयोग के दृश्य परिणाम प्रस्तुत करता है। छवियों को बाएं से दाएं व्यवस्थित किया जाता है, मूल छवि, डीसीएल एल्गोरिथ्म परिणाम, डीईडीएन एल्गोरिथ्म परिणाम, इस पत्र में प्रस्तावित एल्गोरिथ्म और संबंधित जमीन-सच्चाई छवि प्रदर्शित करता है। चित्रा 6 के करीब निरीक्षण पर, यह डीसीएल एल्गोरिथ्म एसओडी डेटाबेस में छवियों का पता लगाने पर लक्ष्य सीमा का वर्णन करने के लिए जाता है, लेकिन प्रभावी ढंग से पृष्ठभूमि फिल्टर करने के लिए संघर्ष करता है कि स्पष्ट है. दूसरी ओर, DEDN एल्गोरिथ्म, लक्ष्य सीमा को मजबूत करता है लेकिन पृष्ठभूमि अतिरेक जानकारी को दबाने में चुनौतियों का सामना करता है। इसके विपरीत, इस पत्र में प्रस्तावित एल्गोरिथ्म इन दो एल्गोरिदम की ताकत को एक पूरक तरीके से जोड़ता है, जटिल पृष्ठभूमि से अतिरेक जानकारी को दबाते हुए लक्ष्य को प्रभावी ढंग से उजागर करता है। इस पेपर के परिणाम अकेले एल्गोरिथ्म के उन लोगों को पार करते हैं।

अन्य उन्नत एल्गोरिदम के साथ तुलना
प्रस्तावित एल्गोरिथ्म के प्रदर्शन का मूल्यांकन करने के लिए, ग्यारह प्रमुख प्रमुख वस्तु पहचान विधियों, अर्थात् जीएमआर23, जीएस24, एसएफ25, पीडी26, एसएस27, डीआरएफआई28, एमडीएफ29, ईएलडी30, डीएचएस31, और डीसीएल11 के साथ एक तुलनात्मक विश्लेषण किया गया था। उनमें से, जीएमआर23, जीएस24, एसएफ25, पीडी26, एसएस27, और डीआरएफआई28 अच्छी तरह से प्रदर्शन करने वाले पारंपरिक असुरक्षित लवणता का पता लगाने के तरीके हैं जो आमतौर पर कई गहरी लवणता मॉडल द्वारा बेंचमार्क के रूप में नियोजित होते हैं। शेष चार विधियां गहरी दृढ़ तंत्रिका नेटवर्क का लाभ उठाती हैं और अपने संबंधित शोध साहित्य में बेहतर प्रदर्शन का प्रदर्शन करती हैं। इस अध्ययन के लिए नियोजित मूल्यांकन मेट्रिक्स में पीआर घटता, अधिकतम एफ-माप मान और माध्य पूर्ण त्रुटि (एमएई) शामिल हैं। चयनित परीक्षण डेटासेट में SOD और ECSSD डेटासेट शामिल हैं।

मात्रात्मक तुलना
चित्रा 7 एसओडी और ईसीएसएसडी सार्वजनिक रूप से उपलब्ध छवि डेटासेट पर 10 अन्य प्रमुख मुख्य वस्तु का पता लगाने के तरीकों के साथ इस अध्ययन में प्रस्तावित एल्गोरिथ्म की तुलना में सटीक-याद (पीआर) घटता दिखाता है। घटता स्पष्ट रूप से इंगित करता है कि इस अध्ययन में प्रस्तावित एल्गोरिथ्म अन्य 10 एल्गोरिदम से बेहतर प्रदर्शन करता है, जिससे इस पत्र में प्रस्तुत विधि के बेहतर पहचान प्रदर्शन को मान्य किया जाता है। विशेष रूप से ध्यान दें कि इस एल्गोरिथ्म की उच्च परिशुद्धता को बनाए रखने की क्षमता है, भले ही याद 1 तक पहुंचता है, जो उनकी अखंडता सुनिश्चित करते हुए नेत्रहीन मुख्य वस्तुओं के सटीक विभाजन का संकेत देता है। तालिका 2 एसओडी और ईसीएसएसडी परीक्षण डेटासेट पर विधियों की मात्रात्मक तुलना प्रदान करता है, जिससे पता चलता है कि हमारा एल्गोरिथ्म अधिकतम एफ-माप (एफβ) और मतलब पूर्ण त्रुटि (एमएई) के संदर्भ में बेहतर प्रदर्शन प्राप्त करता है, मुख्य रूप से डीसीएल नेटवर्क और डीईडीएन नेटवर्क के पूरक संयोजन के लिए जिम्मेदार है।

गुणात्मक तुलना
इसके अलावा, विश्लेषण की गई तकनीकों के दृश्य परिणामों को रस देने के लिए एक गुणात्मक मूल्यांकन किया गया था, जैसा कि चित्र 8में दिखाया गया है। ये आंकड़े मूल छवियों से शुरू होने वाले बाएं से दाएं व्यवस्थित छवियों का एक क्रम दिखाते हैं, इसके बाद जीएमआर23, जीएस24, एसएफ25, पीडी26, एसएस27, डीआरएफआई28, एमडीएफ29, ईएलडी30, डीएचएस31, और डीसीएल11, इस लेख में प्रस्तावित एल्गोरिथ्म और ग्राउंड-ट्रुथ मैप।

चित्रा 8 ए में, एसओडी डेटासेट में गुणात्मक तुलना प्रस्तुत की गई है। यह स्पष्ट है कि कॉलम 1 में मूल छवि पृष्ठभूमि और अग्रभूमि तत्वों के बीच अपेक्षाकृत समान रंग वितरण प्रदर्शित करती है। इसके अतिरिक्त, पहले और तीसरे लवणता मानचित्र एक अधिक जटिल पृष्ठभूमि बनावट प्रस्तुत करते हैं, संभावित रूप से मुख्य वस्तु का पता लगाने में बाधा डालते हैं। इस अध्ययन में उल्लिखित एल्गोरिथ्म जटिल वातावरण में मुख्य वस्तुओं का पता लगाने में एक महत्वपूर्ण सुधार दिखाता है, जो अन्य मौजूदा एल्गोरिदम के प्रदर्शन को पार करता है। कॉलम 1 में प्रारंभिक छवि, विशेष रूप से दूसरी छवि, में पृष्ठभूमि शाखाएं होती हैं जो अग्रभूमि जानवर के साथ परस्पर जुड़ी होती हैं, जो अग्रभूमि वस्तु के सही आकलन के लिए एक चुनौती पेश करती हैं। इस अध्ययन में सामने रखा एल्गोरिथ्म सफलतापूर्वक पृष्ठभूमि हस्तक्षेप के मुद्दे को संबोधित करता है और प्रभावी ढंग से अग्रभूमि वस्तु क्षेत्र पर प्रकाश डालता है। प्रयोग दर्शाता है कि प्रस्तावित एल्गोरिथ्म जटिल पृष्ठभूमि वाली छवियों से निपटने में उच्च सटीकता और सटीकता प्राप्त करता है।

चित्रा 8 बी में, ईसीएसएसडी डेटासेट के भीतर एक गुणात्मक तुलना प्रस्तुत की जाती है, जो विभिन्न प्रमुख ऑब्जेक्ट डिटेक्शन विधियों के दृश्य विपरीत परिणामों को प्रदर्शित करती है। निष्कर्ष बताते हैं कि प्रस्तावित एल्गोरिथ्म विविध और जटिल प्राकृतिक दृश्यों में बेहतर पहचान प्रदर्शन प्राप्त करता है। ये प्राकृतिक दृश्य छवियां पहली और दूसरी छवियों में छवि सीमाओं के संपर्क में मुख्य वस्तुओं और तीसरी छवि में अग्रभूमि और पृष्ठभूमि के बीच कम विपरीत और रंग समानता जैसे परिदृश्यों को शामिल करती हैं। इन दृश्य परिणामों के माध्यम से, यहां प्रस्तावित एल्गोरिथ्म स्पष्ट वस्तु सीमाओं को सुनिश्चित करते हुए पूर्ण मुख्य वस्तुओं को प्रभावी ढंग से उजागर करता है। मुख्य वस्तुओं के पैमाने के बावजूद, चाहे वे बड़े हों या छोटे, एल्गोरिथ्म लगातार उच्च विभाजन सटीकता प्रदर्शित करता है, इसकी प्रभावशीलता को मान्य करता है। इसके अलावा, अन्य तरीकों की तुलना में, इस अध्ययन में प्रस्तुत एल्गोरिथ्म उच्च मजबूती को प्रदर्शित करता है, लवणता क्षेत्रों (या पृष्ठभूमि क्षेत्रों) में झूठी पहचान को कम करता है।

Figure 1
चित्रा 1: समग्र संरचना ढांचा। प्रस्तावित मॉडल का योजनाबद्ध प्रतिनिधित्व। कृपया इस चित्र का एक बड़ा संस्करण देखने के लिए यहाँ क्लिक करें.

Figure 2
चित्र 2: पिक्सेल-स्तरीय डीसीएल मॉडल। एक पिक्सेल-स्तरीय डीसीएल मॉडल का उपयोग वीजीजी 16 की वास्तुकला के भीतर किया जाता है, जो एक गहरा दृढ़ तंत्रिका नेटवर्क है। प्रारंभिक चार अधिकतम पूलिंग परतें तीन गुठली के साथ परस्पर जुड़ी हुई हैं। कृपया इस चित्र का एक बड़ा संस्करण देखने के लिए यहाँ क्लिक करें.

Figure 3
चित्रा 3: एन्कोडिंग-डिकोडिंग नेटवर्क मॉडल (डीईडीएन)। गहरी विशेषताओं को किनारे का पता लगाने के काम से प्रेरित उथले सुविधाओं के साथ जोड़ा जाता है, जो एन्कोडर-डिकोडर नेटवर्क मॉडल (डीईडीएन) का प्रस्ताव करता है। कृपया इस चित्र का एक बड़ा संस्करण देखने के लिए यहाँ क्लिक करें.

Figure 4
चित्रा 4: जीयूआई इंटरफ़ेस। आसान संचालन के लिए जीयूआई इंटरफ़ेस उत्पन्न करने के लिए कोड चलाया जाता है। कृपया इस चित्र का एक बड़ा संस्करण देखने के लिए यहाँ क्लिक करें.

Figure 5
चित्रा 5: जीयूआई इंटरफ़ेस डेमो। परीक्षण छवि परिणामों की आसान तुलना के लिए जीयूआई इंटरफ़ेस प्रस्तुति। कृपया इस चित्र का एक बड़ा संस्करण देखने के लिए यहाँ क्लिक करें.

Figure 6
चित्रा 6: पृथक्करण प्रयोग के दृश्य परिणाम। () मूल छवि, (बी) डीसीएल एल्गोरिथ्म, (सी) डीईडीएन एल्गोरिथ्म, (डी) वर्तमान अध्ययन में उपयोग किए जाने वाले एल्गोरिथ्म, और () संबंधित जमीन-सच्चाई छवि बाएं से दाएं दिखाए जाते हैं। जैसा कि चित्रा 6 से देखा जा सकता है, (बी) डीसीएल एल्गोरिथ्म केवल छवियों का पता लगाने पर लक्ष्य सीमा का वर्णन कर सकता है, और पृष्ठभूमि को फ़िल्टर करना मुश्किल है। (सी) डीईडीएन एल्गोरिथ्म में लक्ष्य सीमा को मजबूत करने का प्रभाव है, लेकिन पृष्ठभूमि अतिरेक जानकारी को दबाना भी उतना ही मुश्किल है; जबकि (डी) इस पत्र में एल्गोरिथ्म इन दो एल्गोरिदम को एक पूरक तरीके से जोड़ता है, जटिल पृष्ठभूमि की अतिरेक जानकारी को दबाते हुए लक्ष्य को उजागर करता है। कृपया इस चित्र का एक बड़ा संस्करण देखने के लिए यहाँ क्लिक करें.

Figure 7
चित्र 7: P-R वक्र। (A) P-R वक्र SOD डेटाबेस में हैं और (B) P-R वक्र क्रमशः ECSSD डेटाबेस में हैं। () और (बी) दोनों में इस अध्ययन के एल्गोरिदम के पीआर घटता अन्य 10 एल्गोरिदम की तुलना में अधिक हैं, जो साबित होता है कि इस पेपर में एल्गोरिदम में इन 10 एल्गोरिदम के सापेक्ष उच्च सटीकता है। कृपया इस चित्र का एक बड़ा संस्करण देखने के लिए यहाँ क्लिक करें.

Figure 8
चित्रा 8: गुणात्मक तुलना। "एसओडी डेटाबेस () और ईसीएसएसडी डेटाबेस (बी) में क्रमशः विभिन्न प्रमुख ऑब्जेक्ट डिटेक्शन एल्गोरिदम की गुणात्मक तुलना। मूलइनपुट छवियों को बाएं से दाएं, जीएमआर, जीएस, एसएफ, पीडी, एसएस, डीआरएफआई, एमडीएफ, ईएलडी, डीएचएस और डीसीएल, इस अध्ययन में प्रस्तावित एल्गोरिथ्म और ग्राउंड-ट्रुथ मैप से प्रस्तुत किया गया है। जैसा कि () में देखा गया है, उल्लिखित एल्गोरिथ्म जटिल वातावरण में मुख्य वस्तुओं का पता लगाने में एक महत्वपूर्ण सुधार प्रदान करता है, जो अन्य मौजूदा एल्गोरिदम के प्रदर्शन को पार करता है। जैसा कि (बी) में देखा जा सकता है, इस अध्ययन में प्रस्तावित एल्गोरिथ्म में अन्य तरीकों की तुलना में अधिक मजबूती है क्योंकि यह मुख्य (या पृष्ठभूमि) क्षेत्रों की झूठी पहचान को कम करता है। कृपया इस चित्र का एक बड़ा संस्करण देखने के लिए यहाँ क्लिक करें.

नहीं। मॉड्यूल सेटिंग एफβ एमएई
क्रमांक 1 केवल डीसीएल को हटाना 0.835 0.117
क्रमांक 2 केवल DEDN को हटाना 0.832 0.126
क्रमांक 3 पूरा मॉड्यूल 0.854 0.110

तालिका 1: पृथक्करण प्रयोगों के परिणाम।

को गढ़ना आदमी ईसीएसएसडी
एफβ एमएई एफβ एमएई
जीएमआर 0.740 0.148 0.476 0.189
जी एस 0.677 0.188 0.355 0.344
एस एफ 0.779 0.150 0.309 0.230
पीडी 0.720 0.162 0.358 0.248
एस एस 0.574 0.225 0.268 0.344
डीआरएफआई 0.801 0.127 0.516 0.166
एमडीएफ 0.709 0.150 0.832 0.105
वृधावस्था 0.737 0.154 0.869 0.078
डीएचएस 0.812 0.127 0.907 0.059
डीसीएल 0.786 0.131 0.901 0.068
यह अध्ययन 0.854 0.110 0.938 0.044

तालिका 2: दो छवि डेटासेट में विभिन्न एल्गोरिदम के अधिकतम एफ-माप मान (एफβ) और एमएई (मीन एब्सोल्यूट एरर) मान।

Subscription Required. Please recommend JoVE to your librarian.

Discussion

लेख एक एंड-टू-एंड गहरे तंत्रिका नेटवर्क का परिचय देता है जिसे विशेष रूप से जटिल वातावरण में मुख्य वस्तुओं का पता लगाने के लिए डिज़ाइन किया गया है। नेटवर्क दो परस्पर जुड़े घटकों से बना है: एक पिक्सेल-स्तरीय मल्टीस्केल पूरी तरह से दृढ़ नेटवर्क (डीसीएल) और एक गहरा एनकोडर-डिकोडर नेटवर्क (डीईडीएन)। ये घटक सहक्रियात्मक रूप से काम करते हैं, मल्टीस्केल फीचर मैप्स के भीतर दृश्य विरोधाभास उत्पन्न करने के लिए प्रासंगिक शब्दार्थ को शामिल करते हैं। इसके अतिरिक्त, वे वस्तु सीमा परिसीमन की सटीकता में सुधार करने के लिए गहरी और उथली छवि सुविधाओं दोनों का लाभ उठाते हैं। पूरी तरह से जुड़े कंडीशनल रैंडम फील्ड (सीआरएफ) मॉडल का एकीकरण नम्रता मानचित्रों और समोच्च परिसीमन के स्थानिक सामंजस्य को और बढ़ाता है।

इस उद्देश्य को प्राप्त करने के लिए, वीजीजी 16 आर्किटेक्चर के आधार पर दो डीप नेटवर्क, अर्थात् डीप कॉन्टेक्स्ट लर्निंग (डीसीएल) नेटवर्क और डीप एनकोडर-डिकोडर नेटवर्क (डीईडीएन) का निर्माण किया गया था। जैसा कि परिचालन चरण 1.2 में बताया गया है, अलग-अलग ग्रहणशील क्षेत्रों की विशेषता वाले अलग-अलग पैमानों के डीसीएल उपज सुविधा मानचित्रों के माध्यम से संसाधित इनपुट छवियां। इन मानचित्रों को बाद में प्रासंगिक शब्दार्थ के साथ जोड़ा जाता है, अंततः अंतर-आयामी सुसंगतता रखने वाले आयाम डब्ल्यू × एच के साथ लवणता मानचित्र उत्पन्न करते हैं। विशेष रूप से, DCL11 मूल VGG16 नेटवर्क की अंतिम पूलिंग परत को बदलने के लिए 7 x 7 कर्नेल से सुसज्जित दृढ़ परतों की एक जोड़ी का उपयोग करता है। फीचर मैप्स के भीतर स्थानिक जानकारी को संरक्षित करने में यह संशोधन महत्वपूर्ण है। प्रासंगिक शब्दार्थ के सहयोग से, यह अंतर-आयामी सुसंगतता के साथ संपन्न नम्रता मानचित्रों में परिणत होता है।

इसके साथ ही, डीप एनकोडर-डिकोडर नेटवर्क (डीईडीएन)14 अपने डिकोडर सेक्शन में 3 x 3 कर्नेल कन्वेंशनल लेयर्स को नियोजित करता है, इसके बाद अंतिम डिकोडिंग मॉड्यूल के बाद एक एकान्त दृढ़ परत होती है। डीईडीएन द्वारा गहरी और उथले-स्तर की विशेषताओं का यह एकीकरण स्थानिक आयामों डब्ल्यू × एच के साथ लवणता मानचित्रों की पीढ़ी की सुविधा प्रदान करता है, जो अस्पष्ट वस्तु सीमाओं से जुड़ी चुनौतियों को संबोधित करता है। इस लेख में प्रस्तुत शोध मुख्य वस्तु का पता लगाने के लिए एक अग्रणी तकनीक का परिचय देता है, जैसा कि परिचालन चरण 1.3 में बताया गया है। यह DCL और DEDN मॉडल को एक प्रशिक्षण प्रक्रिया के माध्यम से एक एकीकृत नेटवर्क ढांचे में समाहित करता है जो इन दो गहरे नेटवर्कों के वजन को सीखता है और बाद में अधिग्रहित लवणता मानचित्रों को मर्ज करता है। पूरी तरह से जुड़े तरीके से सशर्त यादृच्छिक फ़ील्ड (सीआरएफ) को लागू करके आगे परिशोधन प्राप्त किया जाता है। इस शोधन का प्राथमिक उद्देश्य स्थानिक स्थिरता और समोच्च स्थानीयकरण को बढ़ाना है।

दोनों नेटवर्कों को VGG16 आर्किटेक्चर का उपयोग उनके तंत्रिका नेटवर्क रीढ़ के रूप में किया गया है, अंततः सशर्त रैंडम फील्ड्स (CRF) के माध्यम से फ़्यूज़िंग किया गया है। जबकि प्रस्तावित एल्गोरिथ्म जटिल वातावरण के भीतर लक्ष्य का पता लगाने के क्षेत्र में काफी क्षमता प्रदर्शित करता है, भविष्य की अनुसंधान पहलों को इसकी कम्प्यूटेशनल दक्षता बढ़ाने की दिशा में निर्देशित किया जाएगा। इसका उद्देश्य पता लगाने के प्रदर्शन से समझौता किए बिना बेहतर प्रसंस्करण गति प्राप्त करना है।

प्रस्तावित एल्गोरिथ्म एसओडी20 और ईसीएसएसडी21 डेटाबेस पर 10 समकालीन एल्गोरिदम के खिलाफ व्यापक मूल्यांकन से गुजरता है। मूल्यांकन के परिणाम बताते हैं कि प्रस्तावित एल्गोरिथ्म सटीकता और सटीकता के मामले में अन्य दृष्टिकोणों से बेहतर प्रदर्शन करता है, जटिल वातावरण के भीतर मुख्य वस्तु का पता लगाने में इसकी प्रभावकारिता स्थापित करता है। इसके अलावा, एल्गोरिथ्म विद्युत ऊर्जा प्रणालियों के क्षेत्र में दृश्य कार्यों के लिए हस्तांतरणीयता के लिए वादा दिखाता है। यह इंसुलेटर के विभाजन और बुद्धिमान पावर ग्रिड के भीतर जटिल वातावरण में आग के खतरों का शीघ्र पता लगाने जैसे अनुप्रयोगों के लिए महत्वपूर्ण क्षमता रखता है।

Subscription Required. Please recommend JoVE to your librarian.

Disclosures

लेखकों के पास खुलासा करने के लिए कुछ भी नहीं है।

Acknowledgments

यह काम 2024 हेनान प्रांतीय उच्च शिक्षा संस्थानों प्रमुख वैज्ञानिक अनुसंधान परियोजना वित्त पोषण कार्यक्रम स्थापना (परियोजना संख्या: 24A520053) द्वारा समर्थित है। यह अध्ययन हेनान प्रांत में विशिष्ट निर्माण और एकीकरण विशेषता प्रदर्शन पाठ्यक्रम निर्माण द्वारा भी समर्थित है।

Materials

Name Company Catalog Number Comments
Matlab MathWorks Matlab R2016a MATLAB's programming interface provides development tools for improving code quality maintainability and maximizing performance.
It provides tools for building applications using custom graphical interfaces.
It provides tools for combining MATLAB-based algorithms with external applications and languages
Processor  Intel 11th Gen Intel(R) Core (TM) i5-1135G7 @ 2.40GHz 64-bit Win11 processor 
Pycharm JetBrains PyCharm 3.0 PyCharm is a Python IDE (Integrated Development Environment)
a list of required python:
modulesmatplotlib
skimage
torch
os
time
pydensecrf
opencv
glob
PIL
torchvision
numpy
tkinter
PyTorch  Facebook PyTorch 1.4  PyTorch is an open source Python machine learning library , based on Torch , used for natural language processing and other applications.PyTorch can be viewed both as the addition of GPU support numpy , but also can be viewed as a powerful deep neural network with automatic derivatives .

DOWNLOAD MATERIALS LIST

References

  1. Wang, W. G., Shen, J. B., Ling, H. B. A deep network solution for attention and aesthetics aware photo cropping. IEEE Transactions on Pattern Analysis and Machine Intelligence. 41 (7), 1531-1544 (2018).
  2. Wang, W. G., Sun, G. L., Gool, L. V. Looking beyond single images for weakly supervised semantic segmentation learning. IEEE Transactions on Pattern Analysis and Machine. , (2022).
  3. Mei, H. L., et al. Exploring dense context for salient object detection. IEEE Transactions on Circuits and Systems for Video Technology. 32 (3), 1378-1389 (2021).
  4. Borji, A., Itti, L. State-of-the-art in visual attention modeling. IEEE Transactions on Pattern Analysis and Machine Intelligence. 35 (1), 185-207 (2012).
  5. Fully convolutional networks for semantic segmentation. Long, J., Shelhamer, E., Darrell, T. Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, , 3431-3440 (2015).
  6. Simonyan, K., Zisserman, A. Very deep convolutional networks for large-scale image recognition. arXiv preprint. , 1409-1556 (2014).
  7. Deep residual learning for image recognition. He, K., Zhang, X., Ren, S., Sun, J. Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, , 770-778 (2016).
  8. Dhsnet: Deep hierarchical saliency network for salient object detection. Liu, N., Han, J. Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, , 678-686 (2016).
  9. A bi-directional message passing model for salient object detection. Zhang, L., Dai, J., Lu, H., He, Y., Wang, G. Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, , 1741-1750 (2018).
  10. Wu, R., et al. A mutual learning method for salient object detection with intertwined multi-supervision. Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, , 8150-8159 (2019).
  11. Deep contrast learning for salient object detection. Li, G., Yu, Y. Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, , 478-487 (2019).
  12. Ren, Q., Hu, R. Multi-scale deep encoder-decoder network for salient object detection. Neurocomputing. 316, 95-104 (2018).
  13. Wang, W. G., et al. Salient object detection in the deep learning era: An in-depth survey. IEEE Transactions on Pattern Analysis and Machine Intelligence. 44 (6), 3239-3259 (2021).
  14. Zhou, T., et al. RGB-D salient object detection: A survey. Computational Visual Media. 7, 37-69 (2021).
  15. Fu, K., et al. Siamese network for RGB-D salient object detection and beyond. IEEE Transactions on Pattern Analysis and Machine Intelligence. 44 (9), 5541-5559 (2021).
  16. Lai, Q., et al. Weakly supervised visual saliency prediction. IEEE Transactions on Image Processing. 31, 3111-3124 (2022).
  17. A bi-directional message passing model for salient object detection. Zhang, L., Dai, J., Lu, H., He, Y., Wang, G. Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, , 1741-1750 (2018).
  18. A mutual learning method for salient object detection with intertwined multi-supervision. Wu, R. Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, , 8150-8159 (2019).
  19. Wang, W., Shen, J., Dong, X., Borji, A., Yang, R. Inferring salient objects from human fixations. IEEE Transactions on Pattern Analysis and Machine Intelligence. 42 (8), 1913-1927 (2019).
  20. Design and perceptual validation of performance measures for salient object segmentation. Movahedi, V., Elder, J. H. 2010 IEEE Computer Society Conference on Computer Vision and Pattern Recognition-Workshops, , 49-56 (2010).
  21. Shi, J., Yan, Q., Xu, L., Jia, J. Hierarchical image saliency detection on extended CSSD. IEEE Transactions on Pattern Analysis and Machine Intelligence. 38 (4), 717-729 (2015).
  22. Frequency-tuned salient region detection. Achanta, R., Hemami, S., Estrada, F., Susstrunk, S. 2009 IEEE Conference on Computer Vision and Pattern Recognition, , 1597-1604 (2009).
  23. Saliency detection via graph-based manifold ranking. Yang, C., Zhang, L., Lu, H., Ruan, X., Yang, M. H. Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, , 3166-3173 (2013).
  24. Wei, Y., et al. Geodesic saliency using background priors. Computer Vision-ECCV 2012. , Springer. Berlin Heidelberg. 29-42 (2012).
  25. What makes a patch distinct. Margolin, R., Tal, A., Zelnik-Manor, L. Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, , 1139-1146 (2013).
  26. Saliency filters: Contrast based filtering for salient region detection. Perazzi, F., Krähenbühl, P., Pritch, Y., Hornung, A. 2012 IEEE Conference on Computer Vision and Pattern Recognition, , 733-740 (2012).
  27. Hou, X., Harel, J., Koch, C. Image signature: Highlighting sparse salient regions. IEEE Transactions on Pattern Analysis and Machine Intelligence. 34 (1), 194-201 (2011).
  28. Salient object detection: A discriminative regional feature integration approach. Jiang, H., et al. Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, , 2083-2090 (2013).
  29. Visual saliency based on multiscale deep features. Li, G., Yu, Y. Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, , 5455-5463 (2015).
  30. Deep saliency with encoded low level distance map and high-level features. Lee, G., Tai, Y. W., Kim, J. Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, , 660-668 (2016).
  31. Dhsnet: Deep hierarchical saliency network for salient object detection. Liu, N., Han, J. Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, , 678-686 (2016).

Tags

इंजीनियरिंग अंक 202 जटिल वातावरण एंड-टू-एंड गहरे तंत्रिका नेटवर्क मुख्य वस्तु का पता लगाना
जटिल वातावरण में मुख्य वस्तु का पता लगाने के लिए एंड-टू-एंड डीप न्यूरल नेटवर्क
Play Video
PDF DOI DOWNLOAD MATERIALS LIST

Cite this Article

Wang, Y., Wang, Z. End-To-End DeepMore

Wang, Y., Wang, Z. End-To-End Deep Neural Network for Salient Object Detection in Complex Environments. J. Vis. Exp. (202), e65554, doi:10.3791/65554 (2023).

Less
Copy Citation Download Citation Reprints and Permissions
View Video

Get cutting-edge science videos from JoVE sent straight to your inbox every month.

Waiting X
Simple Hit Counter