End-To-End Deep Neural Network for Salient Object Detection in Complex Environments

Yu Wang; Zhiteng Wang

doi:10.3791/65554

JoVE Journal > Engineering

Please note that all translations are automatically generated. Click here for the English version.

Ingenieurwesen

شبكة عصبية عميقة من طرف إلى طرف لاكتشاف الأجسام البارزة في البيئات المعقدة

Published: December 15, 2023

doi:

10.3791/65554

Yu Wang, Zhiteng Wang

¹Zhengzhou University of Economics and Business, ²The 713 Research Institute of CSSC

Summary

ويصف هذا البروتوكول خوارزمية جديدة للكشف عن الأجسام البارزة من طرف إلى طرف. إنه يستفيد من الشبكات العصبية العميقة لتعزيز دقة اكتشاف الأشياء البارزة ضمن السياقات البيئية المعقدة.

Abstract

برز اكتشاف الأجسام البارزة كمجال اهتمام مزدهر في مجال رؤية الكمبيوتر. ومع ذلك ، تظهر الخوارزميات السائدة دقة متناقصة عند تكليفها باكتشاف الأشياء البارزة داخل بيئات معقدة ومتعددة الأوجه. في ضوء هذا القلق الملح ، تقدم هذه المقالة شبكة عصبية عميقة من طرف إلى طرف تهدف إلى اكتشاف الأشياء البارزة داخل البيئات المعقدة. تقدم الدراسة شبكة عصبية عميقة من طرف إلى طرف تهدف إلى اكتشاف الأشياء البارزة داخل البيئات المعقدة. تتألف الشبكة المقترحة من مكونين مترابطين ، وهما شبكة تلافيفية كاملة متعددة المقاييس على مستوى البكسل وشبكة فك تشفير عميقة ، وتدمج دلالات سياقية لإنتاج تباين مرئي عبر خرائط المعالم متعددة المقاييس مع استخدام ميزات الصورة العميقة والضحلة لتحسين دقة تحديد حدود الكائن. ويعزز تكامل نموذج الحقل العشوائي الشرطي المتصل بالكامل من التماسك المكاني وتحديد الكنتور للخرائط البارزة. يتم تقييم الخوارزمية المقترحة على نطاق واسع مقابل 10 خوارزميات معاصرة في قواعد بيانات SOD و ECSSD. تظهر نتائج التقييم أن الخوارزمية المقترحة تتفوق على الأساليب الأخرى من حيث الدقة والدقة ، وبالتالي تثبت فعاليتها في اكتشاف الأشياء البارزة في البيئات المعقدة.

Introduction

يحاكي اكتشاف الأجسام البارزة الانتباه البصري البشري ، ويحدد بسرعة مناطق الصورة الرئيسية مع قمع معلومات الخلفية. تستخدم هذه التقنية على نطاق واسع كأداة للمعالجة المسبقة في مهام مثل اقتصاص الصور¹ والتجزئة الدلالية² وتحرير الصور³. إنه يبسط المهام مثل استبدال الخلفية واستخراج المقدمة ، مما يحسن كفاءة التحرير والدقة. بالإضافة إلى ذلك ، فإنه يساعد في التجزئة الدلالية من خلال تعزيز توطين الهدف. إن إمكانات اكتشاف الأجسام البارزة لتعزيز الكفاءة الحسابية والحفاظ على الذاكرة تؤكد على آفاق البحث والتطبيق الهامة.

على مر السنين ، تطور اكتشاف الأشياء البارزة من الخوارزميات التقليدية الأولية إلى دمج خوارزميات التعلم العميق. كان الهدف من هذه التطورات هو تضييق الفجوة بين اكتشاف الأشياء البارزة والآليات البصرية البشرية. وقد أدى ذلك إلى اعتماد نماذج شبكة تلافيفية عميقة لدراسة اكتشاف الأجسام البارزة. قام Borji et ^al.4 بتلخيص وتعميم معظم الخوارزميات التقليدية الكلاسيكية ، والتي تعتمد على السمات الأساسية للصورة. على الرغم من بعض التحسن في دقة الكشف ، لا تزال التجربة اليدوية والإدراك تشكل تحديات لاكتشاف الأشياء البارزة في البيئات المعقدة.

ينتشر استخدام الشبكات العصبية التلافيفية (CNNs) في مجال اكتشاف الأشياء البارزة. في هذا السياق ، يتم استخدام الشبكات العصبية التلافيفية العميقة لتحديثات الوزن من خلال التعلم المستقل. تم استخدام الشبكات العصبية التلافيفية لاستخراج الدلالات السياقية من الصور من خلال استخدام الطبقات التلافيفية والتجميعية المتتالية ، مما يتيح تعلم ميزات الصورة المعقدة على مستويات أعلى ، والتي تتمتع بقدرة أعلى على التمييز والتوصيف لاكتشاف الأشياء البارزة في بيئات مختلفة.

في عام 2016 ، اكتسبت الشبكات العصبية التلافيفية^{بالكامل 5} قوة جذب كبيرة كنهج شائع للكشف عن الأجسام البارزة ، بناء على ذلك بدأ الباحثون في اكتشاف الأجسام البارزة على مستوى البكسل. عادة ما يتم بناء العديد من النماذج على الشبكات الحالية (على سبيل المثال ، VGG16⁶ ، ResNet⁷) ، بهدف تحسين تمثيل الصورة وتعزيز تأثير اكتشاف الحافة.

استخدم Liu et ^al.8 شبكة عصبية مدربة بالفعل كإطار لحساب الصورة عالميا ثم صقل حدود الكائن باستخدام شبكة هرمية. يشكل الجمع بين الشبكتين الشبكة النهائية العميقة البارزة. وقد تم تحقيق ذلك عن طريق تغذية الخريطة البارزة المكتسبة سابقا في الشبكة كمعرفة مسبقة بطريقة متكررة. قام Zhang et ^al.9 بدمج المعلومات الدلالية والمكانية للصور بشكل فعال باستخدام شبكات عميقة مع نقل المعلومات ثنائي الاتجاه من الطبقات الضحلة إلى العميقة ومن الطبقات العميقة إلى الضحلة ، على التوالي. تم طرح اكتشاف الأجسام البارزة باستخدام نموذج عميق للتعلم المتبادل بواسطة Wu et ^al.10. يستخدم النموذج معلومات المقدمة والحافة داخل شبكة عصبية تلافيفية لتسهيل عملية الكشف. استخدم Li et ^al.11 “خوارزمية الثقب” للشبكات العصبية لمواجهة التحدي المتمثل في إصلاح الحقول المستقبلة للطبقات المتنوعة في الشبكات العصبية العميقة في سياق اكتشاف الأشياء البارزة. ومع ذلك ، يتم استخدام تجزئة البكسل الفائقة لاكتساب حافة الكائن ، مما يزيد بشكل كبير من الجهد الحسابي ووقت الحوسبة. ابتكر Ren et ^al.12 شبكة فك تشفير متعددة المقاييس للكشف عن الأشياء البارزة واستخدم الشبكات العصبية التلافيفية للجمع بشكل فعال بين الميزات العميقة والضحلة. على الرغم من أن التحدي المتمثل في عدم وضوح الحدود في اكتشاف الأشياء يتم حله من خلال هذا النهج ، فإن الاندماج متعدد النطاقات للمعلومات يؤدي حتما إلى زيادة الطلبات الحسابية.

تقترح مراجعة الأدبيات¹³ أن يتم تلخيص اكتشاف البروز ، من الطرق التقليدية إلى طرق التعلم العميق ، ويمكن رؤية تطور اكتشاف الهدف البارز من أصوله إلى عصر التعلم العميق بوضوح شديد. تم اقتراح العديد من نماذج الكشف عن الأجسام البارزة المستندة إلى RGB-D ذات الأداء الجيد في الأدبيات¹⁴. تستعرض الأدبيات المذكورة أعلاه وتصنف الأنواع المختلفة من الخوارزميات لاكتشاف الكائنات البارزة وتصف سيناريوهات التطبيق وقواعد البيانات المستخدمة ومقاييس التقييم. تقدم هذه المقالة أيضا تحليلا نوعيا وكميا للخوارزميات المقترحة فيما يتعلق بقواعد البيانات ومقاييس التقييم المقترحة.

حصلت جميع الخوارزميات المذكورة أعلاه على نتائج ملحوظة في قواعد البيانات العامة ، مما يوفر أساسا للكشف عن الكائنات البارزة في البيئات المعقدة. على الرغم من وجود العديد من الإنجازات البحثية في هذا المجال على الصعيدين المحلي والدولي ، لا تزال هناك بعض القضايا التي يتعين معالجتها. (1) تميل خوارزميات التعلم غير العميق التقليدية إلى أن تكون منخفضة الدقة بسبب اعتمادها على الميزات المصنفة يدويا مثل اللون والملمس والتردد ، والتي يمكن أن تتأثر بسهولة بالتجربة والإدراك الذاتي. وبالتالي ، تتضاءل دقة قدراتها البارزة على اكتشاف الأجسام. يعد اكتشاف الأشياء البارزة في البيئات المعقدة باستخدام خوارزميات التعلم التقليدية غير العميقة أمرا صعبا نظرا لصعوبة التعامل مع السيناريوهات المعقدة. (2) تظهر الطرق التقليدية للكشف عن الأشياء البارزة دقة محدودة بسبب اعتمادها على الميزات المصنفة يدويا مثل اللون والملمس والتردد. بالإضافة إلى ذلك ، يمكن أن يكون الكشف على مستوى المنطقة مكلفا من الناحية الحسابية ، وغالبا ما يتجاهل الاتساق المكاني ، ويميل إلى اكتشاف حدود الكائنات بشكل سيئ. ويلزم معالجة هذه المسائل لتعزيز دقة الكشف عن الأجسام البارزة. (3) يمثل اكتشاف الكائنات البارزة في البيئات المعقدة تحديا لمعظم الخوارزميات. تواجه معظم خوارزميات الكشف عن الكائنات البارزة تحديات خطيرة بسبب بيئة الكشف عن الكائنات البارزة المتزايدة التعقيد ذات الخلفيات المتغيرة (ألوان الخلفية والمقدمة المتشابهة ، وأنسجة الخلفية المعقدة ، وما إلى ذلك) ، والعديد من أوجه عدم اليقين مثل أحجام كائنات الكشف غير المتسقة ، والتعريف غير الواضح لحواف المقدمة والخلفية.

تظهر معظم الخوارزميات الحالية دقة منخفضة في اكتشاف الكائنات البارزة في البيئات المعقدة ذات ألوان الخلفية والمقدمة المتشابهة ، وأنسجة الخلفية المعقدة ، والحواف غير الواضحة. على الرغم من أن خوارزميات الكائنات البارزة الحالية القائمة على التعلم العميق تظهر دقة أعلى من طرق الكشف التقليدية ، إلا أن ميزات الصورة الأساسية التي تستخدمها لا تزال قاصرة في توصيف الميزات الدلالية بشكل فعال ، مما يترك مجالا لتحسين أدائها.

باختصار ، تقترح هذه الدراسة شبكة عصبية عميقة من طرف إلى طرف لخوارزمية الكشف عن الأشياء البارزة ، بهدف تعزيز دقة اكتشاف الأشياء البارزة في البيئات المعقدة ، وتحسين حواف الهدف ، وتوصيف الميزات الدلالية بشكل أفضل. مساهمات هذه الورقة هي كما يلي: (1) تستخدم الشبكة الأولى VGG16 كشبكة أساسية وتعدل طبقات التجميع الخمس باستخدام “خوارزمية الثقب”¹¹. تتعلم الشبكة العصبية التلافيفية بالكامل متعددة المقاييس على مستوى البكسل ميزات الصورة من مقاييس مكانية مختلفة ، وتعالج التحدي المتمثل في الحقول المستقبلة الثابتة عبر طبقات مختلفة من الشبكات العصبية العميقة وتعزز دقة الكشف في مجالات التركيز المهمة في هذا المجال. (2) ركزت الجهود الأخيرة لتحسين دقة اكتشاف الأجسام البارزة على الاستفادة من الشبكات العصبية الأعمق ، مثل VGG16 ، لاستخراج كل من ميزات العمق من شبكة التشفير والميزات الضحلة من شبكة فك التشفير. يعزز هذا النهج بشكل فعال دقة الكشف عن حدود الكائنات ويحسن المعلومات الدلالية ، لا سيما في البيئات المعقدة ذات الخلفيات المتغيرة وأحجام الكائنات غير المتسقة والحدود غير الواضحة بين المقدمة والخلفية. (3) أكدت المساعي الأخيرة لتعزيز دقة اكتشاف الأجسام البارزة على استخدام شبكات أعمق ، بما في ذلك VGG16 ، لاستخراج ميزات عميقة من شبكة التشفير وميزات ضحلة من شبكة فك التشفير. أظهر هذا النهج تحسنا في الكشف عن حدود الكائن ومعلومات دلالية أكبر ، خاصة في البيئات المعقدة ذات الخلفيات المختلفة وأحجام الكائنات والحدود غير الواضحة بين المقدمة والخلفية. بالإضافة إلى ذلك ، تم تنفيذ تكامل نموذج حقل عشوائي شرطي متصل بالكامل (CRF) لزيادة التماسك المكاني والدقة الكنتورية للخرائط البارزة. تم تقييم فعالية هذا النهج على مجموعات بيانات SOD و ECSSD ذات الخلفيات المعقدة ووجد أنها ذات دلالة إحصائية.

الأعمال ذات الصلة
اقترح Fu et ^al.15 نهجا مشتركا باستخدام RGB والتعلم العميق لاكتشاف الأشياء البارزة. قدم Lai et ^al.16 نموذجا ضعيف الإشراف لاكتشاف الأشياء البارزة ، وتعلم البروز من التعليقات التوضيحية ، باستخدام تسميات الخربشة بشكل أساسي لتوفير وقت التعليقات التوضيحية. في حين أن هذه الخوارزميات قدمت اندماجا لشبكتين متكاملتين للكشف عن الأجسام البارزة ، إلا أنها تفتقر إلى التحقيق المتعمق في اكتشاف البروز في ظل سيناريوهات معقدة. صمم Wang et ^al.17 اندماجا تكراريا ثنائي الوضع لميزات الشبكة العصبية ، من أسفل إلى أعلى ومن أعلى إلى أسفل ، مما أدى إلى تحسين نتائج التكرار السابق تدريجيا حتى التقارب. قام Zhang et ^al.18 بدمج المعلومات الدلالية والمكانية للصور بشكل فعال باستخدام شبكات عميقة مع نقل المعلومات ثنائي الاتجاه من الطبقات الضحلة إلى العميقة ومن الطبقات العميقة إلى الضحلة ، على التوالي. تم اقتراح اكتشاف الأجسام البارزة باستخدام نموذج عميق للتعلم المتبادل بواسطة Wu et ^al.19. يستخدم النموذج معلومات المقدمة والحافة داخل شبكة عصبية تلافيفية لتسهيل عملية الكشف. حققت نماذج اكتشاف الأجسام البارزة القائمة على الشبكة العصبية العميقة أداء ملحوظا في مجموعات البيانات المتاحة للجمهور ، مما يتيح اكتشاف الأشياء البارزة في المشاهد الطبيعية المعقدة. ومع ذلك ، يظل تصميم نماذج أكثر تفوقا هدفا مهما في هذا المجال البحثي ويعمل كدافع أساسي لهذه الدراسة.

الإطار العام
التمثيل التخطيطي للنموذج المقترح ، كما هو موضح في الشكل 1 ، مشتق بشكل أساسي من بنية VGG16 ، التي تتضمن كلا من الشبكة العصبية التلافيفية متعددة المقاييس على مستوى البكسل (DCL) وشبكة فك التشفير العميق (DEDN). يلغي النموذج جميع طبقات التجميع النهائية والطبقات المتصلة بالكامل من VGG16 مع استيعاب أبعاد صورة الإدخال من W × H. تتضمن الآلية التشغيلية المعالجة الأولية لصورة الإدخال عبر DCL ، مما يسهل استخراج الميزات العميقة ، بينما يتم الحصول على الميزات الضحلة من شبكات DEDN. يخضع دمج هذه الخصائص لاحقا لنموذج حقل عشوائي شرطي متصل بالكامل (CRF) ، مما يزيد من التماسك المكاني والدقة الكنتورية للخرائط البارزة المنتجة.

للتأكد من فعالية النموذج ، خضع للاختبار والتحقق من صحة مجموعات بيانات SOD²⁰ و ECSSD²¹ ذات الخلفيات المعقدة. بعد مرور صورة الإدخال عبر DCL ، يتم الحصول على خرائط معالم مختلفة ذات حقول استقبال مختلفة ، ويتم دمج الدلالات السياقية لإنتاج خريطة بارزة W × H مع تماسك متعدد الأبعاد. يستخدم DCL زوجا من الطبقات التلافيفية مع حبات 7 × 7 لتحل محل طبقة التجميع النهائية لشبكة VGG16 الأصلية ، مما يعزز الحفاظ على المعلومات المكانية في خرائط الميزات. هذا ، جنبا إلى جنب مع الدلالات السياقية ، ينتج خريطة بارزة W × H مع تماسك متعدد الأبعاد. وبالمثل ، تستخدم شبكة فك التشفير العميق (DEDN) طبقات تلافيفية مع 3 × 3 حبات في أجهزة فك التشفير وطبقة تلافيفية واحدة بعد وحدة فك التشفير الأخيرة. من خلال الاستفادة من الميزات العميقة والضحلة للصورة ، من الممكن إنشاء خريطة بارزة ذات بعد مكاني ل W × H ، ومعالجة التحدي المتمثل في حدود الكائنات غير الواضحة. تصف الدراسة تقنية رائدة للكشف عن الأجسام البارزة التي تدمج نماذج DCL و DEDN في شبكة موحدة. يتم تعلم أوزان هاتين الشبكتين العميقتين من خلال عملية تدريب ، ويتم دمج خرائط البروز الناتجة ثم تحسينها باستخدام حقل عشوائي شرطي متصل بالكامل (CRF). الهدف الأساسي من هذا التحسين هو تحسين الاتساق المكاني وتوطين الكنتور.

شبكة عصبية تلافيفية بالكامل متعددة المقاييس على مستوى البكسل
تتكون بنية VGG16 في الأصل من خمس طبقات تجميع ، لكل منها خطوة 2. تقوم كل طبقة تجميع بضغط حجم الصورة لزيادة عدد القنوات، والحصول على المزيد من المعلومات السياقية. نموذج DCL مستوحى من الأدبيات¹³ وهو تحسين لإطار VGG16. في هذه المقالة ، يتم استخدام نموذج DCL على مستوى^{البكسل 11} ، كما هو موضح في الشكل 2 ضمن بنية VGG16 ، وهي شبكة عصبية تلافيفية عميقة. ترتبط طبقات التجميع الأربعة القصوى الأولية بثلاث حبات. النواة الأولى هي 3 × 3 × 128 ؛ النواة الثانية هي 1 × 1 × 128 ؛ والنواة الثالثة هي 1 × 1 × 1. لتحقيق حجم موحد لخرائط المعالم بعد طبقات التجميع الأربع الأولية، المتصلة بثلاث نواة، مع كل حجم يعادل ثمن الصورة الأصلية، يتم تعيين حجم خطوة النواة الأولى المتصلة بطبقات التجميع الأربع الكبرى هذه على 4 و 2 و 1 و 1 على التوالي.

للحفاظ على الحقل المستقبلي الأصلي في النواة المختلفة ، يتم استخدام “خوارزمية الثقب” المقترحة في الأدبيات¹¹ لتوسيع حجم النواة عن طريق إضافة الأصفار ، وبالتالي الحفاظ على سلامة النواة. ترتبط خرائط المعالم الأربعة هذه بالنواة الأولى بأحجام خطوات مختلفة. وبالتالي ، فإن خرائط المعالم المنتجة في المرحلة النهائية لها أبعاد متطابقة. تشكل خرائط المعالم الأربعة مجموعة من المعالم متعددة المقاييس التي تم الحصول عليها من مقاييس مختلفة ، كل منها يمثل أحجاما مختلفة من الحقول المستقبلة. يتم ربط خرائط المعالم الناتجة التي تم الحصول عليها من الطبقات الوسيطة الأربع مع خريطة المعالم النهائية المشتقة من VGG16 ، وبالتالي توليد إخراج 5 قنوات. يخضع الناتج التالي لاحقا لنواة 1 × 1 × 1 مع وظيفة التنشيط السيني ، مما ينتج في النهاية الخريطة البارزة (بدقة ثمن الصورة الأصلية). يتم أخذ عينات من الصورة وتكبيرها باستخدام الاستيفاء ثنائي الخطوط ، مما يضمن أن الصورة الناتجة ، المشار إليها باسم الخريطة البارزة ، تحافظ على دقة مماثلة للصورة الأولية.

شبكة فك التشفير العميقة
وبالمثل ، يتم استخدام شبكة VGG16 كشبكة العمود الفقري. يتميز VGG16 بعدد قليل من قنوات خريطة المعالم الضحلة ولكن دقة عالية وعدد كبير من قنوات المعالم العميقة ولكن دقة منخفضة. يؤدي تجميع الطبقات وأخذ العينات إلى زيادة السرعة الحسابية للشبكة العميقة على حساب تقليل دقة خريطة المعالم. لمعالجة هذه المشكلة ، بعد التحليل في الأدبيات¹⁴ ، يتم استخدام شبكة التشفير لتعديل الاتصال الكامل لطبقة التجميع الأخيرة في VGG16 الأصلي. يتضمن هذا التعديل استبداله بطبقتين تلافيفيتين ب 7 × 7 حبات (تزيد النوى التلافيفية الأكبر من مجال الاستقبال). تم تجهيز كل من نواة الالتفاف بعملية تطبيع (BN) ووحدة خطية معدلة (ReLU). ينتج عن هذا الضبط خريطة معالم إخراج برنامج التشفير التي تحافظ بشكل أفضل على معلومات مساحة الصورة.

بينما يعمل المشفر على تحسين دلالات الصورة عالية المستوى من أجل التوطين العالمي للكائنات البارزة ، فإن مشكلة طمس الحدود لكائنه البارز لم يتم تحسينها بشكل فعال. لمعالجة هذه المشكلة ، يتم دمج الميزات العميقة مع الميزات الضحلة ، المستوحاة من أعمال اكتشاف الحافة¹² ، واقتراح نموذج شبكة فك التشفير (DEDN) كما هو موضح في الشكل 3. تتكون بنية التشفير من ثلاث نواة مترابطة مع الأربعة الأولية ، بينما تعمل وحدة فك التشفير بشكل منهجي على تحسين دقة خريطة المعالم باستخدام القيم القصوى المستردة من طبقات التجميع القصوى.

في هذه المنهجية المبتكرة للكشف عن الأجسام البارزة ، أثناء مرحلة فك التشفير ، يتم استخدام طبقة تلافيفية ذات نواة 3 × 3 مع طبقة تطبيع الدفعات ووحدة خطية مكيفة. في ختام وحدة فك التشفير النهائية داخل بنية وحدة فك التشفير ، يتم استخدام طبقة تلافيفية أحادية القناة للحصول على خريطة بارزة للأبعاد المكانية W × H. يتم إنشاء الخريطة البارزة من خلال اندماج تعاوني لنموذج فك التشفير ، مما يؤدي إلى النتيجة ، والاندماج التكميلي للاثنين ، أي الاندماج التكميلي للمعلومات العميقة والمعلومات الضحلة. هذا لا يحقق فقط توطينا دقيقا للكائن البارز ويزيد من المجال المستقبلي ولكنه يحافظ أيضا بشكل فعال على معلومات تفاصيل الصورة ويقوي حدود الكائن البارز.

آلية التكامل
تتكون بنية التشفير من ثلاث نواة ، والتي ترتبط بطبقات التجميع الأربعة القصوى الأولية لنموذج VGG16. في المقابل ، تمت صياغة وحدة فك التشفير عن قصد لزيادة دقة خرائط المعالم التي تم الحصول عليها من طبقات أخذ العينات بشكل تدريجي عن طريق تسخير القيم القصوى التي تم الحصول عليها من طبقات التجميع المقابلة. ثم يتم استخدام طبقة تلافيفية تستخدم نواة 3 × 3 ، وطبقة تطبيع دفعة ، ووحدة خطية معدلة في وحدة فك التشفير ، تليها طبقة تلافيفية أحادية القناة لإنشاء خريطة بارزة للأبعاد W × H. يتم تعلم أوزان الشبكتين العميقتين من خلال دورات التدريب المتناوبة. تم الحفاظ على معلمات الشبكة الأولى ثابتة ، بينما خضعت معلمات الشبكة الثانية للتدريب لما مجموعه خمسين دورة. أثناء العملية ، يتم تحديث أوزان خريطة البروز (^S1 و ^S2) المستخدمة للاندماج عبر تدرج عشوائي. دالة الخسارة¹¹ هي:

(1)

في التعبير المحدد ، يمثل الرمز G القيمة المسماة يدويا ، بينما يشير W إلى المجموعة الكاملة من معلمات الشبكة. يعمل الوزن β_i كعامل موازنة لتنظيم نسبة وحدات البكسل البارزة مقابل وحدات البكسل غير البارزة في عملية الحساب.

تتميز الصورة I بثلاثة معلمات: |أنا|, |أنا|_– و |أنا|₊ ، والتي تمثل إجمالي عدد وحدات البكسل وعدد وحدات البكسل غير البارزة وعدد وحدات البكسل البارزة على التوالي.

نظرا لأن الخرائط البارزة التي تم الحصول عليها من الشبكتين المذكورتين أعلاه لا تأخذ في الاعتبار تماسك وحدات البكسل المجاورة ، يتم استخدام نموذج تحسين البروز المتصل بالكامل على مستوى البكسل CRF¹⁵ لتحسين التماسك المكاني. معادلة الطاقة¹¹ هي كما يلي ، حل مشكلة تسمية البكسل الثنائي.

(2)

حيث تشير L إلى التسمية الثنائية (القيمة البارزة أو القيمة غير البارزة) المخصصة لجميع وحدات البكسل. يشير المتغير P (l_i) إلى احتمال تعيين بكسل معين x_iلتسمية معينة l_i ، مما يشير إلى احتمال أن يكون البكسل x_iبارزا. في البداية ، P (1) = S_iو P (0) = 1 – S_i ، حيث تشير S_iإلى قيمة البروز عند البكسل x_iداخل خريطة البروز المنصهرة S. θ_i,j(l_i,l _j) هي الإمكانات الزوجية ، المعرفة على النحو التالي.

(3)

من بينها ، إذا كانت l_i ≠ l_j ، فإن μ (l_i ، l_j) = 1 ، وإلا μ (l_i ، l_j) = 0. يتضمن حساب θ_i,j استخدام نواتين ، حيث تعتمد النواة الأولية على كل من موضع البكسل P وكثافة البكسل I. ينتج عن هذا قرب وحدات البكسل ذات الألوان المتشابهة التي تظهر قيم بروز مماثلة. تنظم المعلمتان ، σ_α و _{σ β} ، مدى تأثير تشابه اللون والقرب المكاني على النتيجة. الهدف من النواة الثانية هو القضاء على المناطق الصغيرة المعزولة. يتم تحقيق تقليل الطاقة من خلال التصفية عالية الأبعاد ، مما يسرع المجال المتوسط لتوزيع الحقل العشوائي الشرطي (CRF). عند الحساب ، تظهر الخريطة البارزة المشار إليها باسم _{S crf} تماسكا مكانيا ومحيطا معززين فيما يتعلق بالأشياء البارزة المكتشفة.

التكوينات التجريبية
في هذه المقالة ، يتم إنشاء شبكة عميقة للكشف عن الهدف البارز استنادا إلى الشبكة العصبية VGG16 باستخدام Python. تمت مقارنة النموذج المقترح مع طرق أخرى باستخدام مجموعات بيانات SOD²⁰ و ECSSD²¹ . تشتهر قاعدة بيانات صور SOD بخلفياتها المعقدة والمزدحمة ، والتشابه في الألوان بين المقدمة والخلفية ، وأحجام الكائنات الصغيرة. يتم تعيين قيمة حقيقية مسماة يدويا لكل صورة في مجموعة البيانات هذه لكل من تقييم الأداء الكمي والنوعي. ومن ناحية أخرى، تتألف مجموعة بيانات المركز في المقام الأول من صور مصدرها الإنترنت، وتعرض مشاهد طبيعية أكثر تعقيدا وواقعية مع تباين منخفض بين خلفية الصورة والأشياء البارزة.

تتضمن مؤشرات التقييم المستخدمة لمقارنة النموذج في هذا البحث منحنى Precision-Recall شائع الاستخدام و F_βو E_MAE. لإجراء تقييم كمي لخريطة البروز المتوقعة ، يتم استخدام منحنى Precision-Recall (P-R)²² عن طريق تغيير العتبة من 0 إلى 255 لإضفاء الطابع الثنائي على خريطة البروز. F_βهو مقياس تقييم شامل ، محسوب بمعادلات الدقة والاستدعاء المشتقة من الخريطة البارزة الثنائية وخريطة القيمة الحقيقية.

(4)

حيث β هي معلمة الوزن لضبط الدقة والاستدعاء ، β^{الإعداد 2} = 0.3. حساب E_MAEيعادل حساب متوسط الخطأ المطلق بين خريطة البروز الناتجة وخريطة الحقيقة الأرضية ، كما هو محدد في التعبير الرياضي التالي:

(5)

دع T_s (u، v) تشير إلى القيمة المستخرجة لبكسل الخريطة البارزة (u، v) ، ودع T_G (u، v) تشير إلى القيمة المقابلة للخريطة الحقيقية (u، v) بكسل.

Protocol

1. الإعداد التجريبي والإجراءات قم بتحميل طراز VGG16 المدرب مسبقا.ملاحظة: الخطوة الأولى هي تحميل طراز VGG16 المدرب مسبقا من مكتبة Keras6.لتحميل نموذج VGG16 مدرب مسبقا في Python باستخدام مكتبات التعلم العميق الشائعة مثل PyTorch (انظر جدول المواد) ، اتبع الخطوات الع?…

Representative Results

تقدم هذه الدراسة شبكة عصبية عميقة من طرف إلى طرف تتكون من شبكتين متكاملتين: شبكة تلافيفية كاملة متعددة المقاييس على مستوى البكسل وشبكة فك تشفير عميقة. تدمج الشبكة الأولى الدلالات السياقية لاشتقاق التناقضات البصرية من خرائط المعالم متعددة المقاييس ، ومعالجة التحدي المتمثل في الحقول المس?…

Discussion

يقدم المقال شبكة عصبية عميقة من طرف إلى طرف مصممة خصيصا للكشف عن الأشياء البارزة في البيئات المعقدة. تتكون الشبكة من مكونين مترابطين: شبكة تلافيفية كاملة متعددة المقاييس على مستوى البكسل (DCL) وشبكة فك تشفير عميقة (DEDN). تعمل هذه المكونات بشكل تآزري ، حيث تتضمن الدلالات السياقية لتوليد تباينا…

Offenlegungen

The authors have nothing to disclose.

Acknowledgements

يتم دعم هذا العمل من قبل مؤسسة تمويل مشروع البحث العلمي الرئيسي لمؤسسات التعليم العالي في مقاطعة خنان لعام 2024 (رقم المشروع: 24A520053). يتم دعم هذه الدراسة أيضا من خلال بناء دورة توضيحية متخصصة في الإنشاء والتكامل في مقاطعة خنان.

Materials

Matlab	MathWorks	Matlab R2016a	MATLAB's programming interface provides development tools for improving code quality maintainability and maximizing performance. It provides tools for building applications using custom graphical interfaces. It provides tools for combining MATLAB-based algorithms with external applications and languages
Processor	Intel	11th Gen Intel(R) Core (TM) i5-1135G7 @ 2.40GHz	64-bit Win11 processor
Pycharm	JetBrains	PyCharm 3.0	PyCharm is a Python IDE (Integrated Development Environment) a list of required python: modulesmatplotlib skimage torch os time pydensecrf opencv glob PIL torchvision numpy tkinter
PyTorch	Facebook	PyTorch 1.4	PyTorch is an open source Python machine learning library , based on Torch , used for natural language processing and other applications.PyTorch can be viewed both as the addition of GPU support numpy , but also can be viewed as a powerful deep neural network with automatic derivatives .

Referenzen

Wang, W. G., Shen, J. B., Ling, H. B. A deep network solution for attention and aesthetics aware photo cropping. IEEE Transactions on Pattern Analysis and Machine Intelligence. 41 (7), 1531-1544 (2018).
Wang, W. G., Sun, G. L., Gool, L. V. Looking beyond single images for weakly supervised semantic segmentation learning. IEEE Transactions on Pattern Analysis and Machine. , (2022).
Mei, H. L., et al. Exploring dense context for salient object detection. IEEE Transactions on Circuits and Systems for Video Technology. 32 (3), 1378-1389 (2021).
Borji, A., Itti, L. State-of-the-art in visual attention modeling. IEEE Transactions on Pattern Analysis and Machine Intelligence. 35 (1), 185-207 (2012).
Long, J., Shelhamer, E., Darrell, T. Fully convolutional networks for semantic segmentation. , 3431-3440 (2015).
Simonyan, K., Zisserman, A. Very deep convolutional networks for large-scale image recognition. arXiv preprint. , 1409-1556 (2014).
He, K., Zhang, X., Ren, S., Sun, J. Deep residual learning for image recognition. , 770-778 (2016).
Liu, N., Han, J. Dhsnet: Deep hierarchical saliency network for salient object detection. , 678-686 (2016).
Zhang, L., Dai, J., Lu, H., He, Y., Wang, G. A bi-directional message passing model for salient object detection. , 1741-1750 (2018).
Wu, R., et al. A mutual learning method for salient object detection with intertwined multi-supervision. , 8150-8159 (2019).
Li, G., Yu, Y. Deep contrast learning for salient object detection. , 478-487 (2019).
Ren, Q., Hu, R. Multi-scale deep encoder-decoder network for salient object detection. Neurocomputing. 316, 95-104 (2018).
Wang, W. G., et al. Salient object detection in the deep learning era: An in-depth survey. IEEE Transactions on Pattern Analysis and Machine Intelligence. 44 (6), 3239-3259 (2021).
Zhou, T., et al. RGB-D salient object detection: A survey. Computational Visual Media. 7, 37-69 (2021).
Fu, K., et al. Siamese network for RGB-D salient object detection and beyond. IEEE Transactions on Pattern Analysis and Machine Intelligence. 44 (9), 5541-5559 (2021).
Lai, Q., et al. Weakly supervised visual saliency prediction. IEEE Transactions on Image Processing. 31, 3111-3124 (2022).
Zhang, L., Dai, J., Lu, H., He, Y., Wang, G. A bi-directional message passing model for salient object detection. , 1741-1750 (2018).
Wu, R. A mutual learning method for salient object detection with intertwined multi-supervision. , 8150-8159 (2019).
Wang, W., Shen, J., Dong, X., Borji, A., Yang, R. Inferring salient objects from human fixations. IEEE Transactions on Pattern Analysis and Machine Intelligence. 42 (8), 1913-1927 (2019).
Movahedi, V., Elder, J. H. Design and perceptual validation of performance measures for salient object segmentation. , 49-56 (2010).
Shi, J., Yan, Q., Xu, L., Jia, J. Hierarchical image saliency detection on extended CSSD. IEEE Transactions on Pattern Analysis and Machine Intelligence. 38 (4), 717-729 (2015).
Achanta, R., Hemami, S., Estrada, F., Susstrunk, S. Frequency-tuned salient region detection. , 1597-1604 (2009).
Yang, C., Zhang, L., Lu, H., Ruan, X., Yang, M. H. Saliency detection via graph-based manifold ranking. , 3166-3173 (2013).
Wei, Y., et al. Geodesic saliency using background priors. Computer Vision-ECCV 2012. , 29-42 (2012).
Margolin, R., Tal, A., Zelnik-Manor, L. What makes a patch distinct. , 1139-1146 (2013).
Perazzi, F., Krähenbühl, P., Pritch, Y., Hornung, A. Saliency filters: Contrast based filtering for salient region detection. , 733-740 (2012).
Hou, X., Harel, J., Koch, C. Image signature: Highlighting sparse salient regions. IEEE Transactions on Pattern Analysis and Machine Intelligence. 34 (1), 194-201 (2011).
Jiang, H., et al. Salient object detection: A discriminative regional feature integration approach. , 2083-2090 (2013).
Li, G., Yu, Y. Visual saliency based on multiscale deep features. , 5455-5463 (2015).
Lee, G., Tai, Y. W., Kim, J. Deep saliency with encoded low level distance map and high-level features. , 660-668 (2016).
Liu, N., Han, J. Dhsnet: Deep hierarchical saliency network for salient object detection. , 678-686 (2016).

Play Video

PDF

DOI

DOWNLOAD MATERIALS LIST

Diesen Artikel zitieren

Wang, Y., Wang, Z. End-To-End Deep Neural Network for Salient Object Detection in Complex Environments. J. Vis. Exp. (202), e65554, doi:10.3791/65554 (2023).