End-To-End Deep Neural Network for Salient Object Detection in Complex Environments

Yu Wang; Zhiteng Wang

doi:10.3791/65554

JoVE Journal > Engineering

Please note that all translations are automatically generated. Click here for the English version.

工学

רשת עצבית עמוקה מקצה לקצה לזיהוי עצמים בולטים בסביבות מורכבות

Published: December 15, 2023

doi:

10.3791/65554

Yu Wang¹, Zhiteng Wang²

¹Zhengzhou University of Economics and Business, ²The 713 Research Institute of CSSC

概要

הפרוטוקול הנוכחי מתאר אלגוריתם חדשני לזיהוי אובייקטים בולטים מקצה לקצה. הוא ממנף רשתות עצביות עמוקות כדי לשפר את הדיוק של זיהוי אובייקטים בולטים בהקשרים סביבתיים מורכבים.

Abstract

זיהוי אובייקטים בולטים התגלה כתחום עניין מתפתח בתחום הראייה הממוחשבת. עם זאת, האלגוריתמים הרווחים מפגינים דיוק מופחת כאשר הם נדרשים לזהות עצמים בולטים בסביבות מורכבות ומרובות פנים. לאור דאגה דחופה זו, מאמר זה מציג רשת עצבית עמוקה מקצה לקצה שמטרתה לזהות עצמים בולטים בסביבות מורכבות. המחקר מציג רשת עצבית עמוקה מקצה לקצה שמטרתה לזהות עצמים בולטים בסביבות מורכבות. הרשת המוצעת, המורכבת משני רכיבים הקשורים זה בזה, כלומר רשת קונבולוציה מלאה רב-ממדית ברמת הפיקסל ורשת מקודדת-מפענח עמוקה, משלבת סמנטיקה הקשרית כדי לייצר ניגודיות חזותית על פני מפות תכונות בקנה מידה רב-ממדי תוך שימוש בתכונות תמונה עמוקות ורדודות כדי לשפר את הדיוק של זיהוי גבולות אובייקט. השילוב של מודל שדה אקראי מותנה מחובר במלואו (CRF) משפר עוד יותר את הקוהרנטיות המרחבית ואת תיחום קווי המתאר של מפות בולטות. האלגוריתם המוצע נבחן בהרחבה מול 10 אלגוריתמים עכשוויים במסדי הנתונים SOD ו-ECSSD. תוצאות ההערכה מראות כי האלגוריתם המוצע עולה בביצועיו על גישות אחרות במונחים של דיוק ודיוק, ובכך מבסס את יעילותו בזיהוי עצמים בולטים בסביבות מורכבות.

Introduction

זיהוי אובייקטים בולט מחקה את תשומת הלב החזותית האנושית, ומזהה במהירות אזורי מפתח בתמונה תוך העלמת נתוני רקע. טכניקה זו נמצאת בשימוש נרחב ככלי קדם-עיבוד במשימות כגון חיתוך תמונה¹, סגמנטציה סמנטית² ועריכת תמונה³. הוא מייעל משימות כמו החלפת רקע וחילוץ חזית, ומשפר את יעילות העריכה והדיוק. בנוסף, הוא מסייע בפילוח סמנטי על ידי שיפור לוקליזציה של מטרות. הפוטנציאל של זיהוי אובייקטים בולטים לשיפור היעילות החישובית ולשימור הזיכרון מדגיש את סיכויי המחקר והיישום המשמעותיים שלה.

במהלך השנים, זיהוי אובייקטים בולט התפתח מאלגוריתמים מסורתיים ראשוניים לשילוב של אלגוריתמים של למידה עמוקה. מטרת פיתוחים אלה הייתה לצמצם את הפער בין זיהוי אובייקטים בולטים לבין מנגנוני ראייה אנושיים. זה הוביל לאימוץ מודלים של רשת קונבולוציה עמוקה לחקר זיהוי אובייקטים בולטים. Borji et ^al.4 סיכמו והכלילו את רוב האלגוריתמים המסורתיים הקלאסיים, המסתמכים על התכונות הבסיסיות של התמונה. למרות שיפור מסוים בדיוק האיתור, החוויה הידנית והקוגניציה ממשיכים להציב אתגרים לזיהוי אובייקטים בולטים בסביבות מורכבות.

השימוש ברשתות עצביות קונבולוציוניות (CNNs) נפוץ בתחום זיהוי עצמים בולטים. בהקשר זה, רשתות עצביות קונבולוציוניות עמוקות מנוצלות לעדכוני משקל באמצעות למידה אוטונומית. רשתות עצביות קונבולוציוניות שימשו לחילוץ סמנטיקה הקשרית מתמונות באמצעות שימוש בשכבות קונבולוציה ואיגום מדורגות, מה שמאפשר למידה של תכונות תמונה מורכבות ברמות גבוהות יותר, שיש להן יכולת הבחנה ואפיון גבוהה יותר לזיהוי אובייקטים בולטים בסביבות שונות.

בשנת 2016, רשתות עצביות קונבולוציוניות מלאות⁵ צברו אחיזה משמעותית כגישה פופולרית לזיהוי עצמים בולטים, שעל בסיסה החלו החוקרים בזיהוי עצמים בולטים ברמת הפיקסל. מודלים רבים בנויים בדרך כלל על רשתות קיימות (למשל, VGG16⁶, ResNet⁷), שמטרתם לשפר את ייצוג התמונה ולחזק את ההשפעה של זיהוי קצה.

Liu et ^al.8 השתמשו ברשת עצבית שכבר אומנה כמסגרת לחישוב התמונה באופן גלובלי ולאחר מכן זיקקו את גבול האובייקט באמצעות רשת היררכית. השילוב של שתי הרשתות יוצר את רשת הסליינסי העמוקה הסופית. זה הושג על ידי הזנת המפה הבולטת שנרכשה בעבר לתוך הרשת כידע מוקדם באופן חוזר. Zhang et ^al.9 התיכו ביעילות מידע סמנטי ומרחבי באמצעות רשתות עמוקות עם העברת מידע דו-כיוונית משכבות רדודות לעמוקות ומעמוקות לרדודות, בהתאמה. זיהוי אובייקטים בולטים באמצעות מודל עמוק של למידה הדדית הוצע על ידי Wu et ^al.10. המודל משתמש במידע חזיתי וקצה בתוך רשת עצבית קונבולוציונית כדי להקל על תהליך הזיהוי. Li et ^al.11 השתמשו ב”אלגוריתם החור” של רשתות עצביות כדי להתמודד עם האתגר של תיקון שדות הקלט של שכבות מגוונות ברשתות עצביות עמוקות בהקשר של זיהוי אובייקטים בולטים. עם זאת, סגמנטציה של סופר-פיקסלים משמשת לרכישת קצה אובייקט, מה שמגדיל מאוד את המאמץ החישובי ואת זמן המחשוב. Ren et ^al.12 פיתחו רשת מקודד-מפענח רב-ממדית כדי לזהות עצמים בולטים והשתמשו ברשתות עצביות קונבולוציוניות כדי לשלב ביעילות תכונות עמוקות ורדודות. למרות שהאתגר של טשטוש גבולות בזיהוי אובייקטים נפתר באמצעות גישה זו, המיזוג הרב-ממדי של מידע מוביל באופן בלתי נמנע לדרישות חישוביות מוגברות.

סקירת הספרות¹³ מציעה לסכם את זיהוי הסליינסי, משיטות מסורתיות לשיטות למידה עמוקה, וניתן לראות בבירור את האבולוציה של זיהוי מטרות סלנסי ממקורותיו לעידן הלמידה העמוקה. מודלים שונים לזיהוי עצמים בולטים מבוססי RGB-D עם ביצועים טובים הוצעו בספרות¹⁴. הספרות לעיל סוקרת ומסווגת את סוגי האלגוריתמים השונים לזיהוי אובייקטים של סלינסי ומתארת את תרחישי היישום שלהם, את מסדי הנתונים שבהם נעשה שימוש ואת מדדי ההערכה. מאמר זה מספק גם ניתוח איכותני וכמותי של האלגוריתמים המוצעים בנוגע למסדי הנתונים המוצעים שלהם ולמדדי ההערכה שלהם.

כל האלגוריתמים הנ”ל השיגו תוצאות מדהימות במסדי נתונים ציבוריים, המספקים בסיס לזיהוי אובייקטים בולטים בסביבות מורכבות. למרות שהיו הישגים מחקריים רבים בתחום זה הן בארץ והן בעולם, יש עדיין כמה נושאים שיש לטפל בהם. (1) אלגוריתמים מסורתיים שאינם למידה עמוקה נוטים להיות בעלי דיוק נמוך בשל הסתמכותם על תכונות המסומנות ידנית כגון צבע, מרקם ותדירות, אשר יכולות להיות מושפעות בקלות מחוויה ותפיסה סובייקטיבית. כתוצאה מכך, הדיוק של יכולות זיהוי האובייקטים הבולטות שלהם פוחת. איתור אובייקטים בולטים בסביבות מורכבות באמצעות אלגוריתמים מסורתיים שאינם למידה עמוקה הוא מאתגר בשל הקושי שלהם להתמודד עם תרחישים מורכבים. (2) שיטות קונבנציונליות לזיהוי עצמים בולטים מציגות דיוק מוגבל בשל תלותן בתכונות המסומנות ידנית כגון צבע, מרקם ותדירות. בנוסף, זיהוי ברמת האזור יכול להיות יקר מבחינה חישובית, לעתים קרובות תוך התעלמות מעקביות מרחבית, ונוטה לזהות גבולות אובייקט בצורה גרועה. יש לטפל בבעיות אלה כדי לשפר את הדיוק של זיהוי אובייקטים בולטים. (3) זיהוי עצמים בולטים בסביבות מורכבות מהווה אתגר לרוב האלגוריתמים. רוב האלגוריתמים הבולטים לזיהוי אובייקטים מתמודדים עם אתגרים רציניים עקב סביבת זיהוי אובייקטים בולטת מורכבת יותר ויותר עם רקעים משתנים (צבעי רקע וחזית דומים, מרקמי רקע מורכבים וכו ‘), אי ודאויות רבות כגון גדלי אובייקט זיהוי לא עקביים, וההגדרה הלא ברורה של קצוות חזית ורקע.

רוב האלגוריתמים הנוכחיים מפגינים דיוק נמוך בזיהוי עצמים בולטים בסביבות מורכבות עם צבעי רקע וחזית דומים, מרקמי רקע מורכבים וקצוות מטושטשים. למרות שהאלגוריתמים הנוכחיים של אובייקטים בולטים מבוססי למידה עמוקה מפגינים דיוק גבוה יותר מאשר שיטות זיהוי מסורתיות, תכונות התמונה הבסיסיות שבהן הם משתמשים עדיין נכשלות באפיון תכונות סמנטיות ביעילות, ומשאירות מקום לשיפור הביצועים שלהן.

לסיכום, מחקר זה מציע רשת עצבית עמוקה מקצה לקצה עבור אלגוריתם זיהוי אובייקטים בולטים, במטרה לשפר את הדיוק של זיהוי אובייקטים בולטים בסביבות מורכבות, לשפר את קצוות המטרה ולאפיין טוב יותר תכונות סמנטיות. התרומות של מאמר זה הן כדלקמן: (1) הרשת הראשונה משתמשת ב- VGG16 כרשת הבסיס ומשנה את חמש שכבות האיגום שלה באמצעות ‘אלגוריתם ^{החור’11}. הרשת העצבית הרב-ממדית הרב-ממדית ברמת הפיקסל לומדת תכונות תמונה מסולמות מרחביות שונות, מתמודדת עם האתגר של שדות קלט סטטיים על פני שכבות שונות של רשתות עצביות עמוקות ומשפרת את דיוק הזיהוי באזורים משמעותיים של מיקוד בתחום. (2) המאמצים האחרונים לשפר את הדיוק של זיהוי עצמים בולטים התמקדו במינוף רשתות עצביות עמוקות יותר, כגון VGG16, כדי לחלץ הן תכונות עומק מרשת המקודד והן תכונות רדודות מרשת המפענח. גישה זו משפרת ביעילות את דיוק הזיהוי של גבולות אובייקטים ומשפרת מידע סמנטי, במיוחד בסביבות מורכבות עם רקעים משתנים, גדלי אובייקטים לא עקביים וגבולות לא ברורים בין חזית לרקע. (3) מאמצים אחרונים לשיפור הדיוק של זיהוי עצמים בולטים הדגישו את השימוש ברשתות עמוקות יותר, כולל VGG16, לחילוץ תכונות עמוקות מרשת המקודדים ותכונות רדודות מרשת המפענח. גישה זו הדגימה זיהוי משופר של גבולות אובייקטים ומידע סמנטי רב יותר, במיוחד בסביבות מורכבות עם רקעים שונים, גדלי אובייקטים וגבולות לא ברורים בין החזית לרקע. בנוסף, השילוב של מודל שדה אקראי מותנה מחובר במלואו (CRF) יושם כדי להגביר את הקוהרנטיות המרחבית ואת דיוק קווי המתאר של מפות בולטות. יעילותה של גישה זו הוערכה על מערכי נתונים SOD ו- ECSSD עם רקע מורכב ונמצאה מובהקת סטטיסטית.

עבודות קשורות
Fu et ^al.15 הציעו גישה משותפת באמצעות RGB ולמידה עמוקה לזיהוי עצמים בולטים. Lai et ^al.16 הציגו מודל בפיקוח חלש לזיהוי עצמים בולטים, ולמדו סלינסיות מביאורים, בעיקר תוך שימוש בתוויות שרבוט כדי לחסוך זמן ביאור. בעוד אלגוריתמים אלה הציגו מיזוג של שתי רשתות משלימות לזיהוי עצמים של סלינסי, הם חסרים חקירה מעמיקה של זיהוי סלינסי בתרחישים מורכבים. Wang et ^al.17 תכננו מיזוג איטרטיבי דו-מצבי של תכונות רשת עצבית, הן מלמטה למעלה והן מלמעלה למטה, תוך אופטימיזציה הדרגתית של תוצאות האיטרציה הקודמת עד להתכנסות. Zhang et ^al.18 התיכו ביעילות מידע סמנטי ומרחבי באמצעות רשתות עמוקות עם העברת מידע דו-כיוונית משכבות רדודות לעמוקות ומשכבות עמוקות ורדודות, בהתאמה. זיהוי אובייקטים בולטים באמצעות מודל למידה עמוקה הדדית הוצע על ידי Wu et ^al.19. המודל משתמש במידע חזיתי וקצה בתוך רשת עצבית קונבולוציונית כדי להקל על תהליך הזיהוי. מודלים אלה לזיהוי עצמים בולטים מבוססי רשת עצבית עמוקה השיגו ביצועים יוצאי דופן במערכי נתונים הזמינים לציבור, ואפשרו זיהוי אובייקטים בולטים בסצנות טבעיות מורכבות. עם זאת, עיצוב מודלים מעולים אף יותר נותר מטרה חשובה בתחום מחקר זה ומשמש כמניע העיקרי למחקר זה.

מסגרת כוללת
הייצוג הסכמטי של המודל המוצע, כפי שהוא מתואר באיור 1, נגזר בעיקר מארכיטקטורת VGG16, המשלבת הן רשת עצבית קונבולוציונית מלאה (DCL) ברמת הפיקסל והן רשת מקודדת-מפענחת עמוקה (DEDN). המודל מבטל את כל איגום סופי ושכבות מחוברות במלואן של VGG16 תוך התאמה למידות קלט תמונה של W × H. המנגנון התפעולי כולל עיבוד ראשוני של תמונת הקלט באמצעות המת”ק, מה שמקל על חילוץ תכונות עמוקות, בעוד תכונות רדודות מתקבלות מרשתות DEDN. המיזוג של מאפיינים אלה כפוף לאחר מכן למודל שדה אקראי מותנה מחובר במלואו (CRF), המגדיל את הקוהרנטיות המרחבית ואת דיוק קווי המתאר של מפות הסאלינסי המיוצרות.

כדי לוודא את יעילות המודל, הוא עבר בדיקות ותיקוף על מערכי נתונים SOD²⁰ ו-ECSSD²¹ עם רקע מורכב. לאחר שתמונת הקלט עוברת דרך המת”ק, מתקבלות מפות תכונות בקנה מידה שונה עם שדות קלט שונים, וסמנטיקה הקשרית משולבת ליצירת מפה בולטת W × H עם קוהרנטיות בין-ממדית. המת”ק משתמש בזוג שכבות קונבולוציה עם 7 x 7 ליבות כדי להחליף את שכבת האיגום הסופית של רשת VGG16 המקורית, ובכך משפר את שימור המידע המרחבי במפות התכונות. זה, בשילוב עם סמנטיקה הקשרית, מייצר מפה בולטת W × H עם קוהרנטיות בין-ממדית. באופן דומה, רשת המקודד-מפענח העמוק (DEDN) משתמשת בשכבות קונבולוציה עם 3 x 3 ליבות במפענחים ושכבת קונבולוציה אחת לאחר מודול הפענוח האחרון. באמצעות מינוף מאפיינים עמוקים ורדודים של התמונה, ניתן ליצור מפה בולטת עם ממד מרחבי של W × H, העונה על האתגר של גבולות אובייקט לא ברורים. המחקר מתאר טכניקה חלוצית לזיהוי אובייקטים בולטים הממזגת את מודלי DCL ו- DEDN לרשת מאוחדת. המשקולות של שתי רשתות עמוקות אלה נלמדות באמצעות תהליך אימון, ומפות הסאלינסי המתקבלות מתמזגות ולאחר מכן מעודנות באמצעות שדה אקראי מותנה (CRF) מחובר במלואו. המטרה העיקרית של חידוד זה היא לשפר את העקביות המרחבית ואת לוקליזציה של קווי המתאר.

רשת עצבית קונבולוציונית מלאה ברמת הפיקסל
ארכיטקטורת VGG16 כללה במקור חמש שכבות איגום, כל אחת עם צעד של 2. כל שכבת איגום דוחסת את גודל התמונה כדי להגדיל את מספר הערוצים, ולקבל מידע הקשרי רב יותר. מודל DCL שואב השראה מספרות¹³ ומהווה שיפור למסגרת של VGG16. במאמר זה נעשה שימוש במודל DCL¹¹ ברמת הפיקסל, כפי שמוצג באיור 2 בארכיטקטורה של VGG16, רשת עצבית קונבולוציונית עמוקה. ארבע שכבות האיגום המקסימליות הראשונות מחוברות זו לזו באמצעות שלושה גרעינים. הגרעין הראשון הוא 3 × 3 × 128; הגרעין השני הוא 1 × 1 × 128; והגרעין השלישי הוא 1 × 1 × 1. כדי להשיג גודל אחיד של מפות תכונות לאחר ארבע שכבות האיגום הראשונות, המחוברות לשלושה גרעינים, כאשר כל גודל שווה לשמינית מהתמונה המקורית, גודל השלב של הליבה הראשונה המחוברת לארבע שכבות האיגום הגדולות ביותר מוגדר ל- 4, 2, 1 ו- 1, בהתאמה.

כדי לשמר את שדה הקלט המקורי בגרעינים השונים, “אלגוריתם החור” המוצע בספרות¹¹ משמש להרחבת גודל הקרנל על ידי הוספת אפסים, ובכך לשמור על שלמות הליבה. ארבע מפות תכונות אלה מחוברות לליבה הראשונה עם גדלי צעדים שונים. כתוצאה מכך, מפות התכונות שהופקו בשלב הסופי הן בעלות ממדים זהים. ארבע מפות התכונות מהוות קבוצה של תכונות רב-ממדיות המתקבלות מסולמות שונים, שכל אחת מהן מייצגת גדלים שונים של שדות קלט. מפות התכונות המתקבלות מארבע שכבות הביניים משורשרות עם מפת התכונות האולטימטיבית הנגזרת מ- VGG16, ובכך מייצרות פלט של 5 ערוצים. הפלט שנוצר לאחר מכן כפוף לליבה של 1 × 1 × 1 עם פונקציית ההפעלה הסיגמואידית, ובסופו של דבר מפיק את המפה הבולטת (ברזולוציה של שמינית מהתמונה המקורית). התמונה נדגמת ומוגדלת באמצעות אינטרפולציה בילינארית, כדי להבטיח שהתמונה המתקבלת, המכונה מפת סלינסי, תשמור על רזולוציה זהה לזו של התמונה הראשונית.

רשת מקודד-מפענח עמוק
באופן דומה, רשת VGG16 משמשת כרשת עמוד השדרה. VGG16 מאופיין במספר נמוך של ערוצי מפת תכונות רדודים אך ברזולוציה גבוהה ובמספר גבוה של ערוצי תכונות עמוקים אך ברזולוציה נמוכה. איגום שכבות ודגימת הפחתה מגדילים את מהירות החישוב של הרשת העמוקה במחיר של הפחתת רזולוציית מפת התכונות שלה. כדי לטפל בבעיה זו, בעקבות הניתוח בספרות¹⁴, רשת המקודדים משמשת לשינוי הקישוריות המלאה של שכבת האיגום האחרונה ב- VGG16 המקורי. שינוי זה כרוך בהחלפתו בשתי שכבות קונבולוציה בעלות 7 × 7 גרעינים (גרעיני קונבולוציה גדולים יותר מגדילים את שדה הקלט). שני גרעיני הפיתול מצוידים בפעולת נורמליזציה (BN) וביחידה ליניארית שונה (ReLU). התאמה זו יוצרת מפת תכונות פלט של מקודד המשמרת טוב יותר את נתוני מרחב התמונה.

בעוד המקודד משפר סמנטיקה של תמונה ברמה גבוהה עבור לוקליזציה גלובלית של אובייקטים בולטים, בעיית טשטוש הגבולות של האובייקט הבולט שלו אינה משופרת ביעילות. כדי להתמודד עם בעיה זו, תכונות עמוקות מתמזגות עם תכונות רדודות, בהשראת עבודת זיהוי קצה¹², המציעה את מודל הרשת של מקודד-מפענח (DEDN) כפי שמוצג באיור 3. ארכיטקטורת המקודד מורכבת משלושה גרעינים המחוברים זה לזה עם ארבעת הראשונים, בעוד המפענח משפר באופן שיטתי את רזולוציית מפת התכונות באמצעות הערכים המרביים שאוחזרו משכבות האיגום המרביות.

במתודולוגיה חדשנית זו לזיהוי עצמים בולטים, בשלב המפענח, נעשה שימוש בשכבה קונבולוציונית בעלת ליבה של 3 × 3 בשילוב עם שכבת נורמליזציה של אצווה ויחידה ליניארית מותאמת. בסיום מודול הפענוח הסופי בארכיטקטורת המפענח, נעשה שימוש בשכבת פיתול של ערוץ בודד כדי להשיג מפה בולטת של ממדים מרחביים W × H. המפה הבולטת נוצרת באמצעות מיזוג שיתופי של מודל המקודד-מפענח, המניב את התוצאה, והיתוך משלים של השניים, כלומר היתוך משלים של מידע עמוק ומידע רדוד. פעולה זו לא רק משיגה לוקליזציה מדויקת של האובייקט הבולט ומגדילה את שדה הקלט, אלא גם שומרת ביעילות על פרטי התמונה ומחזקת את הגבול של האובייקט הבולט.

מנגנון אינטגרציה
ארכיטקטורת המקודד מורכבת משלוש ליבות, המשויכות לארבע שכבות האיגום המקסימליות הראשונות של מודל VGG16. לעומת זאת, המפענח מנוסח במכוון כדי להגדיל בהדרגה את הרזולוציה של מפות תכונות המתקבלות משכבות הדגימה על ידי רתימת הערכים המרביים המתקבלים משכבות האיגום המתאימות. שכבת קונבולוציה המשתמשת בליבה של 3 x 3, שכבת נורמליזציה של אצווה ויחידה ליניארית שונה משמשות לאחר מכן במפענח, ואחריה שכבת קונבולוציה חד-ערוצית ליצירת מפה בולטת של ממדים W × H. המשקולות של שתי הרשתות העמוקות נלמדות באמצעות מחזורי אימון לסירוגין. הפרמטרים של הרשת הראשונה נשמרו קבועים, ואילו הפרמטרים של הרשת השנייה עברו הכשרה במשך חמישים מחזורים בסך הכל. במהלך התהליך, המשקולות של מפת הסאלינסי (^S1 ^ו-S2) המשמשות להיתוך מתעדכנות באמצעות שיפוע אקראי. פונקציית ההפסד¹¹ היא:

(1)

בביטוי הנתון, הסימן G מייצג את הערך המסומן ידנית, ואילו W מציין את הקבוצה המלאה של פרמטרי הרשת. המשקל β_i משמש כגורם מאזן לוויסות היחס בין פיקסלים בולטים לעומת פיקסלים לא בולטים בתהליך החישוב.

התמונה I מאופיינת בשלושה פרמטרים: |אני|, |אני|_– וגם |אני|₊, המייצגים את מספר הפיקסלים הכולל, את ספירת הפיקסלים שאינם בולטים ואת ספירת הפיקסלים הבולטים, בהתאמה.

מכיוון שהמפות הבולטות המתקבלות משתי הרשתות לעיל אינן לוקחות בחשבון את הקוהרנטיות של פיקסלים שכנים, מודל עידון סלינסי ברמת הפיקסל המחובר במלואו CRF¹⁵ משמש לשיפור הקוהרנטיות המרחבית. משוואת האנרגיה¹¹ היא כדלקמן, ופותרת את בעיית תיוג הפיקסלים הבינאריים.

(2)

כאשר L מציין את התווית הבינארית (ערך בולט או ערך לא בולט) שהוקצתה לכל הפיקסלים. המשתנה P(l_i) מציין את הסבירות שפיקסל x_iנתון יקבל תווית ספציפית l_i, המציינת את הסבירות שהפיקסל x_iיהיה סלינסי. בהתחלה, P(1) = S_iו– P(0) = 1 – S_i, כאשר S_iמציין את ערך ה- saliency בפיקסל x_iבתוך מפת ה- saliency המאוחה S. θ_i,j(l_i,l _j) הוא הפוטנציאל הזוגי, המוגדר באופן הבא.

(3)

ביניהם, אם l_i≠ l_j, אז μ(l_i,l _j) = 1, אחרת μ(l_i,l _j) = 0. החישוב של θ_i,j כרוך בניצול של שני גרעינים, כאשר הליבה הראשונית תלויה הן במיקום הפיקסלים P והן בעוצמת הפיקסלים I. התוצאה היא קרבה של פיקסלים עם צבעים דומים המציגים ערכי סלינסיות דומים. שני הפרמטרים, _{σ α} _{ו-σ β}, מווסתים את המידה שבה דמיון הצבעים והקרבה המרחבית משפיעים על התוצאה. מטרת הגרעין השני היא לחסל אזורים קטנים ומבודדים. מזעור האנרגיה מושג באמצעות סינון ממדי גבוה, אשר מזרז את השדה הממוצע של התפלגות שדה אקראי מותנה (CRF). בחישוב, המפה הבולטת המסומנת כ-S_crf מציגה קוהרנטיות מרחבית משופרת וקווי מתאר ביחס לעצמים הבולטים שזוהו.

תצורות ניסיוניות
במאמר זה, רשת עמוקה לזיהוי מטרות בולטות המבוססת על הרשת העצבית VGG16 נבנית באמצעות Python. המודל המוצע מושווה לשיטות אחרות באמצעות מערכי הנתונים SOD²⁰ ו- ECSSD²¹ . מסד הנתונים של תמונות SOD ידוע ברקעים המורכבים והעמוסים שלו, בדמיון הצבעים בין החזית לרקע, ובגודל העצמים הקטנים. לכל תמונה בערכת נתונים זו מוקצה ערך אמיתי המסומן באופן ידני הן להערכת ביצועים כמותית והן להערכת ביצועים איכותית. מצד שני, מערך הנתונים של ECSSD מורכב בעיקר מתמונות שמקורן באינטרנט, המציגות סצנות טבעיות מורכבות ומציאותיות יותר עם ניגודיות נמוכה בין רקע התמונה לאובייקטים בולטים.

מדדי ההערכה המשמשים להשוואת המודל במאמר זה כוללים את עקומת Precision-Recall הנפוצה, F_βו – E_MAE. כדי להעריך כמותית את מפת הסלינסיות החזויה, נעשה שימוש בעקומת Precision-Recall (P-R)²² על ידי שינוי הסף מ-0 ל-255 לצורך בינאריזציה של מפת הסאלינסי. F_βהוא מדד הערכה מקיף, המחושב באמצעות משוואות דיוק והיזכרות הנגזרות מהמפה הבולטת הבינארית וממפת ערכים אמיתיים.

(4)

כאשר β הוא פרמטר המשקל כדי להתאים את הדיוק ואת ההיזכרות, הגדרת β² = 0.3. חישוב E_MAEשקול לחישוב השגיאה המוחלטת הממוצעת בין מפת הסאלינסי המתקבלת לבין מפת האמת הקרקעית, כפי שהוגדרה על ידי הביטוי המתמטי הבא:

(5)

תן ל – T_s(u,v) לציין את הערך שחולץ של פיקסלים בולטים במפה (u,v), ותן ל- T_G(u,v) לציין את הערך המתאים של פיקסלים במפה האמיתית (u,v).

Protocol

1. הגדרת ניסוי ונוהל טען את דגם VGG16 שהוכשר מראש.הערה: השלב הראשון הוא לטעון את דגם VGG16 שהוכשר מראש מספריית Keras6.כדי לטעון מודל VGG16 מאומן מראש ב-Python באמצעות ספריות למידה עמוקה פופולריות כמו PyTorch (ראה טבלת חומרים), בצע את השלבים הכלליים הבאים:לפ?…

Representative Results

מחקר זה מציג רשת עצבית עמוקה מקצה לקצה הכוללת שתי רשתות משלימות: רשת קונבולוציה מלאה רב-ממדית ברמת הפיקסל ורשת מקודד-מפענח עמוק. הרשת הראשונה משלבת סמנטיקה הקשרית כדי להפיק ניגודים חזותיים ממפות תכונות בקנה מידה רב, ומתמודדת עם האתגר של שדות קלט קבועים ברשתות עצביות עמוקות על פני שכבות שו?…

Discussion

המאמר מציג רשת עצבית עמוקה מקצה לקצה שתוכננה במיוחד לזיהוי עצמים בולטים בסביבות מורכבות. הרשת מורכבת משני רכיבים המחוברים זה לזה: רשת קונבולוציה מלאה (DCL) רב-ממדית ברמת הפיקסל ורשת מקודד-מפענח עמוק (DEDN). רכיבים אלה פועלים בסינרגיה, ומשלבים סמנטיקה הקשרית כדי ליצור ניגודים חזותיים בתוך מפות …

開示

The authors have nothing to disclose.

Acknowledgements

עבודה זו נתמכת על ידי 2024 Henan Provincial Higher Education Institutions Key Science Research Project Funding Program Establishment (מספר פרויקט:24A520053). מחקר זה נתמך גם על ידי בניית קורס הדגמה אופייני ליצירה ואינטגרציה מיוחדת במחוז הנאן.

Materials

Matlab	MathWorks	Matlab R2016a	MATLAB's programming interface provides development tools for improving code quality maintainability and maximizing performance. It provides tools for building applications using custom graphical interfaces. It provides tools for combining MATLAB-based algorithms with external applications and languages
Processor	Intel	11th Gen Intel(R) Core (TM) i5-1135G7 @ 2.40GHz	64-bit Win11 processor
Pycharm	JetBrains	PyCharm 3.0	PyCharm is a Python IDE (Integrated Development Environment) a list of required python: modulesmatplotlib skimage torch os time pydensecrf opencv glob PIL torchvision numpy tkinter
PyTorch	Facebook	PyTorch 1.4	PyTorch is an open source Python machine learning library , based on Torch , used for natural language processing and other applications.PyTorch can be viewed both as the addition of GPU support numpy , but also can be viewed as a powerful deep neural network with automatic derivatives .

参考文献

Wang, W. G., Shen, J. B., Ling, H. B. A deep network solution for attention and aesthetics aware photo cropping. IEEE Transactions on Pattern Analysis and Machine Intelligence. 41 (7), 1531-1544 (2018).
Wang, W. G., Sun, G. L., Gool, L. V. Looking beyond single images for weakly supervised semantic segmentation learning. IEEE Transactions on Pattern Analysis and Machine. , (2022).
Mei, H. L., et al. Exploring dense context for salient object detection. IEEE Transactions on Circuits and Systems for Video Technology. 32 (3), 1378-1389 (2021).
Borji, A., Itti, L. State-of-the-art in visual attention modeling. IEEE Transactions on Pattern Analysis and Machine Intelligence. 35 (1), 185-207 (2012).
Long, J., Shelhamer, E., Darrell, T. Fully convolutional networks for semantic segmentation. , 3431-3440 (2015).
Simonyan, K., Zisserman, A. Very deep convolutional networks for large-scale image recognition. arXiv preprint. , 1409-1556 (2014).
He, K., Zhang, X., Ren, S., Sun, J. Deep residual learning for image recognition. , 770-778 (2016).
Liu, N., Han, J. Dhsnet: Deep hierarchical saliency network for salient object detection. , 678-686 (2016).
Zhang, L., Dai, J., Lu, H., He, Y., Wang, G. A bi-directional message passing model for salient object detection. , 1741-1750 (2018).
Wu, R., et al. A mutual learning method for salient object detection with intertwined multi-supervision. , 8150-8159 (2019).
Li, G., Yu, Y. Deep contrast learning for salient object detection. , 478-487 (2019).
Ren, Q., Hu, R. Multi-scale deep encoder-decoder network for salient object detection. Neurocomputing. 316, 95-104 (2018).
Wang, W. G., et al. Salient object detection in the deep learning era: An in-depth survey. IEEE Transactions on Pattern Analysis and Machine Intelligence. 44 (6), 3239-3259 (2021).
Zhou, T., et al. RGB-D salient object detection: A survey. Computational Visual Media. 7, 37-69 (2021).
Fu, K., et al. Siamese network for RGB-D salient object detection and beyond. IEEE Transactions on Pattern Analysis and Machine Intelligence. 44 (9), 5541-5559 (2021).
Lai, Q., et al. Weakly supervised visual saliency prediction. IEEE Transactions on Image Processing. 31, 3111-3124 (2022).
Zhang, L., Dai, J., Lu, H., He, Y., Wang, G. A bi-directional message passing model for salient object detection. , 1741-1750 (2018).
Wu, R. A mutual learning method for salient object detection with intertwined multi-supervision. , 8150-8159 (2019).
Wang, W., Shen, J., Dong, X., Borji, A., Yang, R. Inferring salient objects from human fixations. IEEE Transactions on Pattern Analysis and Machine Intelligence. 42 (8), 1913-1927 (2019).
Movahedi, V., Elder, J. H. Design and perceptual validation of performance measures for salient object segmentation. , 49-56 (2010).
Shi, J., Yan, Q., Xu, L., Jia, J. Hierarchical image saliency detection on extended CSSD. IEEE Transactions on Pattern Analysis and Machine Intelligence. 38 (4), 717-729 (2015).
Achanta, R., Hemami, S., Estrada, F., Susstrunk, S. Frequency-tuned salient region detection. , 1597-1604 (2009).
Yang, C., Zhang, L., Lu, H., Ruan, X., Yang, M. H. Saliency detection via graph-based manifold ranking. , 3166-3173 (2013).
Wei, Y., et al. Geodesic saliency using background priors. Computer Vision-ECCV 2012. , 29-42 (2012).
Margolin, R., Tal, A., Zelnik-Manor, L. What makes a patch distinct. , 1139-1146 (2013).
Perazzi, F., Krähenbühl, P., Pritch, Y., Hornung, A. Saliency filters: Contrast based filtering for salient region detection. , 733-740 (2012).
Hou, X., Harel, J., Koch, C. Image signature: Highlighting sparse salient regions. IEEE Transactions on Pattern Analysis and Machine Intelligence. 34 (1), 194-201 (2011).
Jiang, H., et al. Salient object detection: A discriminative regional feature integration approach. , 2083-2090 (2013).
Li, G., Yu, Y. Visual saliency based on multiscale deep features. , 5455-5463 (2015).
Lee, G., Tai, Y. W., Kim, J. Deep saliency with encoded low level distance map and high-level features. , 660-668 (2016).
Liu, N., Han, J. Dhsnet: Deep hierarchical saliency network for salient object detection. , 678-686 (2016).

Play Video

PDF

DOI

DOWNLOAD MATERIALS LIST

記事を引用

Wang, Y., Wang, Z. End-To-End Deep Neural Network for Salient Object Detection in Complex Environments. J. Vis. Exp. (202), e65554, doi:10.3791/65554 (2023).

רשת עצבית עמוקה מקצה לקצה לזיהוי עצמים בולטים בסביבות מורכבות