End-To-End Deep Neural Network for Salient Object Detection in Complex Environments

Yu Wang; Zhiteng Wang

doi:10.3791/65554

JoVE Journal > Engineering

Please note that all translations are automatically generated. Click here for the English version.

공학

End-to-end djupt neuralt nätverk för framträdande objektdetektering i komplexa miljöer

Published: December 15, 2023

doi:

10.3791/65554

Yu Wang, Zhiteng Wang

¹Zhengzhou University of Economics and Business, ²The 713 Research Institute of CSSC

Summary

Det aktuella protokollet beskriver en ny end-to-end framträdande objektdetekteringsalgoritm. Den utnyttjar djupa neurala nätverk för att förbättra precisionen för framträdande objektdetektering i intrikata miljösammanhang.

Abstract

Framträdande objektdetektering har dykt upp som ett växande intresseområde inom datorseende. Rådande algoritmer uppvisar dock minskad precision när de har till uppgift att upptäcka framträdande objekt i intrikata och mångfacetterade miljöer. Mot bakgrund av detta angelägna problem presenterar den här artikeln ett djupt neuralt nätverk från slutpunkt till slutpunkt som syftar till att identifiera framträdande objekt i komplexa miljöer. Studien introducerar ett end-to-end djupt neuralt nätverk som syftar till att upptäcka framträdande objekt i komplexa miljöer. Det föreslagna nätverket består av två sammanhängande komponenter, nämligen ett fullskaligt faltningsnätverk på pixelnivå och ett djupt kodar-avkodningsnätverk, och integrerar kontextuell semantik för att producera visuell kontrast över flerskaliga funktionskartor samtidigt som det använder djupa och ytliga bildfunktioner för att förbättra noggrannheten i identifiering av objektgränser. Integreringen av en helt uppkopplad modell för villkorade slumpmässiga fält (CRF) förbättrar ytterligare den rumsliga koherensen och konturavgränsningen av framträdande kartor. Den föreslagna algoritmen utvärderas utförligt mot 10 samtida algoritmer i SOD- och ECSSD-databaserna. Utvärderingsresultaten visar att den föreslagna algoritmen överträffar andra metoder när det gäller precision och noggrannhet, vilket visar att den är effektiv när det gäller att upptäcka framträdande objekt i komplexa miljöer.

Introduction

Framträdande objektdetektering efterliknar mänsklig visuell uppmärksamhet och identifierar snabbt viktiga bildregioner samtidigt som bakgrundsinformation undertrycks. Denna teknik används ofta som ett förbehandlingsverktyg i uppgifter som bildbeskärning¹, semantisk segmentering² och bildredigering³. Det effektiviserar uppgifter som bakgrundsbyte och extrahering av förgrund, vilket förbättrar redigeringseffektiviteten och precisionen. Dessutom hjälper det till med semantisk segmentering genom att förbättra mållokaliseringen. Potentialen för framträdande objektdetektering för att förbättra beräkningseffektiviteten och bevara minnet understryker dess betydande forsknings- och tillämpningsmöjligheter.

Under årens lopp har framträdande objektdetektering utvecklats från initiala traditionella algoritmer till införlivandet av djupinlärningsalgoritmer. Målet med dessa framsteg har varit att minska klyftan mellan framträdande objektdetektering och mänskliga visuella mekanismer. Detta har lett till antagandet av djupa faltningsnätverksmodeller för studier av framträdande objektdetektering. Borji et ^al.4 sammanfattade och generaliserade de flesta av de klassiska traditionella algoritmerna, som förlitar sig på bildens underliggande egenskaper. Trots en viss förbättring av detekteringsnoggrannheten fortsätter manuell erfarenhet och kognition att utgöra utmaningar för framträdande objektdetektering i komplexa miljöer.

Användningen av Convolutional Neural Networks (CNN) är utbredd inom området för framträdande objektdetektering. I detta sammanhang används djupa konvolutionella neurala nätverk för viktuppdateringar genom autonom inlärning. Faltningsneurala nätverk har använts för att extrahera kontextuell semantik från bilder genom användning av kaskadkopplade faltnings- och poollager, vilket möjliggör inlärning av komplexa bildfunktioner på högre nivåer, som har högre urskiljnings- och karakteriseringsförmåga för framträdande objektdetektering i olika miljöer.

År 2016 fick helt faltningsneurala nätverk⁵ betydande dragkraft som en populär metod för framträdande objektdetektering, baserat på vilken forskare började upptäcka framträdande objekt på pixelnivå. Många modeller är vanligtvis byggda på befintliga nätverk (t.ex. VGG16⁶, ResNet⁷), som syftar till att förbättra bildrepresentationen och förstärka effekten av kantdetektering.

Liu et ^al.8 använde ett redan tränat neuralt nätverk som ramverk för att beräkna bilden globalt och förfinade sedan objektgränsen med hjälp av ett hierarkiskt nätverk. Kombinationen av de två nätverken bildar det slutliga djupa framträdandenätverket. Detta åstadkoms genom att mata in den tidigare erhållna framträdande kartan i nätverket som förkunskaper på ett repetitivt sätt. Zhang et ^al.9 sammanförde effektivt bildsemantisk och rumslig information med hjälp av djupa nätverk med dubbelriktad informationsöverföring från ytligt till djupt respektive från djupt till grunt lager. Upptäckten av framträdande objekt med hjälp av en djupmodell för ömsesidig inlärning föreslogs av Wu et ^al.10. Modellen använder förgrunds- och kantinformation i ett faltningsneuralt nätverk för att underlätta identifieringsprocessen. Li et ^al.11 använde “hålalgoritmen” för neurala nätverk för att ta itu med utmaningen att fixera de receptiva fälten i olika lager i djupa neurala nätverk i samband med framträdande objektdetektering. Superpixelsegmentering används dock för förvärv av objektkanter, vilket avsevärt ökar beräkningsarbetet och beräkningstiden. Ren et ^al.12 utarbetade ett flerskaligt kodar-avkodningsnätverk för att upptäcka framträdande objekt och använde faltningsneurala nätverk för att effektivt kombinera djupa och ytliga funktioner. Även om utmaningen med gränsoskärpa vid objektdetektering löses genom detta tillvägagångssätt, resulterar den flerskaliga fusionen av information oundvikligen i ökade beräkningskrav.

Litteraturöversikten¹³ föreslår att saliency detection, från traditionella metoder till deep learning-metoder, sammanfattas, och utvecklingen av saliency target detection från dess ursprung till eran av djupinlärning kan ses mycket tydligt. Olika RGB-D-baserade modeller för detektering av framträdande objekt med god prestanda har föreslagits i litteraturen¹⁴. Ovanstående litteratur granskar och klassificerar de olika typerna av algoritmer för identifiering av framträdande objekt och beskriver deras applikationsscenarier, de databaser som används och utvärderingsmåtten. Den här artikeln ger också en kvalitativ och kvantitativ analys av de föreslagna algoritmerna med avseende på deras föreslagna databaser och utvärderingsmått.

Alla ovanstående algoritmer har uppnått anmärkningsvärda resultat i offentliga databaser, vilket ger en grund för framträdande objektdetektering i komplexa miljöer. Även om det har gjorts många forskningsresultat på detta område både nationellt och internationellt, finns det fortfarande några frågor att ta itu med. (1) Traditionella icke-djupinlärningsalgoritmer tenderar att ha låg noggrannhet på grund av att de förlitar sig på manuellt märkta funktioner som färg, textur och frekvens, som lätt kan påverkas av subjektiv upplevelse och uppfattning. Följaktligen minskar precisionen i deras framträdande objektdetekteringsförmåga. Att upptäcka framträdande objekt i komplexa miljöer med hjälp av traditionella icke-djupinlärningsalgoritmer är utmanande på grund av deras svårigheter att hantera intrikata scenarier. (2) Konventionella metoder för detektering av framträdande objekt uppvisar begränsad noggrannhet på grund av deras beroende av manuellt märkta egenskaper som färg, textur och frekvens. Dessutom kan identifiering på regionnivå vara beräkningsmässigt dyrt, ofta ignorera rumslig konsekvens och tenderar att identifiera objektgränser dåligt. Dessa problem måste åtgärdas för att förbättra precisionen för identifiering av framträdande objekt. (3) Framträdande objektdetektering i intrikata miljöer utgör en utmaning för de flesta algoritmer. De flesta algoritmer för identifiering av framträdande objekt står inför allvarliga utmaningar på grund av den allt mer komplexa miljön för identifiering av framträdande objekt med variabla bakgrunder (liknande bakgrunds- och förgrundsfärger, komplexa bakgrundstexturer osv.), många osäkerheter, t.ex. inkonsekventa storlekar på detekteringsobjekt och den otydliga definitionen av förgrunds- och bakgrundskanter.

De flesta av de nuvarande algoritmerna uppvisar låg noggrannhet när det gäller att upptäcka framträdande objekt i komplexa miljöer med liknande bakgrunds- och förgrundsfärger, komplexa bakgrundstexturer och suddiga kanter. Även om nuvarande djupinlärningsbaserade framträdande objektalgoritmer visar högre noggrannhet än traditionella detektionsmetoder, är de underliggande bildfunktionerna som de använder fortfarande otillräckliga när det gäller att karakterisera semantiska funktioner effektivt, vilket ger utrymme för förbättringar av deras prestanda.

Sammanfattningsvis föreslår denna studie ett end-to-end djupt neuralt nätverk för en framträdande objektdetekteringsalgoritm, som syftar till att förbättra noggrannheten för framträdande objektdetektering i komplexa miljöer, förbättra målkanter och bättre karakterisera semantiska funktioner. Bidragen i detta dokument är följande: (1) Det första nätverket använder VGG16 som basnätverk och modifierar sina fem poollager med hjälp av “hålalgoritmen”¹¹. Det flerskaliga neurala nätverket på pixelnivå lär sig bildfunktioner från olika rumsliga skalor, vilket tar itu med utmaningen med statiska receptiva fält över olika lager av djupa neurala nätverk och förbättrar detekteringsnoggrannheten i viktiga fokusområden i fältet. (2) De senaste ansträngningarna för att förbättra noggrannheten i detektering av framträdande objekt har fokuserat på att utnyttja djupare neurala nätverk, såsom VGG16, för att extrahera både djupfunktioner från kodarnätverket och ytliga funktioner från avkodningsnätverket. Den här metoden förbättrar effektivt identifieringsnoggrannheten för objektgränser och förbättrar semantisk information, särskilt i komplexa miljöer med varierande bakgrunder, inkonsekventa objektstorlekar och otydliga gränser mellan förgrund och bakgrund. (3) De senaste ansträngningarna för att förbättra precisionen i detektering av framträdande objekt har betonat användningen av djupare nätverk, inklusive VGG16, för att extrahera djupa funktioner från kodarnätverket och grunda funktioner från avkodarnätverket. Detta tillvägagångssätt har visat förbättrad detektering av objektgränser och större semantisk information, särskilt i komplexa miljöer med varierande bakgrunder, objektstorlekar och otydliga gränser mellan förgrund och bakgrund. Dessutom har integreringen av en helt ansluten modell för villkorliga slumpmässiga fält (CRF) implementerats för att öka den rumsliga koherensen och konturprecisionen hos framträdande kartor. Effektiviteten av detta tillvägagångssätt utvärderades på SOD- och ECSSD-dataset med komplex bakgrund och befanns vara statistiskt signifikant.

Relaterat arbete
Fu et ^al.15 föreslog ett gemensamt tillvägagångssätt med RGB och djupinlärning för framträdande objektdetektering. Lai et ^al.16 introducerade en svagt övervakad modell för framträdande objektdetektering, där man lärde sig framträdande från anteckningar, främst med hjälp av klotteretiketter för att spara anteckningstid. Även om dessa algoritmer presenterade en sammanslagning av två komplementära nätverk för detektering av framträdande objekt, saknar de djupgående undersökning av framträdande detektering under komplexa scenarier. Wang et ^al.17 utformade en iterativ fusion av neurala nätverksfunktioner i två lägen, både nedifrån och upp och uppifrån och ner, och optimerade progressivt resultaten från den tidigare iterationen fram till konvergens. Zhang et ^al.18 sammanförde effektivt bildsemantisk och rumslig information med hjälp av djupa nätverk med dubbelriktad informationsöverföring från grunt till djupt respektive från djupt till grunt lager. Detektering av framträdande objekt med hjälp av en djupmodell för ömsesidig inlärning föreslogs av Wu et ^al.19. Modellen använder förgrunds- och kantinformation i ett faltningsneuralt nätverk för att underlätta identifieringsprocessen. Dessa djupa neurala nätverksbaserade modeller för identifiering av framträdande objekt har uppnått anmärkningsvärd prestanda på offentligt tillgängliga datamängder, vilket möjliggör identifiering av framträdande objekt i komplexa naturliga scener. Att designa ännu mer överlägsna modeller är dock fortfarande ett viktigt mål inom detta forskningsområde och fungerar som den primära motivationen för denna studie.

Övergripande ram
Den föreslagna modellens schematiska representation, som visas i figur 1, är främst härledd från VGG16-arkitekturen, som innehåller både ett flerskaligt multiskaligt fullt faltningsneuralt nätverk (DCL) och ett djupt kodar-avkodningsnätverk (DEDN). Modellen eliminerar alla slutliga poolningar och helt anslutna lager av VGG16 samtidigt som den tar hänsyn till indatabilddimensioner på W × H. Den operativa mekanismen involverar den initiala bearbetningen av indatabilden via DCL, vilket underlättar extraktionen av djupa funktioner, medan grunda funktioner erhålls från DEDN-nätverken. Sammanslagningen av dessa karakteristika utsätts därefter för en helt ansluten modell för villkorliga slumpfält (CRF), vilket ökar den rumsliga koherensen och konturnoggrannheten hos de framställda kartorna.

För att fastställa modellens effektivitet genomgick den testning och validering på SOD²⁰ – och ECSSD^{21-datauppsättningar} med invecklad bakgrund. När den inmatade bilden har passerat genom DCL erhålls olika skalfunktionskartor med olika receptiva fält och kontextuell semantik kombineras för att skapa en W × H framträdande karta med interdimensionell koherens. DCL använder ett par faltningslager med 7 x 7 kärnor för att ersätta det slutliga poollagret i det ursprungliga VGG16-nätverket, vilket förbättrar bevarandet av rumslig information i funktionskartorna. Detta, i kombination med kontextuell semantik, ger en W × H framträdande karta med interdimensionell koherens. På samma sätt använder DEDN (Deep Encoder-Decoder Network) faltningslager med 3 x 3 kärnor i avkodarna och ett enda faltningslager efter den sista avkodningsmodulen. Genom att utnyttja djupa och grunda egenskaper i bilden är det möjligt att generera en framträdande karta med en rumslig dimension på W × H, vilket tar itu med utmaningen med otydliga objektgränser. Studien beskriver en banbrytande teknik för framträdande objektdetektering som slår samman DCL- och DEDN-modellerna till ett enhetligt nätverk. Vikterna för dessa två djupa nätverk lärs in genom en träningsprocess, och de resulterande framträdande kartorna sammanfogas och förfinas sedan med hjälp av ett helt anslutet villkorligt slumpmässigt fält (CRF). Det primära målet med denna förfining är att förbättra rumslig konsistens och konturlokalisering.

Pixelnivå multiskala helt konvolutionellt neuralt nätverk
VGG16-arkitekturen bestod ursprungligen av fem poollager, vart och ett med ett steg på 2. Varje poollager komprimerar bildstorleken för att öka antalet kanaler och få mer kontextuell information. DCL-modellen är inspirerad av litteratur¹³ och är en förbättring av ramverket i VGG16. I den här artikeln används en DCL-modell¹¹ på pixelnivå, som visas i bild 2 i arkitekturen för VGG16, ett djupt faltningsneuralt nätverk. De första fyra maximala poollagren är sammankopplade med tre kernels. Den första kärnan är 3 × 3 × 128; den andra kärnan är 1 × 1 × 128; och den tredje kärnan är 1 × 1 × 1. För att uppnå en enhetlig storlek på funktionsmappningar efter de första fyra poollagren, anslutna till tre kernels, där varje storlek motsvarar en åttondel av den ursprungliga avbildningen, anges stegstorleken för den första kerneln som är ansluten till dessa fyra största poollager till 4, 2, 1 respektive 1.

För att bevara det ursprungliga receptiva fältet i de olika kärnorna används den “hålalgoritm” som föreslås i litteratur¹¹ för att utöka kärnans storlek genom att lägga till nollor, och på så sätt bibehålla kärnans integritet. Dessa fyra funktionsmappningar är anslutna till den första kerneln med olika stegstorlekar. Följaktligen har de objektkartor som tas fram i slutskedet identiska dimensioner. De fyra objektkartorna utgör en uppsättning flerskaliga objekt som erhålls från distinkta skalor, som var och en representerar olika storlekar av mottagliga fält. De resulterande funktionskartorna som erhålls från de fyra mellanliggande lagren sammanfogas med den ultimata funktionskartan som härrör från VGG16, vilket genererar en 5-kanalig utgång. Den efterföljande utmatningen utsätts därefter för en 1 × 1 × 1-kärna med sigmoidaktiveringsfunktionen, vilket slutligen ger den framträdande kartan (med en upplösning på en åttondel av den ursprungliga bilden). Bilden samplas upp och förstoras med hjälp av bilinjär interpolation, vilket säkerställer att den resulterande bilden, som kallas framträdande karta, bibehåller en identisk upplösning som den ursprungliga bilden.

Djupt kodar-avkodningsnätverk
På samma sätt används VGG16-nätverket som stamnät. VGG16 kännetecknas av ett lågt antal grunda funktionskartkanaler men hög upplösning och ett stort antal djupa funktionskanaler men låg upplösning. Poolning av lager och nedsampling ökar beräkningshastigheten för det djupa nätverket på bekostnad av att minska upplösningen på funktionskartan. För att lösa detta problem, efter analysen i litteratur¹⁴, används kodarnätverket för att modifiera den fullständiga anslutningen av det sista poollagret i den ursprungliga VGG16. Denna modifiering innebär att den ersätts med två faltningslager med 7 × 7 kärnor (större faltningskärnor ökar det receptiva fältet). Båda faltningskärnorna är utrustade med en normaliseringsåtgärd (BN) och en modifierad linjär enhet (ReLU). Den här justeringen resulterar i en funktionskarta för kodarens utdata som bättre bevarar information om bildutrymme.

Kodaren förbättrar bildsemantiken på hög nivå för global lokalisering av framträdande objekt, men problemet med gränsoskärpa för det framträdande objektet förbättras inte effektivt. För att ta itu med det här problemet smälts djupa funktioner samman med grunda funktioner, inspirerade av kantdetekteringsarbete¹², som föreslår kodar-avkodarnätverksmodellen (DEDN) som visas i figur 3. Kodararkitekturen består av tre kärnor som är sammankopplade med de ursprungliga fyra, medan avkodaren systematiskt förbättrar funktionskartans upplösning med hjälp av de maximala värden som hämtas från de maximala poollagren.

I denna innovativa metodik för framträdande objektdetektering, under avkodningsfasen, används ett faltningslager med en 3 × 3-kärna i kombination med ett batchnormaliseringslager och en anpassad linjär enhet. I slutet av den slutliga avkodningsmodulen i avkodningsarkitekturen används ett faltningsskikt med en solitär kanal för att erhålla en framträdande karta över rumsliga dimensioner W × H. Den framträdande kartan genereras genom en kollaborativ fusion av kodar-avkodarmodellen, vilket ger resultatet, och den komplementära fusionen av två, dvs den komplementära fusionen av djup information och ytlig information. Detta uppnår inte bara exakt lokalisering av det framträdande objektet och ökar det receptiva fältet, utan bevarar också effektivt bilddetaljinformation och stärker gränsen för det framträdande objektet.

Mekanism för integration
Kodararkitekturen består av tre kärnor som är associerade med de första fyra maximala poollagren i VGG16-modellen. Avkodaren är däremot avsiktligt formulerad för att progressivt öka upplösningen på funktionskartor som hämtats från uppsamplingslagren genom att utnyttja de maximala värden som samlas in från motsvarande poollager. Ett faltningslager som använder en 3 x 3-kärna, ett batchnormaliseringslager och en modifierad linjär enhet används sedan i avkodaren, följt av ett enkanaligt faltningslager för att generera en framträdande karta över dimensionerna W × H. Vikterna för de två djupa nätverken lärs in genom alternerande träningscykler. Det första nätverkets parametrar hölls fasta, medan det andra nätverkets parametrar genomgick träning under totalt femtio cykler. Under processen uppdateras vikterna för den framträdande kartan (^S1 och ^S2) som används för fusion via en slumpmässig gradient. Förlustfunktionen¹¹ är:

(1)

I det givna uttrycket representerar symbolen G det manuellt märkta värdet, medan W betecknar den fullständiga uppsättningen nätverksparametrar. Vikten β_i fungerar som en balanserande faktor för att reglera andelen framträdande pixlar kontra icke-framträdande pixlar i beräkningsprocessen.

Bilden I kännetecknas av tre parametrar: |Jag|, |Jag|_– och |Jag|₊, som representerar det totala antalet pixlar, antalet icke-framträdande pixlar respektive antalet framträdande pixlar.

Eftersom de framträdande kartorna som erhålls från de två ovanstående nätverken inte tar hänsyn till koherensen hos intilliggande pixlar, används en helt ansluten förfiningsmodell på pixelnivå CRF¹⁵ för att förbättra den rumsliga koherensen. Energiekvation¹¹ är som följer, vilket löser problemet med binär pixelmärkning.

(2)

där L betecknar den binära etikett (framträdande värde eller icke-framträdande värde) som tilldelats alla pixlar. Variabeln P(l_i) betecknar sannolikheten för att en given pixel x_itilldelas en specifik etikett l_i, vilket indikerar sannolikheten för att pixeln x_iär framträdande. I början är P(1) = S_ioch P(0) = 1 – S_i, där S_ibetecknar framträdandevärdet vid pixeln x_ii i den sammanslagna saliency-avbildningen S. θ_i,j(l_i,l _j) är den parvisa potentialen, definierad enligt följande.

(3)

Bland dem, om l_i≠ l_j, så är μ(l_i,l _j) = 1, annars μ(l_i,l _j) = 0. Beräkningen av θ_i,j innebär användning av två kärnor, där den initiala kärnan är beroende av både pixelpositionen P och pixelintensiteten I. Detta resulterar i närheten av pixlar med liknande färger som uppvisar jämförbara framträdande värden. De två parametrarna, σ_α och σ_β, reglerar i vilken utsträckning färglikhet och rumslig närhet påverkar resultatet. Målet med den andra kärnan är att eliminera isolerade små regioner. Minimeringen av energi uppnås genom högdimensionell filtrering, vilket påskyndar medelfältet för CRF-fördelningen (Conditional Random Field). Vid beräkning uppvisar den framträdande kartan som betecknas som S_crf förbättrad rumslig koherens och kontur med avseende på de framträdande objekt som detekteras.

Experimentella konfigurationer
I den här artikeln konstrueras ett djupt nätverk för identifiering av framträdande mål baserat på det neurala nätverket VGG16 med hjälp av Python. Den föreslagna modellen jämförs med andra metoder som använder SOD²⁰ – och ECSSD^21-dataseten . SOD-bilddatabasen är känd för sina komplexa och röriga bakgrunder, likhet i färger mellan förgrund och bakgrund och små objektstorlekar. Varje bild i den här datauppsättningen tilldelas ett manuellt märkt sant värde för både kvantitativ och kvalitativ prestandautvärdering. Å andra sidan består ECSSD-datasetet främst av bilder som hämtats från Internet, med mer komplexa och realistiska naturscener med låg kontrast mellan bildbakgrunden och framträdande objekt.

De utvärderingsindex som används för att jämföra modellen i denna artikel inkluderar den vanliga Precision-Recall-kurvan, F_βoch E_MAE. För att kvantitativt utvärdera den förutsagda framträdande kartan används Precision-Recall (P-R)-kurvan²² genom att ändra tröskelvärdet från 0 till 255 för binarisering av saliency-kartan. F_βär ett omfattande utvärderingsmått som beräknas med precisions- och träffsäkerhetsekvationerna som härletts från den binariserade framträdande kartan och en sann värdekarta.

(4)

där β är viktparametern för att justera noggrannheten och återkallelsen, inställning β² = 0,3. Beräkningen av E_MAEär ekvivalent med att beräkna det absoluta medelfelet mellan den resulterande framträdande kartan och grundsanningskartan, som definieras av det efterföljande matematiska uttrycket:

(5)

Låt T_s(u,v) beteckna det extraherade värdet för de framträdande avbildningspixlarna (u,v) och låt T_G(u,v) beteckna motsvarande värde för de sanna avbildningspixlarna (u,v).

Protocol

1. Experimentell uppställning och procedur Läs in den förtränade VGG16-modellen.OBS: Det första steget är att ladda den förtränade VGG16-modellen från Keras-biblioteket6.Följ dessa allmänna steg om du vill läsa in en förtränad VGG16-modell i Python med hjälp av populära djupinlärningsbibliotek som PyTorch (se Materialförteckning):Importera ficklampa. Importera torchvision.models som …

Representative Results

Denna studie introducerar ett end-to-end djupt neuralt nätverk som består av två komplementära nätverk: ett flerskaligt faltningsnätverk på pixelnivå och ett djupt kodar-avkodningsnätverk. Det första nätverket integrerar kontextuell semantik för att härleda visuella kontraster från flerskaliga funktionskartor, vilket tar itu med utmaningen med fasta receptiva fält i djupa neurala nätverk över olika lager. Det andra nätverket använder både djupa och grunda bildfunktioner för att mildra problemet med s…

Discussion

Artikeln introducerar ett djupt neuralt nätverk från slutpunkt till slutpunkt som är särskilt utformat för detektering av framträdande objekt i komplexa miljöer. Nätverket består av två sammankopplade komponenter: ett DCL (Multiple Scale Fully Convolutional Network) på pixelnivå och ett DEDN (Deep Encoder-decoder Network). Dessa komponenter fungerar synergistiskt och införlivar kontextuell semantik för att generera visuella kontraster i funktionskartor i flera skalor. Dessutom utnyttjar de både djupa och g…

Disclosures

The authors have nothing to disclose.

Acknowledgements

Detta arbete stöds av 2024 Henan Provincial Higher Education Institutions Key Scientific Research Project Funding Program Establishment (projektnummer:24A520053). Denna studie stöds också av Specialized Creation and Integration Characteristics Demonstration Course Construction i Henan-provinsen.

Materials

Matlab	MathWorks	Matlab R2016a	MATLAB's programming interface provides development tools for improving code quality maintainability and maximizing performance. It provides tools for building applications using custom graphical interfaces. It provides tools for combining MATLAB-based algorithms with external applications and languages
Processor	Intel	11th Gen Intel(R) Core (TM) i5-1135G7 @ 2.40GHz	64-bit Win11 processor
Pycharm	JetBrains	PyCharm 3.0	PyCharm is a Python IDE (Integrated Development Environment) a list of required python: modulesmatplotlib skimage torch os time pydensecrf opencv glob PIL torchvision numpy tkinter
PyTorch	Facebook	PyTorch 1.4	PyTorch is an open source Python machine learning library , based on Torch , used for natural language processing and other applications.PyTorch can be viewed both as the addition of GPU support numpy , but also can be viewed as a powerful deep neural network with automatic derivatives .

References

Wang, W. G., Shen, J. B., Ling, H. B. A deep network solution for attention and aesthetics aware photo cropping. IEEE Transactions on Pattern Analysis and Machine Intelligence. 41 (7), 1531-1544 (2018).
Wang, W. G., Sun, G. L., Gool, L. V. Looking beyond single images for weakly supervised semantic segmentation learning. IEEE Transactions on Pattern Analysis and Machine. , (2022).
Mei, H. L., et al. Exploring dense context for salient object detection. IEEE Transactions on Circuits and Systems for Video Technology. 32 (3), 1378-1389 (2021).
Borji, A., Itti, L. State-of-the-art in visual attention modeling. IEEE Transactions on Pattern Analysis and Machine Intelligence. 35 (1), 185-207 (2012).
Long, J., Shelhamer, E., Darrell, T. Fully convolutional networks for semantic segmentation. , 3431-3440 (2015).
Simonyan, K., Zisserman, A. Very deep convolutional networks for large-scale image recognition. arXiv preprint. , 1409-1556 (2014).
He, K., Zhang, X., Ren, S., Sun, J. Deep residual learning for image recognition. , 770-778 (2016).
Liu, N., Han, J. Dhsnet: Deep hierarchical saliency network for salient object detection. , 678-686 (2016).
Zhang, L., Dai, J., Lu, H., He, Y., Wang, G. A bi-directional message passing model for salient object detection. , 1741-1750 (2018).
Wu, R., et al. A mutual learning method for salient object detection with intertwined multi-supervision. , 8150-8159 (2019).
Li, G., Yu, Y. Deep contrast learning for salient object detection. , 478-487 (2019).
Ren, Q., Hu, R. Multi-scale deep encoder-decoder network for salient object detection. Neurocomputing. 316, 95-104 (2018).
Wang, W. G., et al. Salient object detection in the deep learning era: An in-depth survey. IEEE Transactions on Pattern Analysis and Machine Intelligence. 44 (6), 3239-3259 (2021).
Zhou, T., et al. RGB-D salient object detection: A survey. Computational Visual Media. 7, 37-69 (2021).
Fu, K., et al. Siamese network for RGB-D salient object detection and beyond. IEEE Transactions on Pattern Analysis and Machine Intelligence. 44 (9), 5541-5559 (2021).
Lai, Q., et al. Weakly supervised visual saliency prediction. IEEE Transactions on Image Processing. 31, 3111-3124 (2022).
Zhang, L., Dai, J., Lu, H., He, Y., Wang, G. A bi-directional message passing model for salient object detection. , 1741-1750 (2018).
Wu, R. A mutual learning method for salient object detection with intertwined multi-supervision. , 8150-8159 (2019).
Wang, W., Shen, J., Dong, X., Borji, A., Yang, R. Inferring salient objects from human fixations. IEEE Transactions on Pattern Analysis and Machine Intelligence. 42 (8), 1913-1927 (2019).
Movahedi, V., Elder, J. H. Design and perceptual validation of performance measures for salient object segmentation. , 49-56 (2010).
Shi, J., Yan, Q., Xu, L., Jia, J. Hierarchical image saliency detection on extended CSSD. IEEE Transactions on Pattern Analysis and Machine Intelligence. 38 (4), 717-729 (2015).
Achanta, R., Hemami, S., Estrada, F., Susstrunk, S. Frequency-tuned salient region detection. , 1597-1604 (2009).
Yang, C., Zhang, L., Lu, H., Ruan, X., Yang, M. H. Saliency detection via graph-based manifold ranking. , 3166-3173 (2013).
Wei, Y., et al. Geodesic saliency using background priors. Computer Vision-ECCV 2012. , 29-42 (2012).
Margolin, R., Tal, A., Zelnik-Manor, L. What makes a patch distinct. , 1139-1146 (2013).
Perazzi, F., Krähenbühl, P., Pritch, Y., Hornung, A. Saliency filters: Contrast based filtering for salient region detection. , 733-740 (2012).
Hou, X., Harel, J., Koch, C. Image signature: Highlighting sparse salient regions. IEEE Transactions on Pattern Analysis and Machine Intelligence. 34 (1), 194-201 (2011).
Jiang, H., et al. Salient object detection: A discriminative regional feature integration approach. , 2083-2090 (2013).
Li, G., Yu, Y. Visual saliency based on multiscale deep features. , 5455-5463 (2015).
Lee, G., Tai, Y. W., Kim, J. Deep saliency with encoded low level distance map and high-level features. , 660-668 (2016).
Liu, N., Han, J. Dhsnet: Deep hierarchical saliency network for salient object detection. , 678-686 (2016).

Play Video

PDF

DOI

DOWNLOAD MATERIALS LIST

Cite This Article

Wang, Y., Wang, Z. End-To-End Deep Neural Network for Salient Object Detection in Complex Environments. J. Vis. Exp. (202), e65554, doi:10.3791/65554 (2023).