End-To-End Deep Neural Network for Salient Object Detection in Complex Environments

Yu Wang; Zhiteng Wang

doi:10.3791/65554

JoVE Journal > Engineering

공학

Ende-til-ende dypt nevralt nettverk for fremtredende objektdeteksjon i komplekse miljøer

Published: December 15, 2023

doi:

10.3791/65554

Yu Wang, Zhiteng Wang

¹Zhengzhou University of Economics and Business, ²The 713 Research Institute of CSSC

Summary

Den nåværende protokollen beskriver en ny ende-til-ende fremtredende objektdeteksjonsalgoritme. Den utnytter dype nevrale nettverk for å forbedre presisjonen av fremtredende objektdeteksjon i intrikate miljøsammenhenger.

Abstract

Fremtredende objektdeteksjon har dukket opp som et voksende interesseområde innen datasyn. Imidlertid viser rådende algoritmer redusert presisjon når de har til oppgave å oppdage fremtredende objekter i intrikate og mangefasetterte miljøer. I lys av denne presserende bekymringen presenterer denne artikkelen et ende-til-ende dypt nevralt nettverk som tar sikte på å oppdage fremtredende objekter i komplekse miljøer. Studien introduserer et ende-til-ende dypt nevralt nettverk som tar sikte på å oppdage fremtredende objekter i komplekse miljøer. Det foreslåtte nettverket består av to beslektede komponenter, nemlig et fullt konvolusjonsnettverk på pikselnivå og et dypt koder-dekodernettverk, og integrerer kontekstuell semantikk for å produsere visuell kontrast på tvers av funksjonskart i flere skalaer, samtidig som det bruker dype og grunne bildefunksjoner for å forbedre nøyaktigheten av objektgrenseidentifikasjon. Integreringen av en fullstendig tilkoblet betinget tilfeldig felt (CRF) modell forbedrer ytterligere romlig sammenheng og konturavgrensning av fremtredende kart. Den foreslåtte algoritmen er grundig evaluert mot 10 moderne algoritmer på SOD- og ECSSD-databasene. Evalueringsresultatene viser at den foreslåtte algoritmen overgår andre tilnærminger når det gjelder presisjon og nøyaktighet, og dermed etablerer sin effektivitet i fremtredende objektdeteksjon i komplekse miljøer.

Introduction

Fremtredende objektdeteksjon etterligner menneskelig visuell oppmerksomhet, og identifiserer raskt viktige bildeområder mens bakgrunnsinformasjon undertrykkes. Denne teknikken er mye brukt som et forbehandlingsverktøy i oppgaver som bildebeskjæring¹, semantisk segmentering² og bilderedigering³. Det effektiviserer oppgaver som bakgrunnsutskifting og uttrekking av forgrunnen, og forbedrer redigeringseffektiviteten og presisjonen. I tillegg hjelper det med semantisk segmentering ved å forbedre mållokaliseringen. Potensialet for fremtredende objektdeteksjon for å forbedre beregningseffektiviteten og bevare minnet understreker dets betydelige forsknings- og applikasjonsutsikter.

Gjennom årene har fremtredende objektdeteksjon utviklet seg fra innledende tradisjonelle algoritmer til inkorporering av dype læringsalgoritmer. Målet med disse fremskrittene har vært å begrense gapet mellom fremtredende objektdeteksjon og menneskelige visuelle mekanismer. Dette har ført til vedtak av dype konvolusjonelle nettverksmodeller for studier av fremtredende objektdeteksjon. Borji et ^al.4 oppsummerte og generaliserte de fleste av de klassiske tradisjonelle algoritmene, som er avhengige av de underliggende egenskapene til bildet. Til tross for en viss forbedring i deteksjonsnøyaktighet, fortsetter manuell erfaring og kognisjon å utgjøre utfordringer for fremtredende objektdeteksjon i komplekse miljøer.

Bruken av Convolutional Neural Networks (CNN) er utbredt i domenet til fremtredende objektdeteksjon. I denne sammenheng brukes dype konvolusjonelle nevrale nettverk for vektoppdateringer gjennom autonom læring. Konvolusjonelle nevrale nettverk har blitt brukt til å trekke ut kontekstuell semantikk fra bilder ved bruk av kaskadede konvolusjonelle og poolinglag, noe som gjør det mulig å lære komplekse bildefunksjoner på høyere nivåer, som har høyere diskriminerings- og karakteriseringsevne for fremtredende objektdeteksjon i forskjellige miljøer.

I 2016 fikk fullt konvolusjonelle nevrale nettverk⁵ betydelig trekkraft som en populær tilnærming for fremtredende objektdeteksjon, basert på hvilke forskere startet pikselnivå fremtredende objektdeteksjon. Mange modeller er vanligvis bygget på eksisterende nettverk (f.eks. VGG16⁶, ResNet⁷), med sikte på å forbedre bilderepresentasjonen og styrke effekten av kantdeteksjon.

Liu et ^al.8 brukte et allerede trent nevralt nettverk som rammeverk for å beregne bildet globalt og deretter raffinert objektgrensen ved hjelp av et hierarkisk nettverk. Kombinasjonen av de to nettverkene danner det endelige dype saliency-nettverket. Dette ble oppnådd ved å mate det tidligere ervervede fremtredende kartet inn i nettverket som forkunnskaper på en repeterende måte. Zhang et ^al.9 smeltet effektivt sammen bildesemantisk og romlig informasjon ved hjelp av dype nettverk med toveis informasjonsoverføring fra henholdsvis grunne til dype og fra dype til grunne lag. Påvisning av fremtredende objekter ved hjelp av en gjensidig læringsdyp modell ble fremsatt av Wu et ^al.10. Modellen benytter forgrunns- og kantinformasjon i et konvolusjonelt nevralt nettverk for å lette deteksjonsprosessen. Li et ^al.11 benyttet “hullalgoritmen” til nevrale nettverk for å løse utfordringen med å fikse de mottakelige feltene i forskjellige lag i dype nevrale nettverk i sammenheng med fremtredende objektdeteksjon. Superpikselsegmentering brukes imidlertid til objektkantinnhenting, noe som øker beregningsinnsatsen og databehandlingstiden betydelig. Ren et ^al.12 utviklet et multiskala koder-dekodernettverk for å oppdage fremtredende objekter og benyttet konvolusjonelle nevrale nettverk for effektivt å kombinere dype og grunne funksjoner. Selv om utfordringen med grenseuskarphet i objektdeteksjon løses gjennom denne tilnærmingen, resulterer flerskala fusjon av informasjon uunngåelig i økte beregningskrav.

Litteraturgjennomgangen¹³ foreslår at saliency detection, fra tradisjonelle metoder til dype læringsmetoder, er oppsummert, og utviklingen av saliency target detection fra sin opprinnelse til epoken med dyp læring kan sees veldig tydelig. Ulike RGB-D-baserte fremtredende objektdeteksjonsmodeller med god ytelse er foreslått i litteraturen¹⁴. Ovennevnte litteratur gjennomgår og klassifiserer de ulike typene algoritmer for deteksjon av fremtredende objekter og beskriver deres applikasjonsscenarier, databasene som brukes og evalueringsberegningene. Denne artikkelen gir også en kvalitativ og kvantitativ analyse av de foreslåtte algoritmene angående deres foreslåtte databaser og evalueringsberegninger.

Alle ovennevnte algoritmer har oppnådd bemerkelsesverdige resultater i offentlige databaser, noe som gir grunnlag for fremtredende objektdeteksjon i komplekse miljøer. Selv om det har vært mange forskningsresultater på dette feltet både nasjonalt og internasjonalt, er det fortsatt noen problemer som må løses. (1) Tradisjonelle ikke-dype læringsalgoritmer har en tendens til å ha lav nøyaktighet på grunn av deres avhengighet av manuelt merkede funksjoner som farge, tekstur og frekvens, som lett kan påvirkes av subjektiv opplevelse og oppfatning. Følgelig reduseres presisjonen til deres fremtredende objektdeteksjonsevner. Å oppdage fremtredende objekter i komplekse miljøer ved hjelp av tradisjonelle ikke-dype læringsalgoritmer er utfordrende på grunn av deres vanskeligheter med å håndtere intrikate scenarier. (2) Konvensjonelle metoder for fremtredende objektdeteksjon viser begrenset nøyaktighet på grunn av deres avhengighet av manuelt merkede funksjoner som farge, tekstur og frekvens. I tillegg kan deteksjon på områdenivå være beregningsmessig dyrt, ofte ignorerer romlig konsistens, og har en tendens til å oppdage objektgrenser dårlig. Disse problemene må løses for å forbedre presisjonen til fremtredende objektdeteksjon. (3) Fremtredende objektdeteksjon i intrikate miljøer gir en utfordring for de fleste algoritmer. De fleste fremtredende objektdeteksjonsalgoritmer står overfor alvorlige utfordringer på grunn av det stadig mer komplekse fremtredende objektdeteksjonsmiljøet med variabel bakgrunn (lignende bakgrunns- og forgrunnsfarger, komplekse bakgrunnsteksturer, etc.), mange usikkerheter som inkonsekvente deteksjonsobjektstørrelser og den uklare definisjonen av forgrunns- og bakgrunnskanter.

De fleste av de nåværende algoritmene viser lav nøyaktighet når det gjelder å oppdage fremtredende objekter i komplekse miljøer med lignende bakgrunns- og forgrunnsfarger, komplekse bakgrunnsteksturer og uskarpe kanter. Selv om nåværende dyplæringsbaserte fremtredende objektalgoritmer viser høyere nøyaktighet enn tradisjonelle deteksjonsmetoder, kommer de underliggende bildefunksjonene de bruker fortsatt til kort når det gjelder å karakterisere semantiske funksjoner effektivt, noe som gir rom for forbedring i ytelsen.

Oppsummert foreslår denne studien et ende-til-ende dypt nevralt nettverk for en fremtredende objektdeteksjonsalgoritme, med sikte på å forbedre nøyaktigheten av fremtredende objektdeteksjon i komplekse miljøer, forbedre målkanter og bedre karakterisere semantiske egenskaper. Bidragene i denne artikkelen er som følger: (1) Det første nettverket bruker VGG16 som basisnettverk og modifiserer sine fem sammenslutningslag ved hjelp av ‘^{hullalgoritmen’11}. Det fullt konvolusjonelle nevrale nettverket på pikselnivå på pikselnivå lærer bildefunksjoner fra forskjellige romlige skalaer, adresserer utfordringen med statiske mottakelige felt på tvers av ulike lag av dype nevrale nettverk og forbedrer deteksjonsnøyaktigheten i viktige fokusområder i feltet. (2) Nylige anstrengelser for å forbedre nøyaktigheten av fremtredende objektdeteksjon har fokusert på å utnytte dypere nevrale nettverk, for eksempel VGG16, for å trekke ut både dybdefunksjoner fra kodernettverket og grunne funksjoner fra dekodernettverket. Denne tilnærmingen forbedrer effektivt gjenkjenningsnøyaktigheten til objektgrenser og forbedrer semantisk informasjon, spesielt i komplekse miljøer med variabel bakgrunn, inkonsekvente objektstørrelser og uklare grenser mellom forgrunn og bakgrunn. (3) Nylige forsøk på å forbedre presisjonen av fremtredende objektdeteksjon har lagt vekt på bruk av dypere nettverk, inkludert VGG16, for å trekke ut dype funksjoner fra kodernettverket og grunne funksjoner fra dekodernettverket. Denne tilnærmingen har vist forbedret gjenkjenning av objektgrenser og større semantisk informasjon, spesielt i komplekse miljøer med varierende bakgrunn, objektstørrelser og uklare grenser mellom forgrunn og bakgrunn. I tillegg er integreringen av en fullstendig tilkoblet modell for betinget tilfeldig felt (CRF) implementert for å øke den romlige sammenhengen og konturpresisjonen til fremtredende kart. Effektiviteten av denne tilnærmingen ble evaluert på SOD- og ECSSD-datasett med kompleks bakgrunn og ble funnet å være statistisk signifikant.

Relatert arbeid
Fu et ^al.15 foreslo en felles tilnærming ved hjelp av RGB og dyp læring for fremtredende objektdeteksjon. Lai et ^al.16 introduserte en svakt overvåket modell for fremtredende objektdeteksjon, læring av merknader, primært ved å bruke skribleetiketter for å spare merknadstid. Mens disse algoritmene presenterte en fusjon av to komplementære nettverk for saliency objektdeteksjon, mangler de grundig undersøkelse av saliency deteksjon under komplekse scenarier. Wang et ^al.17 designet en to-modus iterativ fusjon av nevrale nettverksfunksjoner, både nedenfra og opp og ovenfra og ned, og optimaliserte gradvis resultatene fra forrige iterasjon til konvergens. Zhang et ^al.18 smeltet effektivt sammen bildesemantisk og romlig informasjon ved hjelp av dype nettverk med toveis informasjonsoverføring fra henholdsvis grunne til dype og fra dype til grunne lag. Påvisning av fremtredende objekter ved hjelp av en gjensidig læring dyp modell ble foreslått av Wu et ^al.19. Modellen benytter forgrunns- og kantinformasjon i et konvolusjonelt nevralt nettverk for å lette deteksjonsprosessen. Disse dype nevrale nettverksbaserte fremtredende objektdeteksjonsmodellene har oppnådd bemerkelsesverdig ytelse på offentlig tilgjengelige datasett, noe som muliggjør fremtredende objektdeteksjon i komplekse naturlige scener. Likevel er design av enda mer overlegne modeller fortsatt et viktig mål i dette forskningsfeltet og tjener som den primære motivasjonen for denne studien.

Overordnet rammeverk
Den foreslåtte modellens skjematiske fremstilling, som vist i figur 1, er hovedsakelig avledet fra VGG16-arkitekturen, som omfatter både et pikselnivå multiskala fullt konvolusjonelt nevralt nettverk (DCL) og et dypt koder-dekodernettverk (DEDN). Modellen eliminerer all endelig sammenslåing og fullt tilkoblede lag i VGG16, samtidig som den har plass til bildedimensjonene W × H. Operasjonsmekanismen innebærer den første behandlingen av inngangsbildet via DCL, noe som letter utvinningen av dype funksjoner, mens grunne funksjoner hentes fra DEDN-nettverkene. Sammenslåingen av disse egenskapene blir deretter utsatt for en fullstendig tilkoblet betinget tilfeldig felt (CRF) modell, som øker den romlige sammenhengen og konturnøyaktigheten til de produserte saliencykartene.

For å fastslå modellens effektivitet gjennomgikk den testing og validering på SOD²⁰ – og ECSSD^21-datasett med intrikat bakgrunn. Etter at inndatabildet passerer gjennom DCL, oppnås forskjellige skalafunksjonskart med forskjellige mottakelige felt, og kontekstuell semantikk kombineres for å produsere et W- × H-kart med interdimensjonal sammenheng. DCL benytter et par konvolusjonslag med 7 x 7 kjerner for å erstatte det endelige sammenslutningslaget i det opprinnelige VGG16-nettverket, noe som forbedrer bevaringen av romlig informasjon i funksjonskartene. Dette, kombinert med kontekstuell semantikk, produserer et W × H fremtredende kart med interdimensjonal koherens. På samme måte bruker Deep Encoder-Decoder Network (DEDN) konvolusjonslag med 3 x 3 kjerner i dekoderne og et enkelt konvolusjonslag etter den siste dekodingsmodulen. Ved å utnytte dype og grunne funksjoner i bildet, er det mulig å generere et fremtredende kart med en romlig dimensjon på W × H, som adresserer utfordringen med utydelige objektgrenser. Studien beskriver en banebrytende teknikk for fremtredende objektdeteksjon som samler DCL- og DEDN-modellene til et enhetlig nettverk. Vektene til disse to dype nettverkene læres gjennom en treningsprosess, og de resulterende saliency-kartene slås sammen og raffineres deretter ved hjelp av et fullt tilkoblet betinget tilfeldig felt (CRF). Hovedmålet med denne forbedringen er å forbedre romlig konsistens og konturlokalisering.

Pixel-nivå multiscale fullt konvolusjonelle nevrale nettverk
VGG16-arkitekturen besto opprinnelig av fem sammenslutningslag, hvert med et skritt på 2. Hvert sammenslutningslag komprimerer bildestørrelsen for å øke antall kanaler, og henter mer kontekstavhengig informasjon. DCL-modellen er inspirert av litteratur¹³ og er en forbedring av rammeverket til VGG16. I denne artikkelen brukes en DCL-modell¹¹ på pikselnivå, som vist i figur 2 i arkitekturen til VGG16, et dypt konvolusjonelt nevralt nettverk. De første fire maksimale sammenslutningslagene er sammenkoblet med tre kjerner. Den første kjernen er 3 × 3 × 128; den andre kjernen er 1 × 1 × 128; og den tredje kjernen er 1 × 1 × 1. For å oppnå en ensartet størrelse på funksjonskart etter de første fire sammenslutningslagene, koblet til tre kjerner, der hver størrelse tilsvarer en åttendedel av det opprinnelige bildet, settes trinnstørrelsen til den første kjernen som er koblet til disse fire største sammenslutningslagene, til henholdsvis 4, 2, 1 og 1.

For å bevare det opprinnelige mottakelige feltet i de forskjellige kjernene, brukes “hullalgoritmen” foreslått i litteratur¹¹ til å utvide størrelsen på kjernen ved å legge til nuller, og dermed opprettholde integriteten til kjernen. Disse fire funksjonskartene er koblet til den første kjernen med forskjellige trinnstørrelser. Følgelig har funksjonskartene produsert i sluttfasen identiske dimensjoner. De fire funksjonskartene utgjør et sett med multiskalafunksjoner hentet fra forskjellige skalaer, som hver representerer varierende størrelser på mottakelige felt. De resulterende funksjonskartene hentet fra de fire mellomlagene er sammenkoblet med det ultimate funksjonskartet avledet fra VGG16, og genererer dermed en 5-kanals utgang. Den påfølgende utgangen blir deretter utsatt for en 1 × 1 × 1 kjerne med sigmoid-aktiveringsfunksjonen, som til slutt produserer det fremtredende kartet (med en oppløsning på en åttendedel av det opprinnelige bildet). Bildet oppsamples og forstørres ved hjelp av bilinær interpolering, noe som sikrer at det resulterende bildet, referert til som saliency-kartet, opprettholder en identisk oppløsning som det opprinnelige bildet.

Dypt koder-dekoder nettverk
På samme måte brukes VGG16-nettverket som ryggradsnettverk. VGG16 er preget av et lavt antall grunne funksjonskartkanaler, men høy oppløsning og et høyt antall dype funksjonskanaler, men lav oppløsning. Sammenslåing av lag og nedsampling øker beregningshastigheten til det dype nettverket på bekostning av å redusere funksjonskartoppløsningen. For å løse dette problemet, etter analysen i litteratur¹⁴, brukes kodernettverket til å endre den fullstendige tilkoblingen til det siste sammenslutningslaget i den opprinnelige VGG16. Denne modifikasjonen innebærer å erstatte den med to konvolusjonslag med 7 × 7 kjerner (større konvolusjonelle kjerner øker det mottakelige feltet). Begge konvolusjonskjernene er utstyrt med en normaliseringsoperasjon (BN) og en modifisert lineær enhet (ReLU). Denne justeringen resulterer i et funksjonskart for koderutdata som bedre bevarer informasjon om bildeplass.

Mens koderen forbedrer bildesemantikk på høyt nivå for global lokalisering av fremtredende objekter, forbedres ikke problemet med grenseuskarphet for det fremtredende objektet effektivt. For å takle dette problemet er dype funksjoner smeltet sammen med grunne funksjoner, inspirert av kantdeteksjonsarbeid¹², og foreslår nettverksmodellen for koder-dekoder (DEDN) som vist i figur 3. Koderarkitekturen består av tre kjerner som er sammenkoblet med de første fire, mens dekoderen systematisk forbedrer funksjonskartoppløsningen ved å bruke maksimumsverdiene hentet fra de maksimale sammenslutningslagene.

I denne innovative metodikken for fremtredende objektdeteksjon, under dekoderfasen, benyttes et konvolusjonslag med en 3 × 3-kjerne i kombinasjon med et batchnormaliseringslag og en tilpasset lineær enhet. Ved avslutningen av den endelige dekodingsmodulen i dekoderarkitekturen brukes et enkanals konvolusjonslag for å skaffe et fremtredende kart over romlige dimensjoner W × H. Det fremtredende kartet genereres gjennom en samarbeidende fusjon av koder-dekodermodellen, som gir utfallet, og den komplementære fusjonen av de to, dvs. den komplementære fusjonen av dyp informasjon og grunne opplysninger. Dette oppnår ikke bare nøyaktig lokalisering av det fremtredende objektet og øker det mottakelige feltet, men bevarer også effektivt bildedetaljinformasjon og styrker grensen til det fremtredende objektet.

Integrasjon mekanisme
Koderarkitekturen består av tre kjerner, som er knyttet til de første fire maksimale sammenslutningslagene i VGG16-modellen. I motsetning til dette er dekoderen bevisst formulert for gradvis å øke oppløsningen til funksjonskart som er anskaffet fra oppsamplingslagene, ved å utnytte de maksimale verdiene som er oppnådd fra de tilsvarende sammenslutningslagene. Et konvolusjonslag som benytter en 3 x 3 kjerne, et batchnormaliseringslag og en modifisert lineær enhet blir deretter benyttet i dekoderen, etterfulgt av et enkeltkanals konvolusjonslag for å generere et fremtredende kart over dimensjoner W × H. Vekten av de to dype nettverkene læres gjennom vekslende treningssykluser. Det første nettverkets parametere ble holdt faste, mens det andre nettverkets parametere gjennomgikk opplæring i totalt femti sykluser. Under prosessen oppdateres vektene til saliency-kartet (^S1 og ^S2) som brukes til fusjon via en tilfeldig gradient. Tapsfunksjonen¹¹ er:

(1)

I det gitte uttrykket representerer symbolet G den manuelt merkede verdien, mens W betyr det komplette settet med nettverksparametere. Vekten β_i fungerer som en balanseringsfaktor for å regulere andelen fremtredende piksler kontra ikke-fremtredende piksler i beregningsprosessen.

Bildet I er preget av tre parametere: |I|, |I|_– og |I|₊, som representerer henholdsvis totalt antall piksler, antallet ikke-fremtredende piksler og antallet fremtredende piksler.

Siden de fremtredende kartene hentet fra de to ovennevnte nettverkene ikke tar hensyn til sammenhengen til nærliggende piksler, brukes en fullt tilkoblet pikselnivå saliency refinement model CRF¹⁵ for å forbedre romlig sammenheng. Energiligningen¹¹ er som følger, og løser problemet med binær pikselmerking.

(2)

der L angir den binære etiketten (fremtredende verdi eller ikke-fremtredende verdi) som er tilordnet alle piksler. Variabelen P (l_i) angir sannsynligheten for at en gitt piksel x_iblir tildelt en bestemt etikett l_i, noe som indikerer sannsynligheten for at piksel x_ier viktighet. I begynnelsen er P(1) = S_iog P(0) = 1 – S_i, hvor S_iangir saliency-verdien ved pikselen x_iinnenfor det smeltede saliency-kartet S. θ_i,j(l_i,l _j) er det parvise potensialet, definert som følger.

(3)

Blant dem, hvis l_i≠ l_j, så μ(l_i,l _j) = 1, ellers μ(l_i,l _j) = 0. Beregningen av θ_i,j innebærer bruk av to kjerner, hvor den opprinnelige kjernen er avhengig av både pikselposisjonen P og pikselintensiteten I. Dette resulterer i nærheten til piksler med lignende farger som viser sammenlignbare saliency-verdier. De to parameterne, σ_α og σ_β, regulerer i hvilken grad fargelikhet og romlig nærhet påvirker utfallet. Målet med den andre kjernen er å eliminere isolerte små regioner. Minimeringen av energi oppnås gjennom høydimensjonal filtrering, som fremskynder middelfeltet for CRF-fordelingen (Conditional Random Field). Ved beregning viser det fremtredende kartet betegnet som S_crf forbedret romlig sammenheng og kontur med hensyn til de fremtredende objektene som er oppdaget.

Eksperimentelle konfigurasjoner
I denne artikkelen er et dypt nettverk for fremtredende måldeteksjon basert på VGG16 nevrale nettverk konstruert ved hjelp av Python. Den foreslåtte modellen sammenlignes med andre metoder som bruker datasettene SOD²⁰ og ECSSD²¹ . SOD-bildedatabasen er kjent for sine komplekse og rotete bakgrunner, likhet i farger mellom forgrunn og bakgrunn, og små objektstørrelser. Hvert bilde i dette datasettet tilordnes en manuelt merket sann verdi for både kvantitativ og kvalitativ ytelsesevaluering. På den annen side består ECSSD-datasettet hovedsakelig av bilder hentet fra Internett, med mer komplekse og realistiske naturscener med lav kontrast mellom bildebakgrunnen og fremtredende objekter.

Evalueringsindeksene som brukes til å sammenligne modellen i denne artikkelen, inkluderer den ofte brukte Precision-Recall-kurven, F_βog E_MAE. For å kvantitativt vurdere det predikerte saliency-kartet, brukes Precision-Recall (P-R)-kurven²² ved å endre terskelen fra 0 til 255 for binarisering av saliency-kartet. F_βer en omfattende vurderingsmetrikk, beregnet med presisjons- og tilbakekallingsligningene avledet fra det binariserte fremtredende kartet og et sant verdikart.

(4)

der β er vektparameteren for å justere nøyaktigheten og tilbakekallingen, innstilling β² = 0,3. Beregningen av E_MAEer ekvivalent med å beregne den gjennomsnittlige absolutte feilen mellom det resulterende saliency-kartet og bakkesannhetskartet, som definert av det påfølgende matematiske uttrykket:

(5)

La T_s(u,v) betegne den utpakkede verdien til de fremtredende kartpikslene (u,v), og la T_G(u,v) angi den tilsvarende verdien til de sanne kartpikslene (u,v).

Protocol

1. Eksperimentelt oppsett og prosedyre Legg i den forhåndstrente VGG16-modellen.MERK: Det første trinnet er å laste den forhåndstrente VGG16-modellen fra Keras-biblioteket6.For å laste inn en forhåndstrent VGG16-modell i Python ved hjelp av populære dyplæringsbiblioteker som PyTorch (se Materialfortegnelse), følg disse generelle trinnene:Importer lommelykt. Importer torchvision.models som mod…

Representative Results

Denne studien introduserer et ende-til-ende dypt nevralt nettverk som består av to komplementære nettverk: et multi-skala fullskala nettverk på pikselnivå og et dypt koder-dekodernettverk. Det første nettverket integrerer kontekstuell semantikk for å utlede visuelle kontraster fra funksjonskart i flere skalaer, og adresserer utfordringen med faste mottakelige felt i dype nevrale nettverk på tvers av forskjellige lag. Det andre nettverket bruker både dype og grunne bildefunksjoner for å redusere problemet med usk…

Discussion

Artikkelen introduserer et ende-til-ende dypt nevralt nettverk spesielt designet for deteksjon av fremtredende objekter i komplekse miljøer. Nettverket består av to sammenkoblede komponenter: et fullskala nettverk på pikselnivå (DCL) og et dypt koder-dekodernettverk (DEDN). Disse komponentene fungerer synergistisk, og inkorporerer kontekstuell semantikk for å generere visuelle kontraster i funksjonskart i flere skalaer. I tillegg utnytter de både dype og grunne bildefunksjoner for å forbedre presisjonen av objektg…

Disclosures

The authors have nothing to disclose.

Acknowledgements

Dette arbeidet støttes av 2024 Henan Provincial Higher Education Institutions Key Scientific Research Project Funding Program Establishment (prosjektnummer: 24A520053). Denne studien støttes også av Specialized Creation and Integration Karakteristisk demonstrasjonskurskonstruksjon i Henan-provinsen.

Materials

Matlab	MathWorks	Matlab R2016a	MATLAB's programming interface provides development tools for improving code quality maintainability and maximizing performance. It provides tools for building applications using custom graphical interfaces. It provides tools for combining MATLAB-based algorithms with external applications and languages
Processor	Intel	11th Gen Intel(R) Core (TM) i5-1135G7 @ 2.40GHz	64-bit Win11 processor
Pycharm	JetBrains	PyCharm 3.0	PyCharm is a Python IDE (Integrated Development Environment) a list of required python: modulesmatplotlib skimage torch os time pydensecrf opencv glob PIL torchvision numpy tkinter
PyTorch	Facebook	PyTorch 1.4	PyTorch is an open source Python machine learning library , based on Torch , used for natural language processing and other applications.PyTorch can be viewed both as the addition of GPU support numpy , but also can be viewed as a powerful deep neural network with automatic derivatives .

References

Wang, W. G., Shen, J. B., Ling, H. B. A deep network solution for attention and aesthetics aware photo cropping. IEEE Transactions on Pattern Analysis and Machine Intelligence. 41 (7), 1531-1544 (2018).
Wang, W. G., Sun, G. L., Gool, L. V. Looking beyond single images for weakly supervised semantic segmentation learning. IEEE Transactions on Pattern Analysis and Machine. , (2022).
Mei, H. L., et al. Exploring dense context for salient object detection. IEEE Transactions on Circuits and Systems for Video Technology. 32 (3), 1378-1389 (2021).
Borji, A., Itti, L. State-of-the-art in visual attention modeling. IEEE Transactions on Pattern Analysis and Machine Intelligence. 35 (1), 185-207 (2012).
Long, J., Shelhamer, E., Darrell, T. Fully convolutional networks for semantic segmentation. , 3431-3440 (2015).
Simonyan, K., Zisserman, A. Very deep convolutional networks for large-scale image recognition. arXiv preprint. , 1409-1556 (2014).
He, K., Zhang, X., Ren, S., Sun, J. Deep residual learning for image recognition. , 770-778 (2016).
Liu, N., Han, J. Dhsnet: Deep hierarchical saliency network for salient object detection. , 678-686 (2016).
Zhang, L., Dai, J., Lu, H., He, Y., Wang, G. A bi-directional message passing model for salient object detection. , 1741-1750 (2018).
Wu, R., et al. A mutual learning method for salient object detection with intertwined multi-supervision. , 8150-8159 (2019).
Li, G., Yu, Y. Deep contrast learning for salient object detection. , 478-487 (2019).
Ren, Q., Hu, R. Multi-scale deep encoder-decoder network for salient object detection. Neurocomputing. 316, 95-104 (2018).
Wang, W. G., et al. Salient object detection in the deep learning era: An in-depth survey. IEEE Transactions on Pattern Analysis and Machine Intelligence. 44 (6), 3239-3259 (2021).
Zhou, T., et al. RGB-D salient object detection: A survey. Computational Visual Media. 7, 37-69 (2021).
Fu, K., et al. Siamese network for RGB-D salient object detection and beyond. IEEE Transactions on Pattern Analysis and Machine Intelligence. 44 (9), 5541-5559 (2021).
Lai, Q., et al. Weakly supervised visual saliency prediction. IEEE Transactions on Image Processing. 31, 3111-3124 (2022).
Zhang, L., Dai, J., Lu, H., He, Y., Wang, G. A bi-directional message passing model for salient object detection. , 1741-1750 (2018).
Wu, R. A mutual learning method for salient object detection with intertwined multi-supervision. , 8150-8159 (2019).
Wang, W., Shen, J., Dong, X., Borji, A., Yang, R. Inferring salient objects from human fixations. IEEE Transactions on Pattern Analysis and Machine Intelligence. 42 (8), 1913-1927 (2019).
Movahedi, V., Elder, J. H. Design and perceptual validation of performance measures for salient object segmentation. , 49-56 (2010).
Shi, J., Yan, Q., Xu, L., Jia, J. Hierarchical image saliency detection on extended CSSD. IEEE Transactions on Pattern Analysis and Machine Intelligence. 38 (4), 717-729 (2015).
Achanta, R., Hemami, S., Estrada, F., Susstrunk, S. Frequency-tuned salient region detection. , 1597-1604 (2009).
Yang, C., Zhang, L., Lu, H., Ruan, X., Yang, M. H. Saliency detection via graph-based manifold ranking. , 3166-3173 (2013).
Wei, Y., et al. Geodesic saliency using background priors. Computer Vision-ECCV 2012. , 29-42 (2012).
Margolin, R., Tal, A., Zelnik-Manor, L. What makes a patch distinct. , 1139-1146 (2013).
Perazzi, F., Krähenbühl, P., Pritch, Y., Hornung, A. Saliency filters: Contrast based filtering for salient region detection. , 733-740 (2012).
Hou, X., Harel, J., Koch, C. Image signature: Highlighting sparse salient regions. IEEE Transactions on Pattern Analysis and Machine Intelligence. 34 (1), 194-201 (2011).
Jiang, H., et al. Salient object detection: A discriminative regional feature integration approach. , 2083-2090 (2013).
Li, G., Yu, Y. Visual saliency based on multiscale deep features. , 5455-5463 (2015).
Lee, G., Tai, Y. W., Kim, J. Deep saliency with encoded low level distance map and high-level features. , 660-668 (2016).
Liu, N., Han, J. Dhsnet: Deep hierarchical saliency network for salient object detection. , 678-686 (2016).

Play Video

PDF

DOI

DOWNLOAD MATERIALS LIST

Cite This Article

Wang, Y., Wang, Z. End-To-End Deep Neural Network for Salient Object Detection in Complex Environments. J. Vis. Exp. (202), e65554, doi:10.3791/65554 (2023).