End-To-End Deep Neural Network for Salient Object Detection in Complex Environments

Yu Wang; Zhiteng Wang

doi:10.3791/65554

JoVE Journal > Engineering

공학

End-to-end dybt neuralt netværk til registrering af fremtrædende objekter i komplekse miljøer

Published: December 15, 2023

doi:

10.3791/65554

Yu Wang, Zhiteng Wang

¹Zhengzhou University of Economics and Business, ²The 713 Research Institute of CSSC

Summary

Denne protokol beskriver en ny end-to-end fremtrædende objektdetekteringsalgoritme. Det udnytter dybe neurale netværk til at forbedre præcisionen af fremtrædende objektdetektering inden for indviklede miljøsammenhænge.

Abstract

Detektering af fremtrædende objekter er opstået som et spirende interesseområde inden for computersyn. Imidlertid udviser fremherskende algoritmer formindsket præcision, når de har til opgave at detektere fremtrædende objekter i indviklede og mangesidede miljøer. I lyset af denne presserende bekymring præsenterer denne artikel et end-to-end dybt neuralt netværk, der sigter mod at opdage fremtrædende objekter i komplekse miljøer. Undersøgelsen introducerer et end-to-end dybt neuralt netværk, der sigter mod at opdage fremtrædende objekter i komplekse miljøer. Det foreslåede netværk, der består af to indbyrdes forbundne komponenter, nemlig et fuldt konvolutionsnetværk på pixelniveau i flere skalaer og et dybt encoder-dekodernetværk, integrerer kontekstuel semantik for at producere visuel kontrast på tværs af funktionskort i flere skalaer, samtidig med at der anvendes dybe og overfladiske billedfunktioner for at forbedre nøjagtigheden af identifikation af objektgrænser. Integrationen af en fuldt forbundet CRF-model (conditional random field) forbedrer yderligere den rumlige sammenhæng og konturafgrænsning af fremtrædende kort. Den foreslåede algoritme evalueres grundigt mod 10 moderne algoritmer på SOD- og ECSSD-databaserne. Evalueringsresultaterne viser, at den foreslåede algoritme overgår andre tilgange med hensyn til præcision og nøjagtighed og derved etablerer sin effektivitet i fremtrædende objektdetektion i komplekse miljøer.

Introduction

Registrering af fremtrædende objekter efterligner menneskelig visuel opmærksomhed og identificerer hurtigt vigtige billedområder, mens baggrundsinformation undertrykkes. Denne teknik anvendes i vid udstrækning som et forbehandlingsværktøj i opgaver som billedbeskæring¹, semantisk segmentering² og billedredigering³. Det strømliner opgaver som baggrundsudskiftning og forgrundsudtrækning, hvilket forbedrer redigeringseffektiviteten og præcisionen. Derudover hjælper det med semantisk segmentering ved at forbedre mållokalisering. Potentialet i fremtrædende objektdetektion til at forbedre beregningseffektiviteten og bevare hukommelsen understreger dets betydelige forsknings- og anvendelsesmuligheder.

I årenes løb har fremtrædende objektdetektion udviklet sig fra indledende traditionelle algoritmer til inkorporering af deep learning-algoritmer. Formålet med disse fremskridt har været at indsnævre kløften mellem fremtrædende objektdetektion og menneskelige visuelle mekanismer. Dette har ført til vedtagelsen af dybe sammenviklede netværksmodeller til undersøgelse af detektering af fremtrædende objekter. Borji et ^al.4 opsummerede og generaliserede de fleste af de klassiske traditionelle algoritmer, der er afhængige af billedets underliggende træk. På trods af en vis forbedring i detekteringsnøjagtighed udgør manuel erfaring og kognition fortsat udfordringer for fremtrædende objektdetektion i komplekse miljøer.

Brugen af Convolutional Neural Networks (CNN’er) er udbredt inden for detektering af fremtrædende objekter. I denne sammenhæng bruges dybe sammenviklede neurale netværk til vægtopdateringer gennem autonom læring. Konvolutionelle neurale netværk er blevet anvendt til at udtrække kontekstuel semantik fra billeder ved hjælp af kaskadeformede konvolutionelle og poolinglag, hvilket muliggør læring af komplekse billedfunktioner på højere niveauer, som har højere diskrimination og karakteriseringsevne til fremtrædende objektdetektion i forskellige miljøer.

I 2016 fik fuldt konvolutionelle neurale netværk⁵ betydelig trækkraft som en populær tilgang til detektering af fremtrædende objekter, baseret på hvilken forskere startede detektering af fremtrædende objekter på pixelniveau. Mange modeller er normalt bygget på eksisterende netværk (f.eks. VGG16⁶, ResNet⁷), der har til formål at forbedre billedrepræsentationen og styrke effekten af kantdetektering.

Liu et ^al.8 brugte et allerede trænet neuralt netværk som ramme til at beregne billedet globalt og raffinerede derefter objektgrænsen ved hjælp af et hierarkisk netværk. Kombinationen af de to netværk danner det sidste dybe saliency netværk. Dette blev opnået ved at fodre det tidligere erhvervede fremtrædende kort ind i netværket som forudgående viden på en gentagen måde. Zhang et ^al.9 fusionerede effektivt billedsemantisk og rumlig information ved hjælp af dybe netværk med tovejs informationsoverførsel fra henholdsvis lavt til dybt og fra dybt til lavt lag. Opdagelsen af fremtrædende objekter ved hjælp af en dyb læringsmodel for gensidig læring blev fremsat af Wu et ^al.10. Modellen bruger forgrunds- og kantinformation inden for et indviklet neuralt netværk for at lette detektionsprocessen. Li et ^al.11 anvendte ‘hulalgoritmen’ i neurale netværk til at løse udfordringen med at fastsætte de modtagelige felter i forskellige lag i dybe neurale netværk i forbindelse med fremtrædende objektdetektion. Imidlertid bruges superpixelsegmentering til erhvervelse af objektkant, hvilket i høj grad øger beregningsindsatsen og computertiden. Ren et ^al.12 udtænkte et multiskala encoder-dekodernetværk til at detektere fremtrædende objekter og brugte convolutional neurale netværk til effektivt at kombinere dybe og overfladiske funktioner. Selvom udfordringen med grænsesløring i objektdetektion løses gennem denne tilgang, resulterer multiskala fusion af information uundgåeligt i øgede beregningskrav.

Litteraturgennemgangen¹³ foreslår, at detektion af fremtræden, fra traditionelle metoder til deep learning-metoder, opsummeres, og udviklingen af detektion af fremtrædelsesmål fra dets oprindelse til æraen med dyb læring kan ses meget tydeligt. Forskellige RGB-D-baserede modeller til detektering af fremtrædende objekter med god ydeevne er blevet foreslået i litteraturen¹⁴. Ovenstående litteratur gennemgår og klassificerer de forskellige typer algoritmer til registrering af fremtrædelsesobjekter og beskriver deres anvendelsesscenarier, de anvendte databaser og evalueringsmålingerne. Denne artikel indeholder også en kvalitativ og kvantitativ analyse af de foreslåede algoritmer vedrørende deres foreslåede databaser og evalueringsmålinger.

Alle ovennævnte algoritmer har opnået bemærkelsesværdige resultater i offentlige databaser, hvilket giver grundlag for fremtrædende objektdetektion i komplekse miljøer. Selv om der har været mange forskningsresultater på dette område både nationalt og internationalt, er der stadig nogle spørgsmål, der skal løses. (1) Traditionelle algoritmer, der ikke er dyb læring, har tendens til at have lav nøjagtighed på grund af deres afhængighed af manuelt mærkede funktioner såsom farve, tekstur og frekvens, som let kan påvirkes af subjektiv oplevelse og opfattelse. Som følge heraf mindskes præcisionen af deres fremtrædende objektdetekteringskapacitet. Detektering af fremtrædende objekter i komplekse miljøer ved hjælp af traditionelle algoritmer, der ikke er dyb læring, er udfordrende på grund af deres vanskeligheder med at håndtere indviklede scenarier. (2) Konventionelle metoder til detektering af fremtrædende genstande udviser begrænset nøjagtighed på grund af deres afhængighed af manuelt mærkede funktioner såsom farve, tekstur og frekvens. Derudover kan detektion på områdeniveau være beregningsmæssigt dyrt, ofte ignoreres rumlig konsistens og har tendens til dårligt at registrere objektgrænser. Disse problemer skal løses for at forbedre præcisionen af fremtrædende objektdetektion. (3) Detektering af fremtrædende objekter i indviklede miljøer udgør en udfordring for de fleste algoritmer. De fleste algoritmer til registrering af fremtrædende objekter står over for alvorlige udfordringer på grund af det stadig mere komplekse miljø til registrering af fremtrædende objekter med variable baggrunde (lignende baggrunds- og forgrundsfarver, komplekse baggrundsteksturer osv.), mange usikkerheder såsom inkonsekvente detekteringsobjektstørrelser og den uklare definition af forgrunds- og baggrundskanter.

De fleste af de nuværende algoritmer udviser lav nøjagtighed ved detektering af fremtrædende objekter i komplekse miljøer med lignende baggrunds- og forgrundsfarver, komplekse baggrundsteksturer og slørede kanter. Selvom nuværende deep learning-baserede fremtrædende objektalgoritmer viser højere nøjagtighed end traditionelle detektionsmetoder, mangler de underliggende billedfunktioner, de bruger, stadig ikke at karakterisere semantiske træk effektivt, hvilket giver plads til forbedring af deres ydeevne.

Sammenfattende foreslår denne undersøgelse et end-to-end dybt neuralt netværk til en fremtrædende objektdetekteringsalgoritme, der sigter mod at forbedre nøjagtigheden af fremtrædende objektdetektion i komplekse miljøer, forbedre målkanter og bedre karakterisere semantiske træk. Bidragene i dette dokument er som følger: (1) Det første netværk anvender VGG16 som basisnetværk og ændrer sine fem puljelag ved hjælp af “hulalgoritmen”¹¹. Det pixel-niveau multi-skala fuldt convolutional neurale netværk lærer billedfunktioner fra forskellige rumlige skalaer, adresserer udfordringen med statiske modtagelige felter på tværs af forskellige lag af dybe neurale netværk og forbedrer detektionsnøjagtigheden i betydelige fokusområder i marken. (2) De seneste bestræbelser på at forbedre nøjagtigheden af detektering af fremtrædende objekter har fokuseret på at udnytte dybere neurale netværk, såsom VGG16, til at udtrække både dybdefunktioner fra kodernetværket og overfladiske funktioner fra dekodernetværket. Denne fremgangsmåde forbedrer effektivt registreringsnøjagtigheden af objektgrænser og forbedrer semantiske oplysninger, især i komplekse miljøer med variabel baggrund, inkonsekvente objektstørrelser og utydelige grænser mellem forgrund og baggrund. (3) Nylige bestræbelser på at forbedre præcisionen af detektering af fremtrædende objekter har understreget brugen af dybere netværk, herunder VGG16, til at udtrække dybe funktioner fra kodernetværket og overfladiske funktioner fra dekodernetværket. Denne tilgang har vist forbedret registrering af objektgrænser og større semantisk information, især i komplekse miljøer med forskellige baggrunde, objektstørrelser og utydelige grænser mellem forgrund og baggrund. Derudover er integrationen af en fuldt forbundet betinget tilfældig feltmodel (CRF) blevet implementeret for at øge den rumlige sammenhæng og konturpræcision af fremtrædende kort. Effektiviteten af denne tilgang blev evalueret på SOD- og ECSSD-datasæt med kompleks baggrund og viste sig at være statistisk signifikant.

Relateret arbejde
Fu et ^al.15 foreslog en fælles tilgang ved hjælp af RGB og dyb læring til detektering af fremtrædende objekter. Lai et ^al.16 introducerede en svagt overvåget model til fremtrædende objektdetektion, der lærte fremtræden fra annoteringer, primært ved hjælp af skribleetiketter for at spare annotationstid. Mens disse algoritmer præsenterede en fusion af to komplementære netværk til detektion af fremtrædelsesobjekter, mangler de dybdegående undersøgelse af fremtrædelsesdetektion under komplekse scenarier. Wang et ^al.17 designede en to-mode iterativ fusion af neurale netværksfunktioner, både bottom-up og top-down, gradvist optimering af resultaterne af den tidligere iteration indtil konvergens. Zhang et ^al.18 fusionerede effektivt billedsemantisk og rumlig information ved hjælp af dybe netværk med tovejs informationsoverførsel fra henholdsvis lavt til dybt og fra dybt til lavt lag. Påvisning af fremtrædende objekter ved hjælp af en dyb læringsmodel blev foreslået af Wu et ^al.19. Modellen bruger forgrunds- og kantinformation inden for et indviklet neuralt netværk for at lette detektionsprocessen. Disse dybe neurale netværksbaserede modeller til registrering af fremtrædende objekter har opnået bemærkelsesværdig ydeevne på offentligt tilgængelige datasæt, hvilket muliggør registrering af fremtrædende objekter i komplekse naturlige scener. Ikke desto mindre er design af endnu mere overlegne modeller fortsat et vigtigt mål inden for dette forskningsfelt og tjener som den primære motivation for denne undersøgelse.

Overordnet ramme
Den foreslåede models skematiske repræsentation, som afbildet i figur 1, er primært afledt af VGG16-arkitekturen, der omfatter både et pixel-niveau multiscale fully convolutional neural network (DCL) og et deep encoder-decoder network (DEDN). Modellen eliminerer al endelig pooling og fuldt tilsluttede lag af VGG16, samtidig med at den imødekommer inputbilleddimensioner på W × H. Den operationelle mekanisme involverer den indledende behandling af inputbilledet via DCL, hvilket letter udvindingen af dybe funktioner, mens lavvandede funktioner opnås fra DEDN-netværkene. Sammenlægningen af disse karakteristika udsættes efterfølgende for en fuldt forbundet betinget tilfældighedsfeltmodel (CRF), der øger den rumlige sammenhæng og konturnøjagtigheden af de frembragte fremdriftskort.

For at fastslå modellens effektivitet gennemgik den test og validering på SOD²⁰ og ECSSD²¹ datasæt med indviklede baggrunde. Når inputbilledet passerer gennem DCL, opnås forskellige skalafunktionskort med forskellige modtagelige felter, og kontekstuel semantik kombineres for at producere et W × H fremtrædende kort med interdimensionel sammenhæng. DCL anvender et par sammenviklede lag med 7 x 7 kerner til at erstatte det endelige poolinglag i det originale VGG16-netværk, hvilket forbedrer bevarelsen af rumlig information i funktionskortene. Dette kombineret med kontekstuel semantik producerer et W × H fremtrædende kort med interdimensionel sammenhæng. På samme måde bruger Deep Encoder-Decoder Network (DEDN) viklingslag med 3 x 3 kerner i dekoderne og et enkelt viklingslag efter det sidste afkodningsmodul. Ved at udnytte dybe og overfladiske funktioner i billedet er det muligt at generere et fremtrædende kort med en rumlig dimension på W × H, der adresserer udfordringen med utydelige objektgrænser. Undersøgelsen beskriver en banebrydende teknik til detektering af fremtrædende objekter, der samler DCL- og DEDN-modellerne i et samlet netværk. Vægten af disse to dybe netværk læres gennem en træningsproces, og de resulterende fremtrædelseskort flettes og raffineres derefter ved hjælp af et fuldt forbundet betinget tilfældigt felt (CRF). Det primære mål med denne forbedring er at forbedre rumlig konsistens og konturlokalisering.

Pixel-niveau multiscale fuldt convolutional neurale netværk
VGG16-arkitekturen bestod oprindeligt af fem puljelag, hver med et skridt på 2. Hvert grupperingslag komprimerer billedstørrelsen for at øge antallet af kanaler og få mere kontekstuelle oplysninger. DCL-modellen er inspireret af litteratur¹³ og er en forbedring af rammerne for VGG16. I denne artikel anvendes en DCL-model¹¹ på pixelniveau, som vist i figur 2 inden for arkitekturen i VGG16, et dybt indviklet neuralt netværk. De første fire maksimale poolinglag er forbundet med tre kerner. Den første kerne er 3 × 3 × 128; den anden kerne er 1 × 1 × 128; og den tredje kerne er 1 × 1 × 1. For at opnå en ensartet størrelse af funktionskort efter de første fire grupperingslag, forbundet til tre kerner, hvor hver størrelse svarer til en ottendedel af det originale aftryk, er trinstørrelsen for den første kerne, der er forbundet med disse fire største grupperingslag, indstillet til henholdsvis 4, 2, 1 og 1.

For at bevare det oprindelige modtagelige felt i de forskellige kerner bruges “hulalgoritmen” foreslået i litteratur¹¹ til at udvide kernens størrelse ved at tilføje nuller og dermed opretholde kernens integritet. Disse fire funktionskort er forbundet til den første kerne med forskellige trinstørrelser. De funktionskort, der produceres i slutfasen, har derfor identiske dimensioner. De fire funktionskort udgør et sæt multiskalafunktioner opnået fra forskellige skalaer, der hver repræsenterer forskellige størrelser af modtagelige felter. De resulterende funktionskort opnået fra de fire mellemliggende lag sammenkædes med det ultimative funktionskort afledt af VGG16, hvilket genererer et 5-kanals output. Det efterfølgende output udsættes efterfølgende for en 1 × 1 × 1 kerne med sigmoidaktiveringsfunktionen, hvilket i sidste ende producerer det fremtrædende kort (med en opløsning på en ottendedel af det originale billede). Billedet opsamples og forstørres ved hjælp af bilineær interpolation, hvilket sikrer, at det resulterende billede, kaldet fremtrædelseskortet, opretholder en identisk opløsning som det oprindelige billede.

Dybt encoder-dekoder netværk
På samme måde anvendes VGG16-netværket som backbone-netværket. VGG16 er kendetegnet ved et lavt antal lavvandede funktionskortkanaler, men høj opløsning og et stort antal dybe funktionskanaler, men lav opløsning. Gruppering af lag og nedsampling øger beregningshastigheden for det dybe netværk på bekostning af at reducere dets funktionskortopløsning. For at løse dette problem bruges kodernetværket efter analysen i litteratur¹⁴ til at ændre den fulde forbindelse af det sidste poollag i det originale VGG16. Denne ændring indebærer at erstatte den med to konvolutionelle lag med 7 × 7 kerner (større konvolutionelle kerner øger det modtagelige felt). Begge konvolutionskerner er udstyret med en normaliseringsoperation (BN) og en modificeret lineær enhed (ReLU). Denne justering resulterer i et kort over koderoutputfunktioner, der bedre bevarer oplysninger om billedrum.

Mens koderen forbedrer billedsemantik på højt niveau til global lokalisering af fremtrædende objekter, forbedres problemet med grænsesløring af dets fremtrædende objekt ikke effektivt. For at løse dette problem smelter dybe funktioner sammen med overfladiske funktioner, inspireret af kantdetekteringsarbejde¹², der foreslår encoder-dekodernetværksmodellen (DEDN) som vist i figur 3. Koderarkitekturen består af tre kerner, der er forbundet med de første fire, mens dekoderen systematisk forbedrer funktionskortopløsningen ved hjælp af de maksimale værdier, der hentes fra de maksimale poolinglag.

I denne innovative metode til detektering af fremtrædende objekter anvendes under dekoderfasen et konvolutionelt lag med en 3 × 3-kerne i kombination med et batchnormaliseringslag og en tilpasset lineær enhed. Ved afslutningen af det endelige afkodningsmodul inden for dekoderarkitekturen anvendes et ensomt kanalviklingslag til at skaffe et fremtrædende kort over rumlige dimensioner W × H. Det fremtrædende kort genereres gennem en samarbejdsfusion af koder-dekodermodellen, hvilket giver resultatet, og den komplementære fusion af de to, dvs. den komplementære fusion af dyb information og lav information. Dette opnår ikke kun nøjagtig lokalisering af det fremtrædende objekt og øger det modtagelige felt, men bevarer også effektivt billeddetaljeinformation og styrker grænsen for det fremtrædende objekt.

Integrationsmekanisme
Koderarkitekturen består af tre kerner, som er forbundet med de første fire maksimale poolinglag i VGG16-modellen. I modsætning hertil er dekoderen bevidst formuleret til gradvist at øge opløsningen af funktionskort, der er erhvervet fra op-samplingslagene, ved at udnytte de maksimale værdier, der er opnået fra de tilsvarende poolinglag. Et konvolutionelt lag, der bruger en 3 x 3-kerne, et batchnormaliseringslag og en modificeret lineær enhed, bruges derefter i dekoderen, efterfulgt af et enkeltkanals konvolutionelt lag for at generere et fremtrædende kort over dimensionerne W × H. Vægten af de to dybe netværk læres gennem skiftende træningscyklusser. Det første netværks parametre blev holdt faste, mens det andet netværks parametre gennemgik træning i i alt halvtreds cyklusser. Under processen opdateres vægtene på fremtrædelseskortet (^S1 og ^S2), der anvendes til fusion, via en tilfældig gradient. Tabsfunktionen¹¹ er:

(1)

I det givne udtryk repræsenterer symbolet G den manuelt mærkede værdi, mens W betyder det komplette sæt netværksparametre. Vægten β_i fungerer som en afbalancerende faktor til at regulere andelen af fremtrædende pixels versus ikke-fremtrædende pixels i beregningsprocessen.

Billedet I er kendetegnet ved tre parametre: |I|, |I|_– og |I|₊, som repræsenterer henholdsvis det samlede antal pixels, antallet af ikke-fremtrædende pixels og antallet af fremtrædende pixels.

Da de fremtrædende kort opnået fra de to ovennævnte netværk ikke tager højde for sammenhængen mellem nabopixels, bruges en fuldt forbundet pixelniveau saliency refinement model CRF¹⁵ til at forbedre rumlig sammenhæng. Energiligningen¹¹ er som følger, der løser problemet med binær pixelmærkning.

(2)

hvor L betegner den binære etiket (fremtrædende værdi eller ikke-fremtrædende værdi), der er tildelt alle pixels. Variablen P(l_i) angiver sandsynligheden for, at en given pixel x_itildeles en bestemt etiket l_i, hvilket angiver sandsynligheden for, at pixel x_ier fremtrædende. I begyndelsen er P(1) = S_iog P(0) = 1 – S_i, hvor S_iangiver fremtrædelsesværdien ved pixel x_iinden for det sammensmeltede fremtrædelseskort S. θ_i,j(l_i,l _j) er det parvise potentiale, defineret som følger.

(3)

Blandt dem, hvis l_i≠ l_j, så μ(l_i,l _j) = 1, ellers μ(l_i,l _j) = 0. Beregningen af θ_i,j involverer brugen af to kerner, hvor den oprindelige kerne er afhængig af både pixelpositionen P og pixelintensiteten I. Dette resulterer i nærheden af pixels med lignende farver, der udviser sammenlignelige fremtrædelsesværdier. De to parametre, σ_α og σ_β, regulerer, i hvilket omfang farvelighed og rumlig nærhed påvirker resultatet. Formålet med den anden kerne er at eliminere isolerede små regioner. Minimeringen af energi opnås gennem højdimensionel filtrering, hvilket fremskynder middelfeltet for CRF-fordelingen (Conditional Random Field). Ved beregning udviser det fremtrædende kort, der betegnes som S_crf, forbedret rumlig sammenhæng og kontur med hensyn til de fremtrædende objekter, der er registreret.

Eksperimentelle konfigurationer
I denne artikel konstrueres et dybt netværk til fremtrædende måldetektion baseret på VGG16 neurale netværk ved hjælp af Python. Den foreslåede model sammenlignes med andre metoder, der anvender SOD²⁰ – og ECSSD^21-datasæt . SOD-billeddatabasen er kendt for sine komplekse og rodede baggrunde, lighed i farver mellem forgrund og baggrund og små objektstørrelser. Hvert billede i dette datasæt tildeles en manuelt mærket sand værdi for både kvantitativ og kvalitativ ydeevneevaluering. På den anden side består ECSSD-datasættet primært af billeder fra internettet med mere komplekse og realistiske naturscener med lav kontrast mellem billedbaggrunden og fremtrædende objekter.

De evalueringsindekser, der bruges til at sammenligne modellen i dette papir, inkluderer den almindeligt anvendte præcisions-tilbagekaldelseskurve, F_βog E_MAE. For kvantitativt at vurdere det forudsagte fremtræningskort anvendes Precision-Recall (P-R) kurve²² ved at ændre tærsklen fra 0 til 255 for binarisering af fremtrædelseskortet. F_βer en omfattende vurderingsmetrik, beregnet med præcisions- og tilbagekaldelsesligningerne afledt af det binariserede fremtrædende kort og et sandt værdikort.

(4)

hvor β er vægtparameteren til justering af nøjagtighed og tilbagekaldelse, indstilling β² = 0,3. Beregningen af E_MAEsvarer til beregning af den gennemsnitlige absolutte fejl mellem det resulterende fremtræningskort og grundsandhedskortet, som defineret ved det efterfølgende matematiske udtryk:

(5)

Lad T_s(u,v) betegne den udtrukne værdi af de fremtrædende kortpixels (u,v), og lad T_G(u,v) angive den tilsvarende værdi af de sande kortpixels (u,v).

Protocol

1. Eksperimentel opsætning og procedure Indlæs den forudtrænede VGG16-model.BEMÆRK: Det første trin er at indlæse den forudtrænede VGG16-model fra Keras-biblioteket6.Følg disse generelle trin for at indlæse en forudtrænet VGG16-model i Python ved hjælp af populære deep learning-biblioteker som PyTorch (se materialetabel):Import fakkel. Importer torchvision.models som modeller. …

Representative Results

Denne undersøgelse introducerer et end-to-end dybt neuralt netværk, der består af to komplementære netværk: et pixel-niveau multi-skala fuldt convolutional netværk og et dybt encoder-dekoder netværk. Det første netværk integrerer kontekstuel semantik for at udlede visuelle kontraster fra funktionskort i flere skalaer, hvilket adresserer udfordringen med faste modtagelige felter i dybe neurale netværk på tværs af forskellige lag. Det andet netværk bruger både dybe og overfladiske billedfunktioner til at afb?…

Discussion

Artiklen introducerer et end-to-end dybt neuralt netværk, der er specielt designet til detektion af fremtrædende objekter i komplekse miljøer. Netværket består af to sammenkoblede komponenter: et multiscale multiscale fully convolutional network (DCL) på pixelniveau og et deep encoder-decoder network (DEDN). Disse komponenter arbejder synergistisk og inkorporerer kontekstuel semantik for at generere visuelle kontraster inden for funktionskort i flere skalaer. Derudover udnytter de både dybe og overfladiske billedf…

Disclosures

The authors have nothing to disclose.

Acknowledgements

Dette arbejde understøttes af 2024 Henan Provincial Higher Education Institutions Key Scientific Research Project Funding Program Establishment (projektnummer: 24A520053). Denne undersøgelse understøttes også af Specialized Creation and Integration Characteristic Demonstration Course Construction i Henan-provinsen.

Materials

Matlab	MathWorks	Matlab R2016a	MATLAB's programming interface provides development tools for improving code quality maintainability and maximizing performance. It provides tools for building applications using custom graphical interfaces. It provides tools for combining MATLAB-based algorithms with external applications and languages
Processor	Intel	11th Gen Intel(R) Core (TM) i5-1135G7 @ 2.40GHz	64-bit Win11 processor
Pycharm	JetBrains	PyCharm 3.0	PyCharm is a Python IDE (Integrated Development Environment) a list of required python: modulesmatplotlib skimage torch os time pydensecrf opencv glob PIL torchvision numpy tkinter
PyTorch	Facebook	PyTorch 1.4	PyTorch is an open source Python machine learning library , based on Torch , used for natural language processing and other applications.PyTorch can be viewed both as the addition of GPU support numpy , but also can be viewed as a powerful deep neural network with automatic derivatives .

References

Wang, W. G., Shen, J. B., Ling, H. B. A deep network solution for attention and aesthetics aware photo cropping. IEEE Transactions on Pattern Analysis and Machine Intelligence. 41 (7), 1531-1544 (2018).
Wang, W. G., Sun, G. L., Gool, L. V. Looking beyond single images for weakly supervised semantic segmentation learning. IEEE Transactions on Pattern Analysis and Machine. , (2022).
Mei, H. L., et al. Exploring dense context for salient object detection. IEEE Transactions on Circuits and Systems for Video Technology. 32 (3), 1378-1389 (2021).
Borji, A., Itti, L. State-of-the-art in visual attention modeling. IEEE Transactions on Pattern Analysis and Machine Intelligence. 35 (1), 185-207 (2012).
Long, J., Shelhamer, E., Darrell, T. Fully convolutional networks for semantic segmentation. , 3431-3440 (2015).
Simonyan, K., Zisserman, A. Very deep convolutional networks for large-scale image recognition. arXiv preprint. , 1409-1556 (2014).
He, K., Zhang, X., Ren, S., Sun, J. Deep residual learning for image recognition. , 770-778 (2016).
Liu, N., Han, J. Dhsnet: Deep hierarchical saliency network for salient object detection. , 678-686 (2016).
Zhang, L., Dai, J., Lu, H., He, Y., Wang, G. A bi-directional message passing model for salient object detection. , 1741-1750 (2018).
Wu, R., et al. A mutual learning method for salient object detection with intertwined multi-supervision. , 8150-8159 (2019).
Li, G., Yu, Y. Deep contrast learning for salient object detection. , 478-487 (2019).
Ren, Q., Hu, R. Multi-scale deep encoder-decoder network for salient object detection. Neurocomputing. 316, 95-104 (2018).
Wang, W. G., et al. Salient object detection in the deep learning era: An in-depth survey. IEEE Transactions on Pattern Analysis and Machine Intelligence. 44 (6), 3239-3259 (2021).
Zhou, T., et al. RGB-D salient object detection: A survey. Computational Visual Media. 7, 37-69 (2021).
Fu, K., et al. Siamese network for RGB-D salient object detection and beyond. IEEE Transactions on Pattern Analysis and Machine Intelligence. 44 (9), 5541-5559 (2021).
Lai, Q., et al. Weakly supervised visual saliency prediction. IEEE Transactions on Image Processing. 31, 3111-3124 (2022).
Zhang, L., Dai, J., Lu, H., He, Y., Wang, G. A bi-directional message passing model for salient object detection. , 1741-1750 (2018).
Wu, R. A mutual learning method for salient object detection with intertwined multi-supervision. , 8150-8159 (2019).
Wang, W., Shen, J., Dong, X., Borji, A., Yang, R. Inferring salient objects from human fixations. IEEE Transactions on Pattern Analysis and Machine Intelligence. 42 (8), 1913-1927 (2019).
Movahedi, V., Elder, J. H. Design and perceptual validation of performance measures for salient object segmentation. , 49-56 (2010).
Shi, J., Yan, Q., Xu, L., Jia, J. Hierarchical image saliency detection on extended CSSD. IEEE Transactions on Pattern Analysis and Machine Intelligence. 38 (4), 717-729 (2015).
Achanta, R., Hemami, S., Estrada, F., Susstrunk, S. Frequency-tuned salient region detection. , 1597-1604 (2009).
Yang, C., Zhang, L., Lu, H., Ruan, X., Yang, M. H. Saliency detection via graph-based manifold ranking. , 3166-3173 (2013).
Wei, Y., et al. Geodesic saliency using background priors. Computer Vision-ECCV 2012. , 29-42 (2012).
Margolin, R., Tal, A., Zelnik-Manor, L. What makes a patch distinct. , 1139-1146 (2013).
Perazzi, F., Krähenbühl, P., Pritch, Y., Hornung, A. Saliency filters: Contrast based filtering for salient region detection. , 733-740 (2012).
Hou, X., Harel, J., Koch, C. Image signature: Highlighting sparse salient regions. IEEE Transactions on Pattern Analysis and Machine Intelligence. 34 (1), 194-201 (2011).
Jiang, H., et al. Salient object detection: A discriminative regional feature integration approach. , 2083-2090 (2013).
Li, G., Yu, Y. Visual saliency based on multiscale deep features. , 5455-5463 (2015).
Lee, G., Tai, Y. W., Kim, J. Deep saliency with encoded low level distance map and high-level features. , 660-668 (2016).
Liu, N., Han, J. Dhsnet: Deep hierarchical saliency network for salient object detection. , 678-686 (2016).

Play Video

PDF

DOI

DOWNLOAD MATERIALS LIST

Cite This Article

Wang, Y., Wang, Z. End-To-End Deep Neural Network for Salient Object Detection in Complex Environments. J. Vis. Exp. (202), e65554, doi:10.3791/65554 (2023).