End-To-End Deep Neural Network for Salient Object Detection in Complex Environments

Yu Wang; Zhiteng Wang

doi:10.3791/65554

JoVE Journal > Engineering

Please note that all translations are automatically generated. Click here for the English version.

Engenharia

End-to-end diep neuraal netwerk voor detectie van opvallende objecten in complexe omgevingen

Published: December 15, 2023

doi:

10.3791/65554

Yu Wang¹, Zhiteng Wang²

¹Zhengzhou University of Economics and Business, ²The 713 Research Institute of CSSC

Summary

Het huidige protocol beschrijft een nieuw end-to-end algoritme voor het detecteren van opvallende objecten. Het maakt gebruik van diepe neurale netwerken om de precisie van de detectie van opvallende objecten binnen ingewikkelde omgevingscontexten te verbeteren.

Abstract

Opvallende objectdetectie is naar voren gekomen als een ontluikend interessegebied op het gebied van computervisie. De heersende algoritmen vertonen echter verminderde precisie wanneer ze belast zijn met het detecteren van opvallende objecten in ingewikkelde en veelzijdige omgevingen. In het licht van deze dringende zorg presenteert dit artikel een end-to-end diep neuraal netwerk dat tot doel heeft opvallende objecten in complexe omgevingen te detecteren. De studie introduceert een end-to-end diep neuraal netwerk dat tot doel heeft opvallende objecten in complexe omgevingen te detecteren. Het voorgestelde netwerk, dat bestaat uit twee onderling verbonden componenten, namelijk een volledig convolutioneel netwerk op meerdere schalen op pixelniveau en een netwerk van diepe encoder-decoders, integreert contextuele semantiek om visueel contrast te produceren tussen functiekaarten met meerdere schalen, terwijl diepe en ondiepe beeldkenmerken worden gebruikt om de nauwkeurigheid van de identificatie van objectgrenzen te verbeteren. De integratie van een volledig verbonden CRF-model (Conditional Random Field) verbetert de ruimtelijke samenhang en contourafbakening van opvallende kaarten verder. Het voorgestelde algoritme wordt uitgebreid geëvalueerd aan de hand van 10 hedendaagse algoritmen op de SOD- en ECSSD-databases. De evaluatieresultaten tonen aan dat het voorgestelde algoritme beter presteert dan andere benaderingen in termen van precisie en nauwkeurigheid, waardoor de doeltreffendheid ervan bij de detectie van opvallende objecten in complexe omgevingen wordt vastgesteld.

Introduction

Opvallende objectdetectie bootst de menselijke visuele aandacht na, identificeert snel belangrijke beeldgebieden en onderdrukt achtergrondinformatie. Deze techniek wordt veel gebruikt als hulpmiddel voor voorbewerking bij taken zoals het bijsnijden van afbeeldingen¹, semantische segmentatie² en het bewerken van afbeeldingen³. Het stroomlijnt taken zoals het vervangen van achtergronden en het extraheren van de voorgrond, waardoor de efficiëntie en precisie van het bewerken worden verbeterd. Bovendien helpt het bij semantische segmentatie door de lokalisatie van het doel te verbeteren. Het potentieel van detectie van opvallende objecten om de rekenefficiëntie te verbeteren en geheugen te besparen, onderstreept de belangrijke onderzoeks- en toepassingsvooruitzichten.

In de loop der jaren is de detectie van opvallende objecten geëvolueerd van initiële traditionele algoritmen naar de integratie van deep learning-algoritmen. Het doel van deze ontwikkelingen was om de kloof tussen de detectie van opvallende objecten en menselijke visuele mechanismen te verkleinen. Dit heeft geleid tot de toepassing van diepe convolutionele netwerkmodellen voor de studie van de detectie van opvallende objecten. Borji et ^al.4 vatten de meeste klassieke traditionele algoritmen, die afhankelijk zijn van de onderliggende kenmerken van het beeld, samen en generaliseerden ze. Ondanks enige verbetering van de detectienauwkeurigheid, blijven handmatige ervaring en cognitie een uitdaging vormen voor de detectie van opvallende objecten in complexe omgevingen.

Het gebruik van Convolutional Neural Networks (CNN’s) komt veel voor in het domein van de detectie van opvallende objecten. In deze context worden diepe convolutionele neurale netwerken gebruikt voor gewichtsupdates door middel van autonoom leren. Convolutionele neurale netwerken zijn gebruikt om contextuele semantiek uit afbeeldingen te extraheren door het gebruik van gecascadeerde convolutionele en poolinglagen, waardoor complexe beeldkenmerken op hogere niveaus kunnen worden geleerd, die een hoger onderscheidings- en karakteriseringsvermogen hebben voor detectie van opvallende objecten in verschillende omgevingen.

In 2016 kregen volledig convolutionele neurale netwerken⁵ aanzienlijke tractie als een populaire benadering voor de detectie van opvallende objecten, op basis waarvan onderzoekers begonnen met de detectie van opvallende objecten op pixelniveau. Veel modellen zijn meestal gebouwd op bestaande netwerken (bijv. VGG16⁶, ResNet⁷), gericht op het verbeteren van de beeldweergave en het versterken van het effect van randdetectie.

Liu et ^al.8 gebruikten een reeds getraind neuraal netwerk als raamwerk om het beeld globaal te berekenen en verfijnden vervolgens de objectgrens met behulp van een hiërarchisch netwerk. De combinatie van de twee netwerken vormt het uiteindelijke deep saliency netwerk. Dit werd bereikt door de eerder verworven saillante kaart op een repetitieve manier als voorkennis in het netwerk in te voeren. Zhang et ^al.9 versmolten effectief semantische en ruimtelijke beeldinformatie met behulp van diepe netwerken met bidirectionele informatieoverdracht van respectievelijk ondiep naar diep en van diepe naar ondiepe lagen. De detectie van opvallende objecten met behulp van een wederzijds lerend diep model werd naar voren gebracht door Wu et ^al.10. Het model maakt gebruik van voorgrond- en randinformatie binnen een convolutioneel neuraal netwerk om het detectieproces te vergemakkelijken. Li et ^al.11 gebruikten het ‘gatenalgoritme’ van neurale netwerken om de uitdaging aan te gaan van het fixeren van de receptieve velden van verschillende lagen in diepe neurale netwerken in de context van detectie van opvallende objecten. Superpixelsegmentatie wordt echter gebruikt voor het verwerven van objectranden, waardoor de rekeninspanning en rekentijd aanzienlijk toenemen. Ren et ^al.12 bedachten een multi-scale encoder-decoder netwerk om opvallende objecten te detecteren en gebruikten convolutionele neurale netwerken om diepe en oppervlakkige kenmerken effectief te combineren. Hoewel de uitdaging van grensvervaging bij objectdetectie door deze aanpak wordt opgelost, resulteert de fusie van informatie op meerdere schalen onvermijdelijk in verhoogde rekeneisen.

In het literatuuronderzoek¹³ wordt voorgesteld dat saliency detection, van traditionele methoden tot deep learning methoden, wordt samengevat, en dat de evolutie van saliency target detection vanaf het begin tot het tijdperk van deep learning heel duidelijk te zien is. In de literatuur zijn verschillende op RGB-D gebaseerde modellen voor de detectie van opvallende objecten met goede prestaties voorgesteld¹⁴. De bovenstaande literatuur geeft een overzicht en classificatie van de verschillende soorten algoritmen voor detectie van saliency-objecten en beschrijft hun toepassingsscenario’s, de gebruikte databases en de evaluatiestatistieken. Dit artikel biedt ook een kwalitatieve en kwantitatieve analyse van de voorgestelde algoritmen met betrekking tot hun voorgestelde databases en evaluatiestatistieken.

Alle bovenstaande algoritmen hebben opmerkelijke resultaten behaald in openbare databases, die een basis vormen voor detectie van opvallende objecten in complexe omgevingen. Hoewel er zowel nationaal als internationaal tal van onderzoeksresultaten op dit gebied zijn geboekt, zijn er nog enkele problemen die moeten worden aangepakt. (1) Traditionele niet-deep learning-algoritmen hebben de neiging om een lage nauwkeurigheid te hebben vanwege hun afhankelijkheid van handmatig gelabelde kenmerken zoals kleur, textuur en frequentie, die gemakkelijk kunnen worden beïnvloed door subjectieve ervaring en perceptie. Bijgevolg wordt de precisie van hun mogelijkheden voor het detecteren van opvallende objecten verminderd. Het detecteren van opvallende objecten in complexe omgevingen met behulp van traditionele niet-deep learning-algoritmen is een uitdaging vanwege hun moeilijkheid om ingewikkelde scenario’s af te handelen. (2) Conventionele methoden voor het detecteren van opvallende objecten vertonen een beperkte nauwkeurigheid vanwege hun afhankelijkheid van handmatig gelabelde kenmerken zoals kleur, textuur en frequentie. Bovendien kan detectie op regioniveau rekenkundig duur zijn, waarbij de ruimtelijke consistentie vaak wordt genegeerd en objectgrenzen slecht worden gedetecteerd. Deze problemen moeten worden aangepakt om de precisie van de detectie van opvallende objecten te verbeteren. (3) Detectie van opvallende objecten in ingewikkelde omgevingen vormt een uitdaging voor de meeste algoritmen. De meeste algoritmen voor het detecteren van opvallende objecten staan voor grote uitdagingen vanwege de steeds complexere omgeving voor het detecteren van opvallende objecten met variabele achtergronden (vergelijkbare achtergrond- en voorgrondkleuren, complexe achtergrondtexturen, enz.), veel onzekerheden zoals inconsistente detectieobjectgroottes en de onduidelijke definitie van voorgrond- en achtergrondranden.

De meeste van de huidige algoritmen vertonen een lage nauwkeurigheid bij het detecteren van opvallende objecten in complexe omgevingen met vergelijkbare achtergrond- en voorgrondkleuren, complexe achtergrondtexturen en wazige randen. Hoewel de huidige op deep learning gebaseerde algoritmen voor opvallende objecten een hogere nauwkeurigheid vertonen dan traditionele detectiemethoden, schieten de onderliggende beeldkenmerken die ze gebruiken nog steeds tekort in het effectief karakteriseren van semantische kenmerken, waardoor er ruimte is voor verbetering van hun prestaties.

Samenvattend stelt deze studie een end-to-end diep neuraal netwerk voor voor een algoritme voor het detecteren van opvallende objecten, met als doel de nauwkeurigheid van de detectie van opvallende objecten in complexe omgevingen te verbeteren, doelranden te verbeteren en semantische kenmerken beter te karakteriseren. De bijdragen van dit artikel zijn als volgt: (1) Het eerste netwerk gebruikt VGG16 als basisnetwerk en wijzigt de vijf poolinglagen met behulp van het ‘^{gatenalgoritme’11}. Het volledig convolutionele neurale netwerk op pixelniveau op meerdere schalen leert beeldkenmerken van verschillende ruimtelijke schalen, waardoor de uitdaging van statische receptieve velden in verschillende lagen van diepe neurale netwerken wordt aangepakt en de detectienauwkeurigheid in belangrijke aandachtsgebieden in het veld wordt verbeterd. (2) Recente inspanningen om de nauwkeurigheid van de detectie van opvallende objecten te verbeteren, zijn gericht op het benutten van diepere neurale netwerken, zoals VGG16, om zowel dieptekenmerken uit het encodernetwerk als ondiepe kenmerken uit het decodernetwerk te extraheren. Deze aanpak verbetert effectief de detectienauwkeurigheid van objectgrenzen en verbetert de semantische informatie, met name in complexe omgevingen met variabele achtergronden, inconsistente objectgroottes en onduidelijke grenzen tussen voor- en achtergrond. (3) Recente inspanningen om de precisie van de detectie van opvallende objecten te verbeteren, hebben de nadruk gelegd op het gebruik van diepere netwerken, waaronder VGG16, voor het extraheren van diepe kenmerken uit het encodernetwerk en ondiepe kenmerken uit het decodernetwerk. Deze aanpak heeft een verbeterde detectie van objectgrenzen en meer semantische informatie aangetoond, vooral in complexe omgevingen met verschillende achtergronden, objectgroottes en onduidelijke grenzen tussen de voor- en achtergrond. Daarnaast is de integratie van een volledig verbonden CRF-model (Conditional Random Field) geïmplementeerd om de ruimtelijke samenhang en contourprecisie van opvallende kaarten te vergroten. De effectiviteit van deze aanpak werd geëvalueerd op SOD- en ECSSD-datasets met complexe achtergronden en bleek statistisch significant te zijn.

Gerelateerd werk
Fu et ^al.15 stelden een gezamenlijke aanpak voor met behulp van RGB en deep learning voor de detectie van opvallende objecten. Lai et ^al.16 introduceerden een zwak gecontroleerd model voor de detectie van opvallende objecten, waarbij de opvallendheid werd geleerd van annotaties, voornamelijk met behulp van krabbellabels om annotatietijd te besparen. Hoewel deze algoritmen een samensmelting vormden van twee complementaire netwerken voor detectie van saillantieobjecten, ontbreekt het aan diepgaand onderzoek naar saliency-detectie in complexe scenario’s. Wang et ^al.17 ontwierpen een iteratieve fusie van neurale netwerkfuncties in twee modi, zowel bottom-up als top-down, waarbij de resultaten van de vorige iteratie geleidelijk werden geoptimaliseerd tot convergentie. Zhang et ^al.18 versmolten effectief semantische en ruimtelijke beeldinformatie met behulp van diepe netwerken met bidirectionele informatieoverdracht van respectievelijk ondiep naar diep en van diepe naar ondiepe lagen. De detectie van opvallende objecten met behulp van een wederzijds lerend diep model werd voorgesteld door Wu et ^al.19. Het model maakt gebruik van voorgrond- en randinformatie binnen een convolutioneel neuraal netwerk om het detectieproces te vergemakkelijken. Deze op diepe neurale netwerken gebaseerde modellen voor het detecteren van opvallende objecten hebben opmerkelijke prestaties geleverd op openbaar beschikbare datasets, waardoor detectie van opvallende objecten in complexe natuurlijke scènes mogelijk is. Toch blijft het ontwerpen van nog betere modellen een belangrijke doelstelling in dit onderzoeksveld en dient het als primaire motivatie voor dit onderzoek.

Algemeen kader
De schematische weergave van het voorgestelde model, zoals weergegeven in figuur 1, is voornamelijk afgeleid van de VGG16-architectuur, die zowel een multiscale volledig convolutioneel neuraal netwerk (DCL) op pixelniveau als een diep encoder-decodernetwerk (DEDN) omvat. Het model elimineert alle uiteindelijke pooling en volledig verbonden lagen van VGG16 en is geschikt voor invoerbeeldafmetingen van W × H. Het operationele mechanisme omvat de eerste verwerking van het invoerbeeld via de DCL, waardoor de extractie van diepe kenmerken wordt vergemakkelijkt, terwijl ondiepe kenmerken worden verkregen uit de DEDN-netwerken. De samensmelting van deze kenmerken wordt vervolgens onderworpen aan een volledig verbonden CRF-model (Conditional Random Field), waardoor de ruimtelijke samenhang en contournauwkeurigheid van de geproduceerde saliency maps worden vergroot.

Om de doeltreffendheid van het model vast te stellen, werd het getest en gevalideerd op SOD²⁰ – en ECSSD^21-datasets met ingewikkelde achtergronden. Nadat het invoerbeeld door de DCL is gegaan, worden functiekaarten op verschillende schalen met verschillende receptieve velden verkregen en wordt contextuele semantiek gecombineerd om een W × H opvallende kaart met interdimensionale coherentie te produceren. De DCL maakt gebruik van een paar convolutionele lagen met 7 x 7 kernels om de laatste poolinglaag van het oorspronkelijke VGG16-netwerk te vervangen, waardoor het behoud van ruimtelijke informatie in de functiekaarten wordt verbeterd. Dit, gecombineerd met contextuele semantiek, levert een W × H saillante kaart op met interdimensionale samenhang. Evenzo maakt het Deep Encoder-Decoder Network (DEDN) gebruik van convolutionele lagen met 3 x 3 kernels in de decoders en een enkele convolutionele laag na de laatste decoderingsmodule. Door gebruik te maken van diepe en ondiepe kenmerken van het beeld, is het mogelijk om een opvallende kaart te genereren met een ruimtelijke dimensie van W × H, waarmee de uitdaging van onduidelijke objectgrenzen wordt aangepakt. De studie beschrijft een baanbrekende techniek voor het detecteren van opvallende objecten die de DCL- en DEDN-modellen samenvoegt tot een uniform netwerk. De gewichten van deze twee diepe netwerken worden geleerd door middel van een trainingsproces en de resulterende saliency maps worden samengevoegd en vervolgens verfijnd met behulp van een volledig verbonden Conditional Random Field (CRF). Het primaire doel van deze verfijning is het verbeteren van de ruimtelijke consistentie en contourlokalisatie.

Multiscale volledig convolutioneel neuraal netwerk op pixelniveau
De VGG16-architectuur bestond oorspronkelijk uit vijf pooling-lagen, elk met een stap van 2. Elke poolinglaag comprimeert de afbeeldingsgrootte om het aantal kanalen te vergroten en meer contextuele informatie te verkrijgen. Het DCL-model is geïnspireerd op literatuur¹³ en is een verbetering ten opzichte van het raamwerk van VGG16. In dit artikel wordt een DCL-model¹¹ op pixelniveau gebruikt, zoals weergegeven in figuur 2 binnen de architectuur van VGG16, een diep convolutioneel neuraal netwerk. De eerste vier maximale poolinglagen zijn onderling verbonden met drie kernels. De eerste kernel is 3 × 3 × 128; de tweede kern is 1 × 1 × 128; en de derde kernel is 1 × 1 × 1. Om een uniforme grootte van functietoewijzingen te bereiken na de eerste vier poolinglagen, verbonden met drie kernels, waarbij elke grootte gelijk is aan een achtste van de oorspronkelijke afbeelding, wordt de stapgrootte van de eerste kernel die is verbonden met deze vier grootste poolinglagen ingesteld op respectievelijk 4, 2, 1 en 1.

Om het oorspronkelijke receptieve veld in de verschillende kernels te behouden, wordt het in literatuur¹¹ voorgestelde “gatenalgoritme” gebruikt om de grootte van de kernel te vergroten door nullen toe te voegen, waardoor de integriteit van de kernel behouden blijft. Deze vier feature maps zijn verbonden met de eerste kernel met verschillende stapgroottes. Bijgevolg hebben de kenmerkende kaarten die in de laatste fase worden geproduceerd, identieke afmetingen. De vier functiekaarten vormen een reeks kenmerken op meerdere schalen die zijn verkregen uit verschillende schalen, die elk verschillende groottes van receptieve velden vertegenwoordigen. De resulterende feature maps verkregen uit de vier tussenliggende lagen worden samengevoegd met de ultieme feature map afgeleid van VGG16, waardoor een 5-kanaals output wordt gegenereerd. De resulterende uitvoer wordt vervolgens onderworpen aan een 1 × 1 × 1 kernel met de sigmoïde activeringsfunctie, waardoor uiteindelijk de saillante kaart wordt geproduceerd (met een resolutie van een achtste van de originele afbeelding). Het beeld wordt geüpsampled en vergroot met behulp van bilineaire interpolatie, zodat het resulterende beeld, ook wel de saliency map genoemd, een identieke resolutie behoudt als het oorspronkelijke beeld.

Diep encoder-decoder netwerk
Op dezelfde manier wordt het VGG16-netwerk gebruikt als het backbone-netwerk. VGG16 wordt gekenmerkt door een laag aantal ondiepe feature map-kanalen maar een hoge resolutie en een groot aantal diepe feature-kanalen maar een lage resolutie. Het samenvoegen van lagen en downsampling verhogen de rekensnelheid van het diepe netwerk ten koste van het verlagen van de resolutie van de functiekaart. Om dit probleem aan te pakken, wordt na de analyse in literatuur¹⁴ het encodernetwerk gebruikt om de volledige connectiviteit van de laatste poolinglaag in de originele VGG16 te wijzigen. Deze modificatie houdt in dat het wordt vervangen door twee convolutionele lagen met 7 × 7 kernels (grotere convolutionele kernels vergroten het receptieve veld). Beide convolutiekernen zijn uitgerust met een normalisatie (BN) bewerking en een gemodificeerde lineaire eenheid (ReLU). Deze aanpassing resulteert in een encoderuitvoerfunctiekaart die de informatie over de beeldruimte beter bewaart.

Hoewel de encoder de semantiek van afbeeldingen op hoog niveau verbetert voor de globale lokalisatie van opvallende objecten, wordt het probleem van de grensvervaging van het opvallende object niet effectief verbeterd. Om dit probleem aan te pakken, worden diepe functies samengevoegd met ondiepe functies, geïnspireerd op randdetectiewerk¹², waarbij het encoder-decoder-netwerkmodel (DEDN) wordt voorgesteld, zoals weergegeven in figuur 3. De encoderarchitectuur bestaat uit drie kernels die met elkaar verbonden zijn met de eerste vier, terwijl de decoder de resolutie van de feature map systematisch verbetert met behulp van de maximale waarden die worden opgehaald uit de maximale poolinglagen.

In deze innovatieve methodologie voor de detectie van opvallende objecten wordt tijdens de decoderfase gebruik gemaakt van een convolutionele laag met een 3 × 3 kernel in combinatie met een batchnormalisatielaag en een aangepaste lineaire eenheid. Aan het einde van de laatste decoderingsmodule binnen de decoderarchitectuur wordt een convolutionele laag met één kanaal gebruikt om een opvallende kaart van de ruimtelijke dimensies W × H te verkrijgen. De meest opvallende kaart wordt gegenereerd door een gezamenlijke fusie van het encoder-decoder-model, wat het resultaat oplevert, en de complementaire fusie van de twee, d.w.z. de complementaire fusie van diepe informatie en oppervlakkige informatie. Dit zorgt niet alleen voor een nauwkeurige lokalisatie van het opvallende object en vergroot het receptieve veld, maar behoudt ook effectief beelddetailinformatie en versterkt de grens van het opvallende object.

Integratiemechanisme
De encoderarchitectuur bestaat uit drie kernels, die zijn gekoppeld aan de eerste vier maximale poolinglagen van het VGG16-model. De decoder daarentegen is opzettelijk geformuleerd om de resolutie van functiekaarten die zijn verkregen uit de upsamplinglagen geleidelijk te verhogen door gebruik te maken van de maximale waarden die zijn verkregen uit de overeenkomstige poolinglagen. Een convolutionele laag met behulp van een 3 x 3 kernel, een batchnormalisatielaag en een gemodificeerde lineaire eenheid worden vervolgens gebruikt in de decoder, gevolgd door een eenkanaals convolutionele laag om een opvallende kaart van dimensies W × H te genereren. De gewichten van de twee diepe netwerken worden geleerd door middel van afwisselende trainingscycli. De parameters van het eerste netwerk werden vast gehouden, terwijl de parameters van het tweede netwerk in totaal vijftig cycli werden getraind. Tijdens het proces worden de gewichten van de saliency map (^S1 en ^S2) die voor fusie worden gebruikt, bijgewerkt via een willekeurige gradiënt. De verliesfunctie¹¹ is:

(1)

In de gegeven expressie vertegenwoordigt het symbool G de handmatig gelabelde waarde, terwijl W de volledige set netwerkparameters aangeeft. Het gewicht β_i dient als een balancerende factor om de verhouding tussen opvallende pixels en niet-opvallende pixels in het berekeningsproces te regelen.

Het beeld I wordt gekenmerkt door drie parameters: |I|, |Ik|_– en |Ik|₊, die respectievelijk het totale aantal pixels, het aantal niet-opvallende pixels en het aantal opvallende pixels vertegenwoordigen.

Aangezien de opvallende kaarten die zijn verkregen uit de bovenstaande twee netwerken geen rekening houden met de samenhang van aangrenzende pixels, wordt een volledig verbonden verfijningsmodel CRF¹⁵ op pixelniveau gebruikt om de ruimtelijke coherentie te verbeteren. De energievergelijking¹¹ is als volgt, waarmee het probleem van de binaire pixeletikettering wordt opgelost.

(2)

waarbij L het binaire label (saillante waarde of niet-saillante waarde) aangeeft dat aan alle pixels is toegekend. De variabele P(l_i) geeft de waarschijnlijkheid aan dat een bepaalde pixel x_ieen specifiek label l_i krijgt, wat aangeeft hoe waarschijnlijk het is dat de pixel x_isaillant is. In het begin is P(1) = S_ipt P(0) = 1 – S_i, waarbij S_ide saliency waarde aangeeft op de pixel x_ibinnen de gefuseerde saliency map S. θ_i,j(l_i,l _j) is de paarsgewijze potentiaal, als volgt gedefinieerd.

(3)

Onder hen, als l_i≠ l_j, dan μ(l_i,l _j) = 1, anders μ(l_i,l _j) = 0. De berekening van θ_i,j omvat het gebruik van twee kernen, waarbij de initiële kern afhankelijk is van zowel de pixelpositie P als de pixelintensiteit I. Dit resulteert in de nabijheid van pixels met vergelijkbare kleuren die vergelijkbare opvallendheidswaarden vertonen. De twee parameters, σ_α pt σ_β, regelen de mate waarin kleurgelijkenis en ruimtelijke nabijheid de uitkomst beïnvloeden. Het doel van de tweede kernel is om geïsoleerde kleine regio’s te elimineren. De minimalisering van energie wordt bereikt door hoogdimensionale filtering, waardoor het gemiddelde veld van de Conditional Random Field (CRF)-verdeling wordt versneld. Bij berekening vertoont de opvallende kaart, aangeduid als S_crf, een verbeterde ruimtelijke samenhang en contour met betrekking tot de gedetecteerde opvallende objecten.

Experimentele configuraties
In dit artikel wordt een diep netwerk voor het detecteren van opvallende doelen op basis van het VGG16 neurale netwerk geconstrueerd met behulp van Python. Het voorgestelde model wordt vergeleken met andere methoden met behulp van de datasets SOD²⁰ en ECSSD²¹ . De SOD-beelddatabase staat bekend om zijn complexe en rommelige achtergronden, gelijkenis in kleuren tussen voorgrond en achtergrond en kleine objectgroottes. Aan elke afbeelding in deze gegevensset wordt een handmatig gelabelde werkelijke waarde toegewezen voor zowel kwantitatieve als kwalitatieve prestatie-evaluatie. Aan de andere kant bestaat de ECSSD-dataset voornamelijk uit afbeeldingen die afkomstig zijn van internet, met complexere en realistischere natuurlijke scènes met een laag contrast tussen de achtergrond van de afbeelding en opvallende objecten.

De evaluatie-indexen die worden gebruikt om het model in dit artikel te vergelijken, zijn onder meer de veelgebruikte Precision-Recall-curve, F_βpt E_MAE. Om de voorspelde saliency map kwantitatief te beoordelen, wordt de Precision-Recall (P-R) curve²² gebruikt door de drempel te wijzigen van 0 naar 255 voor het binariseren van de saliency map. F_βis een uitgebreide beoordelingsmaatstaf, berekend met de precisie- en herinneringsvergelijkingen die zijn afgeleid van de gebinariseerde saillante kaart en een werkelijke waardekaart.

(4)

waarbij β de gewichtsparameter is om de nauwkeurigheid en het terugroepen aan te passen, instelling β² = 0,3. De berekening van E_MAEis gelijk aan het berekenen van de gemiddelde absolute fout tussen de resulterende saliency map en de ground truth map, zoals gedefinieerd door de daaruit voortvloeiende wiskundige uitdrukking:

(5)

Laat T_s(u,v) de geëxtraheerde waarde van de saillante kaart (u,v) pixels aanduiden, en laat T_G(u,v) de corresponderende waarde van de echte kaart (u,v) pixels aanduiden.

Protocol

1. Experimentele opzet en procedure Laad het vooraf getrainde VGG16-model.OPMERKING: De eerste stap is het laden van het vooraf getrainde VGG16-model uit de Keras-bibliotheek6.Volg deze algemene stappen om een vooraf getraind VGG16-model in Python te laden met behulp van populaire deep learning-bibliotheken zoals PyTorch (zie Materiaaltabel):Zaklamp importeren. Importeer torchvision.models als modelle…

Representative Results

Deze studie introduceert een end-to-end diep neuraal netwerk dat bestaat uit twee complementaire netwerken: een multi-scale volledig convolutioneel netwerk op pixelniveau en een diep encoder-decodernetwerk. Het eerste netwerk integreert contextuele semantiek om visuele contrasten af te leiden uit functiekaarten op meerdere schalen, waarmee de uitdaging van vaste receptieve velden in diepe neurale netwerken over verschillende lagen wordt aangepakt. Het tweede netwerk maakt gebruik van zowel diepe als ondiepe beeldfuncties…

Discussion

Het artikel introduceert een end-to-end diep neuraal netwerk dat speciaal is ontworpen voor de detectie van opvallende objecten in complexe omgevingen. Het netwerk bestaat uit twee onderling verbonden componenten: een multiscale volledig convolutioneel netwerk op pixelniveau (DCL) en een deep encoder-decoder network (DEDN). Deze componenten werken synergetisch en bevatten contextuele semantiek om visuele contrasten te genereren binnen multiscale feature maps. Bovendien maken ze gebruik van zowel diepe als ondiepe beeldke…

Declarações

The authors have nothing to disclose.

Acknowledgements

Dit werk wordt ondersteund door 2024 Henan Provincial Higher Education Institutions Key Scientific Research Project Funding Program Establishment (Projectnummer: 24A520053). Deze studie wordt ook ondersteund door Specialized Creation and Integration Characteristics Demonstration Course Construction in de provincie Henan.

Materials

Matlab	MathWorks	Matlab R2016a	MATLAB's programming interface provides development tools for improving code quality maintainability and maximizing performance. It provides tools for building applications using custom graphical interfaces. It provides tools for combining MATLAB-based algorithms with external applications and languages
Processor	Intel	11th Gen Intel(R) Core (TM) i5-1135G7 @ 2.40GHz	64-bit Win11 processor
Pycharm	JetBrains	PyCharm 3.0	PyCharm is a Python IDE (Integrated Development Environment) a list of required python: modulesmatplotlib skimage torch os time pydensecrf opencv glob PIL torchvision numpy tkinter
PyTorch	Facebook	PyTorch 1.4	PyTorch is an open source Python machine learning library , based on Torch , used for natural language processing and other applications.PyTorch can be viewed both as the addition of GPU support numpy , but also can be viewed as a powerful deep neural network with automatic derivatives .

Referências

Wang, W. G., Shen, J. B., Ling, H. B. A deep network solution for attention and aesthetics aware photo cropping. IEEE Transactions on Pattern Analysis and Machine Intelligence. 41 (7), 1531-1544 (2018).
Wang, W. G., Sun, G. L., Gool, L. V. Looking beyond single images for weakly supervised semantic segmentation learning. IEEE Transactions on Pattern Analysis and Machine. , (2022).
Mei, H. L., et al. Exploring dense context for salient object detection. IEEE Transactions on Circuits and Systems for Video Technology. 32 (3), 1378-1389 (2021).
Borji, A., Itti, L. State-of-the-art in visual attention modeling. IEEE Transactions on Pattern Analysis and Machine Intelligence. 35 (1), 185-207 (2012).
Long, J., Shelhamer, E., Darrell, T. Fully convolutional networks for semantic segmentation. , 3431-3440 (2015).
Simonyan, K., Zisserman, A. Very deep convolutional networks for large-scale image recognition. arXiv preprint. , 1409-1556 (2014).
He, K., Zhang, X., Ren, S., Sun, J. Deep residual learning for image recognition. , 770-778 (2016).
Liu, N., Han, J. Dhsnet: Deep hierarchical saliency network for salient object detection. , 678-686 (2016).
Zhang, L., Dai, J., Lu, H., He, Y., Wang, G. A bi-directional message passing model for salient object detection. , 1741-1750 (2018).
Wu, R., et al. A mutual learning method for salient object detection with intertwined multi-supervision. , 8150-8159 (2019).
Li, G., Yu, Y. Deep contrast learning for salient object detection. , 478-487 (2019).
Ren, Q., Hu, R. Multi-scale deep encoder-decoder network for salient object detection. Neurocomputing. 316, 95-104 (2018).
Wang, W. G., et al. Salient object detection in the deep learning era: An in-depth survey. IEEE Transactions on Pattern Analysis and Machine Intelligence. 44 (6), 3239-3259 (2021).
Zhou, T., et al. RGB-D salient object detection: A survey. Computational Visual Media. 7, 37-69 (2021).
Fu, K., et al. Siamese network for RGB-D salient object detection and beyond. IEEE Transactions on Pattern Analysis and Machine Intelligence. 44 (9), 5541-5559 (2021).
Lai, Q., et al. Weakly supervised visual saliency prediction. IEEE Transactions on Image Processing. 31, 3111-3124 (2022).
Zhang, L., Dai, J., Lu, H., He, Y., Wang, G. A bi-directional message passing model for salient object detection. , 1741-1750 (2018).
Wu, R. A mutual learning method for salient object detection with intertwined multi-supervision. , 8150-8159 (2019).
Wang, W., Shen, J., Dong, X., Borji, A., Yang, R. Inferring salient objects from human fixations. IEEE Transactions on Pattern Analysis and Machine Intelligence. 42 (8), 1913-1927 (2019).
Movahedi, V., Elder, J. H. Design and perceptual validation of performance measures for salient object segmentation. , 49-56 (2010).
Shi, J., Yan, Q., Xu, L., Jia, J. Hierarchical image saliency detection on extended CSSD. IEEE Transactions on Pattern Analysis and Machine Intelligence. 38 (4), 717-729 (2015).
Achanta, R., Hemami, S., Estrada, F., Susstrunk, S. Frequency-tuned salient region detection. , 1597-1604 (2009).
Yang, C., Zhang, L., Lu, H., Ruan, X., Yang, M. H. Saliency detection via graph-based manifold ranking. , 3166-3173 (2013).
Wei, Y., et al. Geodesic saliency using background priors. Computer Vision-ECCV 2012. , 29-42 (2012).
Margolin, R., Tal, A., Zelnik-Manor, L. What makes a patch distinct. , 1139-1146 (2013).
Perazzi, F., Krähenbühl, P., Pritch, Y., Hornung, A. Saliency filters: Contrast based filtering for salient region detection. , 733-740 (2012).
Hou, X., Harel, J., Koch, C. Image signature: Highlighting sparse salient regions. IEEE Transactions on Pattern Analysis and Machine Intelligence. 34 (1), 194-201 (2011).
Jiang, H., et al. Salient object detection: A discriminative regional feature integration approach. , 2083-2090 (2013).
Li, G., Yu, Y. Visual saliency based on multiscale deep features. , 5455-5463 (2015).
Lee, G., Tai, Y. W., Kim, J. Deep saliency with encoded low level distance map and high-level features. , 660-668 (2016).
Liu, N., Han, J. Dhsnet: Deep hierarchical saliency network for salient object detection. , 678-686 (2016).

Play Video

PDF

DOI

DOWNLOAD MATERIALS LIST

Citar este artigo

Wang, Y., Wang, Z. End-To-End Deep Neural Network for Salient Object Detection in Complex Environments. J. Vis. Exp. (202), e65554, doi:10.3791/65554 (2023).