Summary

End-to-end diep neuraal netwerk voor detectie van opvallende objecten in complexe omgevingen

Published: December 15, 2023
doi:

Summary

Het huidige protocol beschrijft een nieuw end-to-end algoritme voor het detecteren van opvallende objecten. Het maakt gebruik van diepe neurale netwerken om de precisie van de detectie van opvallende objecten binnen ingewikkelde omgevingscontexten te verbeteren.

Abstract

Opvallende objectdetectie is naar voren gekomen als een ontluikend interessegebied op het gebied van computervisie. De heersende algoritmen vertonen echter verminderde precisie wanneer ze belast zijn met het detecteren van opvallende objecten in ingewikkelde en veelzijdige omgevingen. In het licht van deze dringende zorg presenteert dit artikel een end-to-end diep neuraal netwerk dat tot doel heeft opvallende objecten in complexe omgevingen te detecteren. De studie introduceert een end-to-end diep neuraal netwerk dat tot doel heeft opvallende objecten in complexe omgevingen te detecteren. Het voorgestelde netwerk, dat bestaat uit twee onderling verbonden componenten, namelijk een volledig convolutioneel netwerk op meerdere schalen op pixelniveau en een netwerk van diepe encoder-decoders, integreert contextuele semantiek om visueel contrast te produceren tussen functiekaarten met meerdere schalen, terwijl diepe en ondiepe beeldkenmerken worden gebruikt om de nauwkeurigheid van de identificatie van objectgrenzen te verbeteren. De integratie van een volledig verbonden CRF-model (Conditional Random Field) verbetert de ruimtelijke samenhang en contourafbakening van opvallende kaarten verder. Het voorgestelde algoritme wordt uitgebreid geëvalueerd aan de hand van 10 hedendaagse algoritmen op de SOD- en ECSSD-databases. De evaluatieresultaten tonen aan dat het voorgestelde algoritme beter presteert dan andere benaderingen in termen van precisie en nauwkeurigheid, waardoor de doeltreffendheid ervan bij de detectie van opvallende objecten in complexe omgevingen wordt vastgesteld.

Introduction

Opvallende objectdetectie bootst de menselijke visuele aandacht na, identificeert snel belangrijke beeldgebieden en onderdrukt achtergrondinformatie. Deze techniek wordt veel gebruikt als hulpmiddel voor voorbewerking bij taken zoals het bijsnijden van afbeeldingen1, semantische segmentatie2 en het bewerken van afbeeldingen3. Het stroomlijnt taken zoals het vervangen van achtergronden en het extraheren van de voorgrond, waardoor de efficiëntie en precisie van het bewerken worden verbeterd. Bovendien helpt het bij semantische segmentatie door de lokalisatie van het doel te verbeteren. Het potentieel van detectie van opvallende objecten om de rekenefficiëntie te verbeteren en geheugen te besparen, onderstreept de belangrijke onderzoeks- en toepassingsvooruitzichten.

In de loop der jaren is de detectie van opvallende objecten geëvolueerd van initiële traditionele algoritmen naar de integratie van deep learning-algoritmen. Het doel van deze ontwikkelingen was om de kloof tussen de detectie van opvallende objecten en menselijke visuele mechanismen te verkleinen. Dit heeft geleid tot de toepassing van diepe convolutionele netwerkmodellen voor de studie van de detectie van opvallende objecten. Borji et al.4 vatten de meeste klassieke traditionele algoritmen, die afhankelijk zijn van de onderliggende kenmerken van het beeld, samen en generaliseerden ze. Ondanks enige verbetering van de detectienauwkeurigheid, blijven handmatige ervaring en cognitie een uitdaging vormen voor de detectie van opvallende objecten in complexe omgevingen.

Het gebruik van Convolutional Neural Networks (CNN’s) komt veel voor in het domein van de detectie van opvallende objecten. In deze context worden diepe convolutionele neurale netwerken gebruikt voor gewichtsupdates door middel van autonoom leren. Convolutionele neurale netwerken zijn gebruikt om contextuele semantiek uit afbeeldingen te extraheren door het gebruik van gecascadeerde convolutionele en poolinglagen, waardoor complexe beeldkenmerken op hogere niveaus kunnen worden geleerd, die een hoger onderscheidings- en karakteriseringsvermogen hebben voor detectie van opvallende objecten in verschillende omgevingen.

In 2016 kregen volledig convolutionele neurale netwerken5 aanzienlijke tractie als een populaire benadering voor de detectie van opvallende objecten, op basis waarvan onderzoekers begonnen met de detectie van opvallende objecten op pixelniveau. Veel modellen zijn meestal gebouwd op bestaande netwerken (bijv. VGG166, ResNet7), gericht op het verbeteren van de beeldweergave en het versterken van het effect van randdetectie.

Liu et al.8 gebruikten een reeds getraind neuraal netwerk als raamwerk om het beeld globaal te berekenen en verfijnden vervolgens de objectgrens met behulp van een hiërarchisch netwerk. De combinatie van de twee netwerken vormt het uiteindelijke deep saliency netwerk. Dit werd bereikt door de eerder verworven saillante kaart op een repetitieve manier als voorkennis in het netwerk in te voeren. Zhang et al.9 versmolten effectief semantische en ruimtelijke beeldinformatie met behulp van diepe netwerken met bidirectionele informatieoverdracht van respectievelijk ondiep naar diep en van diepe naar ondiepe lagen. De detectie van opvallende objecten met behulp van een wederzijds lerend diep model werd naar voren gebracht door Wu et al.10. Het model maakt gebruik van voorgrond- en randinformatie binnen een convolutioneel neuraal netwerk om het detectieproces te vergemakkelijken. Li et al.11 gebruikten het ‘gatenalgoritme’ van neurale netwerken om de uitdaging aan te gaan van het fixeren van de receptieve velden van verschillende lagen in diepe neurale netwerken in de context van detectie van opvallende objecten. Superpixelsegmentatie wordt echter gebruikt voor het verwerven van objectranden, waardoor de rekeninspanning en rekentijd aanzienlijk toenemen. Ren et al.12 bedachten een multi-scale encoder-decoder netwerk om opvallende objecten te detecteren en gebruikten convolutionele neurale netwerken om diepe en oppervlakkige kenmerken effectief te combineren. Hoewel de uitdaging van grensvervaging bij objectdetectie door deze aanpak wordt opgelost, resulteert de fusie van informatie op meerdere schalen onvermijdelijk in verhoogde rekeneisen.

In het literatuuronderzoek13 wordt voorgesteld dat saliency detection, van traditionele methoden tot deep learning methoden, wordt samengevat, en dat de evolutie van saliency target detection vanaf het begin tot het tijdperk van deep learning heel duidelijk te zien is. In de literatuur zijn verschillende op RGB-D gebaseerde modellen voor de detectie van opvallende objecten met goede prestaties voorgesteld14. De bovenstaande literatuur geeft een overzicht en classificatie van de verschillende soorten algoritmen voor detectie van saliency-objecten en beschrijft hun toepassingsscenario’s, de gebruikte databases en de evaluatiestatistieken. Dit artikel biedt ook een kwalitatieve en kwantitatieve analyse van de voorgestelde algoritmen met betrekking tot hun voorgestelde databases en evaluatiestatistieken.

Alle bovenstaande algoritmen hebben opmerkelijke resultaten behaald in openbare databases, die een basis vormen voor detectie van opvallende objecten in complexe omgevingen. Hoewel er zowel nationaal als internationaal tal van onderzoeksresultaten op dit gebied zijn geboekt, zijn er nog enkele problemen die moeten worden aangepakt. (1) Traditionele niet-deep learning-algoritmen hebben de neiging om een lage nauwkeurigheid te hebben vanwege hun afhankelijkheid van handmatig gelabelde kenmerken zoals kleur, textuur en frequentie, die gemakkelijk kunnen worden beïnvloed door subjectieve ervaring en perceptie. Bijgevolg wordt de precisie van hun mogelijkheden voor het detecteren van opvallende objecten verminderd. Het detecteren van opvallende objecten in complexe omgevingen met behulp van traditionele niet-deep learning-algoritmen is een uitdaging vanwege hun moeilijkheid om ingewikkelde scenario’s af te handelen. (2) Conventionele methoden voor het detecteren van opvallende objecten vertonen een beperkte nauwkeurigheid vanwege hun afhankelijkheid van handmatig gelabelde kenmerken zoals kleur, textuur en frequentie. Bovendien kan detectie op regioniveau rekenkundig duur zijn, waarbij de ruimtelijke consistentie vaak wordt genegeerd en objectgrenzen slecht worden gedetecteerd. Deze problemen moeten worden aangepakt om de precisie van de detectie van opvallende objecten te verbeteren. (3) Detectie van opvallende objecten in ingewikkelde omgevingen vormt een uitdaging voor de meeste algoritmen. De meeste algoritmen voor het detecteren van opvallende objecten staan voor grote uitdagingen vanwege de steeds complexere omgeving voor het detecteren van opvallende objecten met variabele achtergronden (vergelijkbare achtergrond- en voorgrondkleuren, complexe achtergrondtexturen, enz.), veel onzekerheden zoals inconsistente detectieobjectgroottes en de onduidelijke definitie van voorgrond- en achtergrondranden.

De meeste van de huidige algoritmen vertonen een lage nauwkeurigheid bij het detecteren van opvallende objecten in complexe omgevingen met vergelijkbare achtergrond- en voorgrondkleuren, complexe achtergrondtexturen en wazige randen. Hoewel de huidige op deep learning gebaseerde algoritmen voor opvallende objecten een hogere nauwkeurigheid vertonen dan traditionele detectiemethoden, schieten de onderliggende beeldkenmerken die ze gebruiken nog steeds tekort in het effectief karakteriseren van semantische kenmerken, waardoor er ruimte is voor verbetering van hun prestaties.

Samenvattend stelt deze studie een end-to-end diep neuraal netwerk voor voor een algoritme voor het detecteren van opvallende objecten, met als doel de nauwkeurigheid van de detectie van opvallende objecten in complexe omgevingen te verbeteren, doelranden te verbeteren en semantische kenmerken beter te karakteriseren. De bijdragen van dit artikel zijn als volgt: (1) Het eerste netwerk gebruikt VGG16 als basisnetwerk en wijzigt de vijf poolinglagen met behulp van het ‘gatenalgoritme’11. Het volledig convolutionele neurale netwerk op pixelniveau op meerdere schalen leert beeldkenmerken van verschillende ruimtelijke schalen, waardoor de uitdaging van statische receptieve velden in verschillende lagen van diepe neurale netwerken wordt aangepakt en de detectienauwkeurigheid in belangrijke aandachtsgebieden in het veld wordt verbeterd. (2) Recente inspanningen om de nauwkeurigheid van de detectie van opvallende objecten te verbeteren, zijn gericht op het benutten van diepere neurale netwerken, zoals VGG16, om zowel dieptekenmerken uit het encodernetwerk als ondiepe kenmerken uit het decodernetwerk te extraheren. Deze aanpak verbetert effectief de detectienauwkeurigheid van objectgrenzen en verbetert de semantische informatie, met name in complexe omgevingen met variabele achtergronden, inconsistente objectgroottes en onduidelijke grenzen tussen voor- en achtergrond. (3) Recente inspanningen om de precisie van de detectie van opvallende objecten te verbeteren, hebben de nadruk gelegd op het gebruik van diepere netwerken, waaronder VGG16, voor het extraheren van diepe kenmerken uit het encodernetwerk en ondiepe kenmerken uit het decodernetwerk. Deze aanpak heeft een verbeterde detectie van objectgrenzen en meer semantische informatie aangetoond, vooral in complexe omgevingen met verschillende achtergronden, objectgroottes en onduidelijke grenzen tussen de voor- en achtergrond. Daarnaast is de integratie van een volledig verbonden CRF-model (Conditional Random Field) geïmplementeerd om de ruimtelijke samenhang en contourprecisie van opvallende kaarten te vergroten. De effectiviteit van deze aanpak werd geëvalueerd op SOD- en ECSSD-datasets met complexe achtergronden en bleek statistisch significant te zijn.

Gerelateerd werk
Fu et al.15 stelden een gezamenlijke aanpak voor met behulp van RGB en deep learning voor de detectie van opvallende objecten. Lai et al.16 introduceerden een zwak gecontroleerd model voor de detectie van opvallende objecten, waarbij de opvallendheid werd geleerd van annotaties, voornamelijk met behulp van krabbellabels om annotatietijd te besparen. Hoewel deze algoritmen een samensmelting vormden van twee complementaire netwerken voor detectie van saillantieobjecten, ontbreekt het aan diepgaand onderzoek naar saliency-detectie in complexe scenario’s. Wang et al.17 ontwierpen een iteratieve fusie van neurale netwerkfuncties in twee modi, zowel bottom-up als top-down, waarbij de resultaten van de vorige iteratie geleidelijk werden geoptimaliseerd tot convergentie. Zhang et al.18 versmolten effectief semantische en ruimtelijke beeldinformatie met behulp van diepe netwerken met bidirectionele informatieoverdracht van respectievelijk ondiep naar diep en van diepe naar ondiepe lagen. De detectie van opvallende objecten met behulp van een wederzijds lerend diep model werd voorgesteld door Wu et al.19. Het model maakt gebruik van voorgrond- en randinformatie binnen een convolutioneel neuraal netwerk om het detectieproces te vergemakkelijken. Deze op diepe neurale netwerken gebaseerde modellen voor het detecteren van opvallende objecten hebben opmerkelijke prestaties geleverd op openbaar beschikbare datasets, waardoor detectie van opvallende objecten in complexe natuurlijke scènes mogelijk is. Toch blijft het ontwerpen van nog betere modellen een belangrijke doelstelling in dit onderzoeksveld en dient het als primaire motivatie voor dit onderzoek.

Algemeen kader
De schematische weergave van het voorgestelde model, zoals weergegeven in figuur 1, is voornamelijk afgeleid van de VGG16-architectuur, die zowel een multiscale volledig convolutioneel neuraal netwerk (DCL) op pixelniveau als een diep encoder-decodernetwerk (DEDN) omvat. Het model elimineert alle uiteindelijke pooling en volledig verbonden lagen van VGG16 en is geschikt voor invoerbeeldafmetingen van W × H. Het operationele mechanisme omvat de eerste verwerking van het invoerbeeld via de DCL, waardoor de extractie van diepe kenmerken wordt vergemakkelijkt, terwijl ondiepe kenmerken worden verkregen uit de DEDN-netwerken. De samensmelting van deze kenmerken wordt vervolgens onderworpen aan een volledig verbonden CRF-model (Conditional Random Field), waardoor de ruimtelijke samenhang en contournauwkeurigheid van de geproduceerde saliency maps worden vergroot.

Om de doeltreffendheid van het model vast te stellen, werd het getest en gevalideerd op SOD20 – en ECSSD21-datasets met ingewikkelde achtergronden. Nadat het invoerbeeld door de DCL is gegaan, worden functiekaarten op verschillende schalen met verschillende receptieve velden verkregen en wordt contextuele semantiek gecombineerd om een W × H opvallende kaart met interdimensionale coherentie te produceren. De DCL maakt gebruik van een paar convolutionele lagen met 7 x 7 kernels om de laatste poolinglaag van het oorspronkelijke VGG16-netwerk te vervangen, waardoor het behoud van ruimtelijke informatie in de functiekaarten wordt verbeterd. Dit, gecombineerd met contextuele semantiek, levert een W × H saillante kaart op met interdimensionale samenhang. Evenzo maakt het Deep Encoder-Decoder Network (DEDN) gebruik van convolutionele lagen met 3 x 3 kernels in de decoders en een enkele convolutionele laag na de laatste decoderingsmodule. Door gebruik te maken van diepe en ondiepe kenmerken van het beeld, is het mogelijk om een opvallende kaart te genereren met een ruimtelijke dimensie van W × H, waarmee de uitdaging van onduidelijke objectgrenzen wordt aangepakt. De studie beschrijft een baanbrekende techniek voor het detecteren van opvallende objecten die de DCL- en DEDN-modellen samenvoegt tot een uniform netwerk. De gewichten van deze twee diepe netwerken worden geleerd door middel van een trainingsproces en de resulterende saliency maps worden samengevoegd en vervolgens verfijnd met behulp van een volledig verbonden Conditional Random Field (CRF). Het primaire doel van deze verfijning is het verbeteren van de ruimtelijke consistentie en contourlokalisatie.

Multiscale volledig convolutioneel neuraal netwerk op pixelniveau
De VGG16-architectuur bestond oorspronkelijk uit vijf pooling-lagen, elk met een stap van 2. Elke poolinglaag comprimeert de afbeeldingsgrootte om het aantal kanalen te vergroten en meer contextuele informatie te verkrijgen. Het DCL-model is geïnspireerd op literatuur13 en is een verbetering ten opzichte van het raamwerk van VGG16. In dit artikel wordt een DCL-model11 op pixelniveau gebruikt, zoals weergegeven in figuur 2 binnen de architectuur van VGG16, een diep convolutioneel neuraal netwerk. De eerste vier maximale poolinglagen zijn onderling verbonden met drie kernels. De eerste kernel is 3 × 3 × 128; de tweede kern is 1 × 1 × 128; en de derde kernel is 1 × 1 × 1. Om een uniforme grootte van functietoewijzingen te bereiken na de eerste vier poolinglagen, verbonden met drie kernels, waarbij elke grootte gelijk is aan een achtste van de oorspronkelijke afbeelding, wordt de stapgrootte van de eerste kernel die is verbonden met deze vier grootste poolinglagen ingesteld op respectievelijk 4, 2, 1 en 1.

Om het oorspronkelijke receptieve veld in de verschillende kernels te behouden, wordt het in literatuur11 voorgestelde “gatenalgoritme” gebruikt om de grootte van de kernel te vergroten door nullen toe te voegen, waardoor de integriteit van de kernel behouden blijft. Deze vier feature maps zijn verbonden met de eerste kernel met verschillende stapgroottes. Bijgevolg hebben de kenmerkende kaarten die in de laatste fase worden geproduceerd, identieke afmetingen. De vier functiekaarten vormen een reeks kenmerken op meerdere schalen die zijn verkregen uit verschillende schalen, die elk verschillende groottes van receptieve velden vertegenwoordigen. De resulterende feature maps verkregen uit de vier tussenliggende lagen worden samengevoegd met de ultieme feature map afgeleid van VGG16, waardoor een 5-kanaals output wordt gegenereerd. De resulterende uitvoer wordt vervolgens onderworpen aan een 1 × 1 × 1 kernel met de sigmoïde activeringsfunctie, waardoor uiteindelijk de saillante kaart wordt geproduceerd (met een resolutie van een achtste van de originele afbeelding). Het beeld wordt geüpsampled en vergroot met behulp van bilineaire interpolatie, zodat het resulterende beeld, ook wel de saliency map genoemd, een identieke resolutie behoudt als het oorspronkelijke beeld.

Diep encoder-decoder netwerk
Op dezelfde manier wordt het VGG16-netwerk gebruikt als het backbone-netwerk. VGG16 wordt gekenmerkt door een laag aantal ondiepe feature map-kanalen maar een hoge resolutie en een groot aantal diepe feature-kanalen maar een lage resolutie. Het samenvoegen van lagen en downsampling verhogen de rekensnelheid van het diepe netwerk ten koste van het verlagen van de resolutie van de functiekaart. Om dit probleem aan te pakken, wordt na de analyse in literatuur14 het encodernetwerk gebruikt om de volledige connectiviteit van de laatste poolinglaag in de originele VGG16 te wijzigen. Deze modificatie houdt in dat het wordt vervangen door twee convolutionele lagen met 7 × 7 kernels (grotere convolutionele kernels vergroten het receptieve veld). Beide convolutiekernen zijn uitgerust met een normalisatie (BN) bewerking en een gemodificeerde lineaire eenheid (ReLU). Deze aanpassing resulteert in een encoderuitvoerfunctiekaart die de informatie over de beeldruimte beter bewaart.

Hoewel de encoder de semantiek van afbeeldingen op hoog niveau verbetert voor de globale lokalisatie van opvallende objecten, wordt het probleem van de grensvervaging van het opvallende object niet effectief verbeterd. Om dit probleem aan te pakken, worden diepe functies samengevoegd met ondiepe functies, geïnspireerd op randdetectiewerk12, waarbij het encoder-decoder-netwerkmodel (DEDN) wordt voorgesteld, zoals weergegeven in figuur 3. De encoderarchitectuur bestaat uit drie kernels die met elkaar verbonden zijn met de eerste vier, terwijl de decoder de resolutie van de feature map systematisch verbetert met behulp van de maximale waarden die worden opgehaald uit de maximale poolinglagen.

In deze innovatieve methodologie voor de detectie van opvallende objecten wordt tijdens de decoderfase gebruik gemaakt van een convolutionele laag met een 3 × 3 kernel in combinatie met een batchnormalisatielaag en een aangepaste lineaire eenheid. Aan het einde van de laatste decoderingsmodule binnen de decoderarchitectuur wordt een convolutionele laag met één kanaal gebruikt om een opvallende kaart van de ruimtelijke dimensies W × H te verkrijgen. De meest opvallende kaart wordt gegenereerd door een gezamenlijke fusie van het encoder-decoder-model, wat het resultaat oplevert, en de complementaire fusie van de twee, d.w.z. de complementaire fusie van diepe informatie en oppervlakkige informatie. Dit zorgt niet alleen voor een nauwkeurige lokalisatie van het opvallende object en vergroot het receptieve veld, maar behoudt ook effectief beelddetailinformatie en versterkt de grens van het opvallende object.

Integratiemechanisme
De encoderarchitectuur bestaat uit drie kernels, die zijn gekoppeld aan de eerste vier maximale poolinglagen van het VGG16-model. De decoder daarentegen is opzettelijk geformuleerd om de resolutie van functiekaarten die zijn verkregen uit de upsamplinglagen geleidelijk te verhogen door gebruik te maken van de maximale waarden die zijn verkregen uit de overeenkomstige poolinglagen. Een convolutionele laag met behulp van een 3 x 3 kernel, een batchnormalisatielaag en een gemodificeerde lineaire eenheid worden vervolgens gebruikt in de decoder, gevolgd door een eenkanaals convolutionele laag om een opvallende kaart van dimensies W × H te genereren. De gewichten van de twee diepe netwerken worden geleerd door middel van afwisselende trainingscycli. De parameters van het eerste netwerk werden vast gehouden, terwijl de parameters van het tweede netwerk in totaal vijftig cycli werden getraind. Tijdens het proces worden de gewichten van de saliency map (S1 en S2) die voor fusie worden gebruikt, bijgewerkt via een willekeurige gradiënt. De verliesfunctie11 is:

Equation 1 (1)

In de gegeven expressie vertegenwoordigt het symbool G de handmatig gelabelde waarde, terwijl W de volledige set netwerkparameters aangeeft. Het gewicht βi dient als een balancerende factor om de verhouding tussen opvallende pixels en niet-opvallende pixels in het berekeningsproces te regelen.

Het beeld I wordt gekenmerkt door drie parameters: |I|, |Ik| en |Ik|+, die respectievelijk het totale aantal pixels, het aantal niet-opvallende pixels en het aantal opvallende pixels vertegenwoordigen. Equation 2

Aangezien de opvallende kaarten die zijn verkregen uit de bovenstaande twee netwerken geen rekening houden met de samenhang van aangrenzende pixels, wordt een volledig verbonden verfijningsmodel CRF15 op pixelniveau gebruikt om de ruimtelijke coherentie te verbeteren. De energievergelijking11 is als volgt, waarmee het probleem van de binaire pixeletikettering wordt opgelost.

Equation 3 (2)

waarbij L het binaire label (saillante waarde of niet-saillante waarde) aangeeft dat aan alle pixels is toegekend. De variabele P(li) geeft de waarschijnlijkheid aan dat een bepaalde pixel xieen specifiek label li krijgt, wat aangeeft hoe waarschijnlijk het is dat de pixel xisaillant is. In het begin is P(1) = Sipt P(0) = 1 – Si, waarbij Side saliency waarde aangeeft op de pixel xibinnen de gefuseerde saliency map Sθi,j(li,l j) is de paarsgewijze potentiaal, als volgt gedefinieerd.

Equation 4 (3)

Onder hen, als lilj, dan μ(li,l j) = 1, anders μ(li,l j) = 0. De berekening van θi,j omvat het gebruik van twee kernen, waarbij de initiële kern afhankelijk is van zowel de pixelpositie P als de pixelintensiteit I. Dit resulteert in de nabijheid van pixels met vergelijkbare kleuren die vergelijkbare opvallendheidswaarden vertonen. De twee parameters, σα pt σβ, regelen de mate waarin kleurgelijkenis en ruimtelijke nabijheid de uitkomst beïnvloeden. Het doel van de tweede kernel is om geïsoleerde kleine regio’s te elimineren. De minimalisering van energie wordt bereikt door hoogdimensionale filtering, waardoor het gemiddelde veld van de Conditional Random Field (CRF)-verdeling wordt versneld. Bij berekening vertoont de opvallende kaart, aangeduid als Scrf, een verbeterde ruimtelijke samenhang en contour met betrekking tot de gedetecteerde opvallende objecten.

Experimentele configuraties
In dit artikel wordt een diep netwerk voor het detecteren van opvallende doelen op basis van het VGG16 neurale netwerk geconstrueerd met behulp van Python. Het voorgestelde model wordt vergeleken met andere methoden met behulp van de datasets SOD20 en ECSSD21 . De SOD-beelddatabase staat bekend om zijn complexe en rommelige achtergronden, gelijkenis in kleuren tussen voorgrond en achtergrond en kleine objectgroottes. Aan elke afbeelding in deze gegevensset wordt een handmatig gelabelde werkelijke waarde toegewezen voor zowel kwantitatieve als kwalitatieve prestatie-evaluatie. Aan de andere kant bestaat de ECSSD-dataset voornamelijk uit afbeeldingen die afkomstig zijn van internet, met complexere en realistischere natuurlijke scènes met een laag contrast tussen de achtergrond van de afbeelding en opvallende objecten.

De evaluatie-indexen die worden gebruikt om het model in dit artikel te vergelijken, zijn onder meer de veelgebruikte Precision-Recall-curve, Fβpt EMAE. Om de voorspelde saliency map kwantitatief te beoordelen, wordt de Precision-Recall (P-R) curve22 gebruikt door de drempel te wijzigen van 0 naar 255 voor het binariseren van de saliency map. Fβis een uitgebreide beoordelingsmaatstaf, berekend met de precisie- en herinneringsvergelijkingen die zijn afgeleid van de gebinariseerde saillante kaart en een werkelijke waardekaart.

Equation 5 (4)

waarbij β de gewichtsparameter is om de nauwkeurigheid en het terugroepen aan te passen, instelling β2 = 0,3. De berekening van EMAEis gelijk aan het berekenen van de gemiddelde absolute fout tussen de resulterende saliency map en de ground truth map, zoals gedefinieerd door de daaruit voortvloeiende wiskundige uitdrukking:

Equation 6 (5)

Laat Ts(u,v) de geëxtraheerde waarde van de saillante kaart (u,v) pixels aanduiden, en laat TG(u,v) de corresponderende waarde van de echte kaart (u,v) pixels aanduiden.

Protocol

1. Experimentele opzet en procedure Laad het vooraf getrainde VGG16-model.OPMERKING: De eerste stap is het laden van het vooraf getrainde VGG16-model uit de Keras-bibliotheek6.Volg deze algemene stappen om een vooraf getraind VGG16-model in Python te laden met behulp van populaire deep learning-bibliotheken zoals PyTorch (zie Materiaaltabel):Zaklamp importeren. Importeer torchvision.models als modelle…

Representative Results

Deze studie introduceert een end-to-end diep neuraal netwerk dat bestaat uit twee complementaire netwerken: een multi-scale volledig convolutioneel netwerk op pixelniveau en een diep encoder-decodernetwerk. Het eerste netwerk integreert contextuele semantiek om visuele contrasten af te leiden uit functiekaarten op meerdere schalen, waarmee de uitdaging van vaste receptieve velden in diepe neurale netwerken over verschillende lagen wordt aangepakt. Het tweede netwerk maakt gebruik van zowel diepe als ondiepe beeldfuncties…

Discussion

Het artikel introduceert een end-to-end diep neuraal netwerk dat speciaal is ontworpen voor de detectie van opvallende objecten in complexe omgevingen. Het netwerk bestaat uit twee onderling verbonden componenten: een multiscale volledig convolutioneel netwerk op pixelniveau (DCL) en een deep encoder-decoder network (DEDN). Deze componenten werken synergetisch en bevatten contextuele semantiek om visuele contrasten te genereren binnen multiscale feature maps. Bovendien maken ze gebruik van zowel diepe als ondiepe beeldke…

Declarações

The authors have nothing to disclose.

Acknowledgements

Dit werk wordt ondersteund door 2024 Henan Provincial Higher Education Institutions Key Scientific Research Project Funding Program Establishment (Projectnummer: 24A520053). Deze studie wordt ook ondersteund door Specialized Creation and Integration Characteristics Demonstration Course Construction in de provincie Henan.

Materials

Matlab MathWorks Matlab R2016a MATLAB's programming interface provides development tools for improving code quality maintainability and maximizing performance.
It provides tools for building applications using custom graphical interfaces.
It provides tools for combining MATLAB-based algorithms with external applications and languages
Processor  Intel 11th Gen Intel(R) Core (TM) i5-1135G7 @ 2.40GHz 64-bit Win11 processor 
Pycharm JetBrains PyCharm 3.0 PyCharm is a Python IDE (Integrated Development Environment)
a list of required python:
modulesmatplotlib
skimage
torch
os
time
pydensecrf
opencv
glob
PIL
torchvision
numpy
tkinter
PyTorch  Facebook PyTorch 1.4  PyTorch is an open source Python machine learning library , based on Torch , used for natural language processing and other applications.PyTorch can be viewed both as the addition of GPU support numpy , but also can be viewed as a powerful deep neural network with automatic derivatives .

Referências

  1. Wang, W. G., Shen, J. B., Ling, H. B. A deep network solution for attention and aesthetics aware photo cropping. IEEE Transactions on Pattern Analysis and Machine Intelligence. 41 (7), 1531-1544 (2018).
  2. Wang, W. G., Sun, G. L., Gool, L. V. Looking beyond single images for weakly supervised semantic segmentation learning. IEEE Transactions on Pattern Analysis and Machine. , (2022).
  3. Mei, H. L., et al. Exploring dense context for salient object detection. IEEE Transactions on Circuits and Systems for Video Technology. 32 (3), 1378-1389 (2021).
  4. Borji, A., Itti, L. State-of-the-art in visual attention modeling. IEEE Transactions on Pattern Analysis and Machine Intelligence. 35 (1), 185-207 (2012).
  5. Long, J., Shelhamer, E., Darrell, T. Fully convolutional networks for semantic segmentation. , 3431-3440 (2015).
  6. Simonyan, K., Zisserman, A. Very deep convolutional networks for large-scale image recognition. arXiv preprint. , 1409-1556 (2014).
  7. He, K., Zhang, X., Ren, S., Sun, J. Deep residual learning for image recognition. , 770-778 (2016).
  8. Liu, N., Han, J. Dhsnet: Deep hierarchical saliency network for salient object detection. , 678-686 (2016).
  9. Zhang, L., Dai, J., Lu, H., He, Y., Wang, G. A bi-directional message passing model for salient object detection. , 1741-1750 (2018).
  10. Wu, R., et al. A mutual learning method for salient object detection with intertwined multi-supervision. , 8150-8159 (2019).
  11. Li, G., Yu, Y. Deep contrast learning for salient object detection. , 478-487 (2019).
  12. Ren, Q., Hu, R. Multi-scale deep encoder-decoder network for salient object detection. Neurocomputing. 316, 95-104 (2018).
  13. Wang, W. G., et al. Salient object detection in the deep learning era: An in-depth survey. IEEE Transactions on Pattern Analysis and Machine Intelligence. 44 (6), 3239-3259 (2021).
  14. Zhou, T., et al. RGB-D salient object detection: A survey. Computational Visual Media. 7, 37-69 (2021).
  15. Fu, K., et al. Siamese network for RGB-D salient object detection and beyond. IEEE Transactions on Pattern Analysis and Machine Intelligence. 44 (9), 5541-5559 (2021).
  16. Lai, Q., et al. Weakly supervised visual saliency prediction. IEEE Transactions on Image Processing. 31, 3111-3124 (2022).
  17. Zhang, L., Dai, J., Lu, H., He, Y., Wang, G. A bi-directional message passing model for salient object detection. , 1741-1750 (2018).
  18. Wu, R. A mutual learning method for salient object detection with intertwined multi-supervision. , 8150-8159 (2019).
  19. Wang, W., Shen, J., Dong, X., Borji, A., Yang, R. Inferring salient objects from human fixations. IEEE Transactions on Pattern Analysis and Machine Intelligence. 42 (8), 1913-1927 (2019).
  20. Movahedi, V., Elder, J. H. Design and perceptual validation of performance measures for salient object segmentation. , 49-56 (2010).
  21. Shi, J., Yan, Q., Xu, L., Jia, J. Hierarchical image saliency detection on extended CSSD. IEEE Transactions on Pattern Analysis and Machine Intelligence. 38 (4), 717-729 (2015).
  22. Achanta, R., Hemami, S., Estrada, F., Susstrunk, S. Frequency-tuned salient region detection. , 1597-1604 (2009).
  23. Yang, C., Zhang, L., Lu, H., Ruan, X., Yang, M. H. Saliency detection via graph-based manifold ranking. , 3166-3173 (2013).
  24. Wei, Y., et al. Geodesic saliency using background priors. Computer Vision-ECCV 2012. , 29-42 (2012).
  25. Margolin, R., Tal, A., Zelnik-Manor, L. What makes a patch distinct. , 1139-1146 (2013).
  26. Perazzi, F., Krähenbühl, P., Pritch, Y., Hornung, A. Saliency filters: Contrast based filtering for salient region detection. , 733-740 (2012).
  27. Hou, X., Harel, J., Koch, C. Image signature: Highlighting sparse salient regions. IEEE Transactions on Pattern Analysis and Machine Intelligence. 34 (1), 194-201 (2011).
  28. Jiang, H., et al. Salient object detection: A discriminative regional feature integration approach. , 2083-2090 (2013).
  29. Li, G., Yu, Y. Visual saliency based on multiscale deep features. , 5455-5463 (2015).
  30. Lee, G., Tai, Y. W., Kim, J. Deep saliency with encoded low level distance map and high-level features. , 660-668 (2016).
  31. Liu, N., Han, J. Dhsnet: Deep hierarchical saliency network for salient object detection. , 678-686 (2016).

Play Video

Citar este artigo
Wang, Y., Wang, Z. End-To-End Deep Neural Network for Salient Object Detection in Complex Environments. J. Vis. Exp. (202), e65554, doi:10.3791/65554 (2023).

View Video