Waiting
로그인 처리 중...

Trial ends in Request Full Access Tell Your Colleague About Jove
Click here for the English version

Engineering

End-to-end diep neuraal netwerk voor detectie van opvallende objecten in complexe omgevingen

Published: December 15, 2023 doi: 10.3791/65554

Summary

Het huidige protocol beschrijft een nieuw end-to-end algoritme voor het detecteren van opvallende objecten. Het maakt gebruik van diepe neurale netwerken om de precisie van de detectie van opvallende objecten binnen ingewikkelde omgevingscontexten te verbeteren.

Abstract

Opvallende objectdetectie is naar voren gekomen als een ontluikend interessegebied op het gebied van computervisie. De heersende algoritmen vertonen echter verminderde precisie wanneer ze belast zijn met het detecteren van opvallende objecten in ingewikkelde en veelzijdige omgevingen. In het licht van deze dringende zorg presenteert dit artikel een end-to-end diep neuraal netwerk dat tot doel heeft opvallende objecten in complexe omgevingen te detecteren. De studie introduceert een end-to-end diep neuraal netwerk dat tot doel heeft opvallende objecten in complexe omgevingen te detecteren. Het voorgestelde netwerk, dat bestaat uit twee onderling verbonden componenten, namelijk een volledig convolutioneel netwerk op meerdere schalen op pixelniveau en een netwerk van diepe encoder-decoders, integreert contextuele semantiek om visueel contrast te produceren tussen functiekaarten met meerdere schalen, terwijl diepe en ondiepe beeldkenmerken worden gebruikt om de nauwkeurigheid van de identificatie van objectgrenzen te verbeteren. De integratie van een volledig verbonden CRF-model (Conditional Random Field) verbetert de ruimtelijke samenhang en contourafbakening van opvallende kaarten verder. Het voorgestelde algoritme wordt uitgebreid geëvalueerd aan de hand van 10 hedendaagse algoritmen op de SOD- en ECSSD-databases. De evaluatieresultaten tonen aan dat het voorgestelde algoritme beter presteert dan andere benaderingen in termen van precisie en nauwkeurigheid, waardoor de doeltreffendheid ervan bij de detectie van opvallende objecten in complexe omgevingen wordt vastgesteld.

Introduction

Opvallende objectdetectie bootst de menselijke visuele aandacht na, identificeert snel belangrijke beeldgebieden en onderdrukt achtergrondinformatie. Deze techniek wordt veel gebruikt als hulpmiddel voor voorbewerking bij taken zoals het bijsnijden van afbeeldingen1, semantische segmentatie2 en het bewerken van afbeeldingen3. Het stroomlijnt taken zoals het vervangen van achtergronden en het extraheren van de voorgrond, waardoor de efficiëntie en precisie van het bewerken worden verbeterd. Bovendien helpt het bij semantische segmentatie door de lokalisatie van het doel te verbeteren. Het potentieel van detectie van opvallende objecten om de rekenefficiëntie te verbeteren en geheugen te besparen, onderstreept de belangrijke onderzoeks- en toepassingsvooruitzichten.

In de loop der jaren is de detectie van opvallende objecten geëvolueerd van initiële traditionele algoritmen naar de integratie van deep learning-algoritmen. Het doel van deze ontwikkelingen was om de kloof tussen de detectie van opvallende objecten en menselijke visuele mechanismen te verkleinen. Dit heeft geleid tot de toepassing van diepe convolutionele netwerkmodellen voor de studie van de detectie van opvallende objecten. Borji et al.4 vatten de meeste klassieke traditionele algoritmen, die afhankelijk zijn van de onderliggende kenmerken van het beeld, samen en generaliseerden ze. Ondanks enige verbetering van de detectienauwkeurigheid, blijven handmatige ervaring en cognitie een uitdaging vormen voor de detectie van opvallende objecten in complexe omgevingen.

Het gebruik van Convolutional Neural Networks (CNN's) komt veel voor in het domein van de detectie van opvallende objecten. In deze context worden diepe convolutionele neurale netwerken gebruikt voor gewichtsupdates door middel van autonoom leren. Convolutionele neurale netwerken zijn gebruikt om contextuele semantiek uit afbeeldingen te extraheren door het gebruik van gecascadeerde convolutionele en poolinglagen, waardoor complexe beeldkenmerken op hogere niveaus kunnen worden geleerd, die een hoger onderscheidings- en karakteriseringsvermogen hebben voor detectie van opvallende objecten in verschillende omgevingen.

In 2016 kregen volledig convolutionele neurale netwerken5 aanzienlijke tractie als een populaire benadering voor de detectie van opvallende objecten, op basis waarvan onderzoekers begonnen met de detectie van opvallende objecten op pixelniveau. Veel modellen zijn meestal gebouwd op bestaande netwerken (bijv. VGG166, ResNet7), gericht op het verbeteren van de beeldweergave en het versterken van het effect van randdetectie.

Liu et al.8 gebruikten een reeds getraind neuraal netwerk als raamwerk om het beeld globaal te berekenen en verfijnden vervolgens de objectgrens met behulp van een hiërarchisch netwerk. De combinatie van de twee netwerken vormt het uiteindelijke deep saliency netwerk. Dit werd bereikt door de eerder verworven saillante kaart op een repetitieve manier als voorkennis in het netwerk in te voeren. Zhang et al.9 versmolten effectief semantische en ruimtelijke beeldinformatie met behulp van diepe netwerken met bidirectionele informatieoverdracht van respectievelijk ondiep naar diep en van diepe naar ondiepe lagen. De detectie van opvallende objecten met behulp van een wederzijds lerend diep model werd naar voren gebracht door Wu et al.10. Het model maakt gebruik van voorgrond- en randinformatie binnen een convolutioneel neuraal netwerk om het detectieproces te vergemakkelijken. Li et al.11 gebruikten het 'gatenalgoritme' van neurale netwerken om de uitdaging aan te gaan van het fixeren van de receptieve velden van verschillende lagen in diepe neurale netwerken in de context van detectie van opvallende objecten. Superpixelsegmentatie wordt echter gebruikt voor het verwerven van objectranden, waardoor de rekeninspanning en rekentijd aanzienlijk toenemen. Ren et al.12 bedachten een multi-scale encoder-decoder netwerk om opvallende objecten te detecteren en gebruikten convolutionele neurale netwerken om diepe en oppervlakkige kenmerken effectief te combineren. Hoewel de uitdaging van grensvervaging bij objectdetectie door deze aanpak wordt opgelost, resulteert de fusie van informatie op meerdere schalen onvermijdelijk in verhoogde rekeneisen.

In het literatuuronderzoek13 wordt voorgesteld dat saliency detection, van traditionele methoden tot deep learning methoden, wordt samengevat, en dat de evolutie van saliency target detection vanaf het begin tot het tijdperk van deep learning heel duidelijk te zien is. In de literatuur zijn verschillende op RGB-D gebaseerde modellen voor de detectie van opvallende objecten met goede prestaties voorgesteld14. De bovenstaande literatuur geeft een overzicht en classificatie van de verschillende soorten algoritmen voor detectie van saliency-objecten en beschrijft hun toepassingsscenario's, de gebruikte databases en de evaluatiestatistieken. Dit artikel biedt ook een kwalitatieve en kwantitatieve analyse van de voorgestelde algoritmen met betrekking tot hun voorgestelde databases en evaluatiestatistieken.

Alle bovenstaande algoritmen hebben opmerkelijke resultaten behaald in openbare databases, die een basis vormen voor detectie van opvallende objecten in complexe omgevingen. Hoewel er zowel nationaal als internationaal tal van onderzoeksresultaten op dit gebied zijn geboekt, zijn er nog enkele problemen die moeten worden aangepakt. (1) Traditionele niet-deep learning-algoritmen hebben de neiging om een lage nauwkeurigheid te hebben vanwege hun afhankelijkheid van handmatig gelabelde kenmerken zoals kleur, textuur en frequentie, die gemakkelijk kunnen worden beïnvloed door subjectieve ervaring en perceptie. Bijgevolg wordt de precisie van hun mogelijkheden voor het detecteren van opvallende objecten verminderd. Het detecteren van opvallende objecten in complexe omgevingen met behulp van traditionele niet-deep learning-algoritmen is een uitdaging vanwege hun moeilijkheid om ingewikkelde scenario's af te handelen. (2) Conventionele methoden voor het detecteren van opvallende objecten vertonen een beperkte nauwkeurigheid vanwege hun afhankelijkheid van handmatig gelabelde kenmerken zoals kleur, textuur en frequentie. Bovendien kan detectie op regioniveau rekenkundig duur zijn, waarbij de ruimtelijke consistentie vaak wordt genegeerd en objectgrenzen slecht worden gedetecteerd. Deze problemen moeten worden aangepakt om de precisie van de detectie van opvallende objecten te verbeteren. (3) Detectie van opvallende objecten in ingewikkelde omgevingen vormt een uitdaging voor de meeste algoritmen. De meeste algoritmen voor het detecteren van opvallende objecten staan voor grote uitdagingen vanwege de steeds complexere omgeving voor het detecteren van opvallende objecten met variabele achtergronden (vergelijkbare achtergrond- en voorgrondkleuren, complexe achtergrondtexturen, enz.), veel onzekerheden zoals inconsistente detectieobjectgroottes en de onduidelijke definitie van voorgrond- en achtergrondranden.

De meeste van de huidige algoritmen vertonen een lage nauwkeurigheid bij het detecteren van opvallende objecten in complexe omgevingen met vergelijkbare achtergrond- en voorgrondkleuren, complexe achtergrondtexturen en wazige randen. Hoewel de huidige op deep learning gebaseerde algoritmen voor opvallende objecten een hogere nauwkeurigheid vertonen dan traditionele detectiemethoden, schieten de onderliggende beeldkenmerken die ze gebruiken nog steeds tekort in het effectief karakteriseren van semantische kenmerken, waardoor er ruimte is voor verbetering van hun prestaties.

Samenvattend stelt deze studie een end-to-end diep neuraal netwerk voor voor een algoritme voor het detecteren van opvallende objecten, met als doel de nauwkeurigheid van de detectie van opvallende objecten in complexe omgevingen te verbeteren, doelranden te verbeteren en semantische kenmerken beter te karakteriseren. De bijdragen van dit artikel zijn als volgt: (1) Het eerste netwerk gebruikt VGG16 als basisnetwerk en wijzigt de vijf poolinglagen met behulp van het 'gatenalgoritme'11. Het volledig convolutionele neurale netwerk op pixelniveau op meerdere schalen leert beeldkenmerken van verschillende ruimtelijke schalen, waardoor de uitdaging van statische receptieve velden in verschillende lagen van diepe neurale netwerken wordt aangepakt en de detectienauwkeurigheid in belangrijke aandachtsgebieden in het veld wordt verbeterd. (2) Recente inspanningen om de nauwkeurigheid van de detectie van opvallende objecten te verbeteren, zijn gericht op het benutten van diepere neurale netwerken, zoals VGG16, om zowel dieptekenmerken uit het encodernetwerk als ondiepe kenmerken uit het decodernetwerk te extraheren. Deze aanpak verbetert effectief de detectienauwkeurigheid van objectgrenzen en verbetert de semantische informatie, met name in complexe omgevingen met variabele achtergronden, inconsistente objectgroottes en onduidelijke grenzen tussen voor- en achtergrond. (3) Recente inspanningen om de precisie van de detectie van opvallende objecten te verbeteren, hebben de nadruk gelegd op het gebruik van diepere netwerken, waaronder VGG16, voor het extraheren van diepe kenmerken uit het encodernetwerk en ondiepe kenmerken uit het decodernetwerk. Deze aanpak heeft een verbeterde detectie van objectgrenzen en meer semantische informatie aangetoond, vooral in complexe omgevingen met verschillende achtergronden, objectgroottes en onduidelijke grenzen tussen de voor- en achtergrond. Daarnaast is de integratie van een volledig verbonden CRF-model (Conditional Random Field) geïmplementeerd om de ruimtelijke samenhang en contourprecisie van opvallende kaarten te vergroten. De effectiviteit van deze aanpak werd geëvalueerd op SOD- en ECSSD-datasets met complexe achtergronden en bleek statistisch significant te zijn.

Gerelateerd werk
Fu et al.15 stelden een gezamenlijke aanpak voor met behulp van RGB en deep learning voor de detectie van opvallende objecten. Lai et al.16 introduceerden een zwak gecontroleerd model voor de detectie van opvallende objecten, waarbij de opvallendheid werd geleerd van annotaties, voornamelijk met behulp van krabbellabels om annotatietijd te besparen. Hoewel deze algoritmen een samensmelting vormden van twee complementaire netwerken voor detectie van saillantieobjecten, ontbreekt het aan diepgaand onderzoek naar saliency-detectie in complexe scenario's. Wang et al.17 ontwierpen een iteratieve fusie van neurale netwerkfuncties in twee modi, zowel bottom-up als top-down, waarbij de resultaten van de vorige iteratie geleidelijk werden geoptimaliseerd tot convergentie. Zhang et al.18 versmolten effectief semantische en ruimtelijke beeldinformatie met behulp van diepe netwerken met bidirectionele informatieoverdracht van respectievelijk ondiep naar diep en van diepe naar ondiepe lagen. De detectie van opvallende objecten met behulp van een wederzijds lerend diep model werd voorgesteld door Wu et al.19. Het model maakt gebruik van voorgrond- en randinformatie binnen een convolutioneel neuraal netwerk om het detectieproces te vergemakkelijken. Deze op diepe neurale netwerken gebaseerde modellen voor het detecteren van opvallende objecten hebben opmerkelijke prestaties geleverd op openbaar beschikbare datasets, waardoor detectie van opvallende objecten in complexe natuurlijke scènes mogelijk is. Toch blijft het ontwerpen van nog betere modellen een belangrijke doelstelling in dit onderzoeksveld en dient het als primaire motivatie voor dit onderzoek.

Algemeen kader
De schematische weergave van het voorgestelde model, zoals weergegeven in figuur 1, is voornamelijk afgeleid van de VGG16-architectuur, die zowel een multiscale volledig convolutioneel neuraal netwerk (DCL) op pixelniveau als een diep encoder-decodernetwerk (DEDN) omvat. Het model elimineert alle uiteindelijke pooling en volledig verbonden lagen van VGG16 en is geschikt voor invoerbeeldafmetingen van W × H. Het operationele mechanisme omvat de eerste verwerking van het invoerbeeld via de DCL, waardoor de extractie van diepe kenmerken wordt vergemakkelijkt, terwijl ondiepe kenmerken worden verkregen uit de DEDN-netwerken. De samensmelting van deze kenmerken wordt vervolgens onderworpen aan een volledig verbonden CRF-model (Conditional Random Field), waardoor de ruimtelijke samenhang en contournauwkeurigheid van de geproduceerde saliency maps worden vergroot.

Om de doeltreffendheid van het model vast te stellen, werd het getest en gevalideerd op SOD20 - en ECSSD21-datasets met ingewikkelde achtergronden. Nadat het invoerbeeld door de DCL is gegaan, worden functiekaarten op verschillende schalen met verschillende receptieve velden verkregen en wordt contextuele semantiek gecombineerd om een W × H opvallende kaart met interdimensionale coherentie te produceren. De DCL maakt gebruik van een paar convolutionele lagen met 7 x 7 kernels om de laatste poolinglaag van het oorspronkelijke VGG16-netwerk te vervangen, waardoor het behoud van ruimtelijke informatie in de functiekaarten wordt verbeterd. Dit, gecombineerd met contextuele semantiek, levert een W × H saillante kaart op met interdimensionale samenhang. Evenzo maakt het Deep Encoder-Decoder Network (DEDN) gebruik van convolutionele lagen met 3 x 3 kernels in de decoders en een enkele convolutionele laag na de laatste decoderingsmodule. Door gebruik te maken van diepe en ondiepe kenmerken van het beeld, is het mogelijk om een opvallende kaart te genereren met een ruimtelijke dimensie van W × H, waarmee de uitdaging van onduidelijke objectgrenzen wordt aangepakt. De studie beschrijft een baanbrekende techniek voor het detecteren van opvallende objecten die de DCL- en DEDN-modellen samenvoegt tot een uniform netwerk. De gewichten van deze twee diepe netwerken worden geleerd door middel van een trainingsproces en de resulterende saliency maps worden samengevoegd en vervolgens verfijnd met behulp van een volledig verbonden Conditional Random Field (CRF). Het primaire doel van deze verfijning is het verbeteren van de ruimtelijke consistentie en contourlokalisatie.

Multiscale volledig convolutioneel neuraal netwerk op pixelniveau
De VGG16-architectuur bestond oorspronkelijk uit vijf pooling-lagen, elk met een stap van 2. Elke poolinglaag comprimeert de afbeeldingsgrootte om het aantal kanalen te vergroten en meer contextuele informatie te verkrijgen. Het DCL-model is geïnspireerd op literatuur13 en is een verbetering ten opzichte van het raamwerk van VGG16. In dit artikel wordt een DCL-model11 op pixelniveau gebruikt, zoals weergegeven in figuur 2 binnen de architectuur van VGG16, een diep convolutioneel neuraal netwerk. De eerste vier maximale poolinglagen zijn onderling verbonden met drie kernels. De eerste kernel is 3 × 3 × 128; de tweede kern is 1 × 1 × 128; en de derde kernel is 1 × 1 × 1. Om een uniforme grootte van functietoewijzingen te bereiken na de eerste vier poolinglagen, verbonden met drie kernels, waarbij elke grootte gelijk is aan een achtste van de oorspronkelijke afbeelding, wordt de stapgrootte van de eerste kernel die is verbonden met deze vier grootste poolinglagen ingesteld op respectievelijk 4, 2, 1 en 1.

Om het oorspronkelijke receptieve veld in de verschillende kernels te behouden, wordt het in literatuur11 voorgestelde "gatenalgoritme" gebruikt om de grootte van de kernel te vergroten door nullen toe te voegen, waardoor de integriteit van de kernel behouden blijft. Deze vier feature maps zijn verbonden met de eerste kernel met verschillende stapgroottes. Bijgevolg hebben de kenmerkende kaarten die in de laatste fase worden geproduceerd, identieke afmetingen. De vier functiekaarten vormen een reeks kenmerken op meerdere schalen die zijn verkregen uit verschillende schalen, die elk verschillende groottes van receptieve velden vertegenwoordigen. De resulterende feature maps verkregen uit de vier tussenliggende lagen worden samengevoegd met de ultieme feature map afgeleid van VGG16, waardoor een 5-kanaals output wordt gegenereerd. De resulterende uitvoer wordt vervolgens onderworpen aan een 1 × 1 × 1 kernel met de sigmoïde activeringsfunctie, waardoor uiteindelijk de saillante kaart wordt geproduceerd (met een resolutie van een achtste van de originele afbeelding). Het beeld wordt geüpsampled en vergroot met behulp van bilineaire interpolatie, zodat het resulterende beeld, ook wel de saliency map genoemd, een identieke resolutie behoudt als het oorspronkelijke beeld.

Diep encoder-decoder netwerk
Op dezelfde manier wordt het VGG16-netwerk gebruikt als het backbone-netwerk. VGG16 wordt gekenmerkt door een laag aantal ondiepe feature map-kanalen maar een hoge resolutie en een groot aantal diepe feature-kanalen maar een lage resolutie. Het samenvoegen van lagen en downsampling verhogen de rekensnelheid van het diepe netwerk ten koste van het verlagen van de resolutie van de functiekaart. Om dit probleem aan te pakken, wordt na de analyse in literatuur14 het encodernetwerk gebruikt om de volledige connectiviteit van de laatste poolinglaag in de originele VGG16 te wijzigen. Deze modificatie houdt in dat het wordt vervangen door twee convolutionele lagen met 7 × 7 kernels (grotere convolutionele kernels vergroten het receptieve veld). Beide convolutiekernen zijn uitgerust met een normalisatie (BN) bewerking en een gemodificeerde lineaire eenheid (ReLU). Deze aanpassing resulteert in een encoderuitvoerfunctiekaart die de informatie over de beeldruimte beter bewaart.

Hoewel de encoder de semantiek van afbeeldingen op hoog niveau verbetert voor de globale lokalisatie van opvallende objecten, wordt het probleem van de grensvervaging van het opvallende object niet effectief verbeterd. Om dit probleem aan te pakken, worden diepe functies samengevoegd met ondiepe functies, geïnspireerd op randdetectiewerk12, waarbij het encoder-decoder-netwerkmodel (DEDN) wordt voorgesteld, zoals weergegeven in figuur 3. De encoderarchitectuur bestaat uit drie kernels die met elkaar verbonden zijn met de eerste vier, terwijl de decoder de resolutie van de feature map systematisch verbetert met behulp van de maximale waarden die worden opgehaald uit de maximale poolinglagen.

In deze innovatieve methodologie voor de detectie van opvallende objecten wordt tijdens de decoderfase gebruik gemaakt van een convolutionele laag met een 3 × 3 kernel in combinatie met een batchnormalisatielaag en een aangepaste lineaire eenheid. Aan het einde van de laatste decoderingsmodule binnen de decoderarchitectuur wordt een convolutionele laag met één kanaal gebruikt om een opvallende kaart van de ruimtelijke dimensies W × H te verkrijgen. De meest opvallende kaart wordt gegenereerd door een gezamenlijke fusie van het encoder-decoder-model, wat het resultaat oplevert, en de complementaire fusie van de twee, d.w.z. de complementaire fusie van diepe informatie en oppervlakkige informatie. Dit zorgt niet alleen voor een nauwkeurige lokalisatie van het opvallende object en vergroot het receptieve veld, maar behoudt ook effectief beelddetailinformatie en versterkt de grens van het opvallende object.

Integratiemechanisme
De encoderarchitectuur bestaat uit drie kernels, die zijn gekoppeld aan de eerste vier maximale poolinglagen van het VGG16-model. De decoder daarentegen is opzettelijk geformuleerd om de resolutie van functiekaarten die zijn verkregen uit de upsamplinglagen geleidelijk te verhogen door gebruik te maken van de maximale waarden die zijn verkregen uit de overeenkomstige poolinglagen. Een convolutionele laag met behulp van een 3 x 3 kernel, een batchnormalisatielaag en een gemodificeerde lineaire eenheid worden vervolgens gebruikt in de decoder, gevolgd door een eenkanaals convolutionele laag om een opvallende kaart van dimensies W × H te genereren. De gewichten van de twee diepe netwerken worden geleerd door middel van afwisselende trainingscycli. De parameters van het eerste netwerk werden vast gehouden, terwijl de parameters van het tweede netwerk in totaal vijftig cycli werden getraind. Tijdens het proces worden de gewichten van de saliency map (S1 en S2) die voor fusie worden gebruikt, bijgewerkt via een willekeurige gradiënt. De verliesfunctie11 is:

Equation 1 (1)

In de gegeven expressie vertegenwoordigt het symbool G de handmatig gelabelde waarde, terwijl W de volledige set netwerkparameters aangeeft. Het gewicht βi dient als een balancerende factor om de verhouding tussen opvallende pixels en niet-opvallende pixels in het berekeningsproces te regelen.

Het beeld I wordt gekenmerkt door drie parameters: |I|, |Ik|- en |Ik|+, die respectievelijk het totale aantal pixels, het aantal niet-opvallende pixels en het aantal opvallende pixels vertegenwoordigen. Equation 2

Aangezien de opvallende kaarten die zijn verkregen uit de bovenstaande twee netwerken geen rekening houden met de samenhang van aangrenzende pixels, wordt een volledig verbonden verfijningsmodel CRF15 op pixelniveau gebruikt om de ruimtelijke coherentie te verbeteren. De energievergelijking11 is als volgt, waarmee het probleem van de binaire pixeletikettering wordt opgelost.

Equation 3 (2)

waarbij L het binaire label (saillante waarde of niet-saillante waarde) aangeeft dat aan alle pixels is toegekend. De variabele P(li) geeft de waarschijnlijkheid aan dat een bepaalde pixel xieen specifiek label li krijgt, wat aangeeft hoe waarschijnlijk het is dat de pixel xisaillant is. In het begin is P(1) = Sien P(0) = 1 - Si, waarbij Side saliency waarde aangeeft op de pixel xibinnen de gefuseerde saliency map Sθi,j(li,l j) is de paarsgewijze potentiaal, als volgt gedefinieerd.

Equation 4 (3)

Onder hen, als lilj, dan μ(li,l j) = 1, anders μ(li,l j) = 0. De berekening van θi,j omvat het gebruik van twee kernen, waarbij de initiële kern afhankelijk is van zowel de pixelpositie P als de pixelintensiteit I. Dit resulteert in de nabijheid van pixels met vergelijkbare kleuren die vergelijkbare opvallendheidswaarden vertonen. De twee parameters, σα en σβ, regelen de mate waarin kleurgelijkenis en ruimtelijke nabijheid de uitkomst beïnvloeden. Het doel van de tweede kernel is om geïsoleerde kleine regio's te elimineren. De minimalisering van energie wordt bereikt door hoogdimensionale filtering, waardoor het gemiddelde veld van de Conditional Random Field (CRF)-verdeling wordt versneld. Bij berekening vertoont de opvallende kaart, aangeduid als Scrf, een verbeterde ruimtelijke samenhang en contour met betrekking tot de gedetecteerde opvallende objecten.

Experimentele configuraties
In dit artikel wordt een diep netwerk voor het detecteren van opvallende doelen op basis van het VGG16 neurale netwerk geconstrueerd met behulp van Python. Het voorgestelde model wordt vergeleken met andere methoden met behulp van de datasets SOD20 en ECSSD21 . De SOD-beelddatabase staat bekend om zijn complexe en rommelige achtergronden, gelijkenis in kleuren tussen voorgrond en achtergrond en kleine objectgroottes. Aan elke afbeelding in deze gegevensset wordt een handmatig gelabelde werkelijke waarde toegewezen voor zowel kwantitatieve als kwalitatieve prestatie-evaluatie. Aan de andere kant bestaat de ECSSD-dataset voornamelijk uit afbeeldingen die afkomstig zijn van internet, met complexere en realistischere natuurlijke scènes met een laag contrast tussen de achtergrond van de afbeelding en opvallende objecten.

De evaluatie-indexen die worden gebruikt om het model in dit artikel te vergelijken, zijn onder meer de veelgebruikte Precision-Recall-curve, Fβen EMAE. Om de voorspelde saliency map kwantitatief te beoordelen, wordt de Precision-Recall (P-R) curve22 gebruikt door de drempel te wijzigen van 0 naar 255 voor het binariseren van de saliency map. Fβis een uitgebreide beoordelingsmaatstaf, berekend met de precisie- en herinneringsvergelijkingen die zijn afgeleid van de gebinariseerde saillante kaart en een werkelijke waardekaart.

Equation 5 (4)

waarbij β de gewichtsparameter is om de nauwkeurigheid en het terugroepen aan te passen, instelling β2 = 0,3. De berekening van EMAEis gelijk aan het berekenen van de gemiddelde absolute fout tussen de resulterende saliency map en de ground truth map, zoals gedefinieerd door de daaruit voortvloeiende wiskundige uitdrukking:

Equation 6 (5)

Laat Ts(u,v) de geëxtraheerde waarde van de saillante kaart (u,v) pixels aanduiden, en laat TG(u,v) de corresponderende waarde van de echte kaart (u,v) pixels aanduiden.

Subscription Required. Please recommend JoVE to your librarian.

Protocol

1. Experimentele opzet en procedure

  1. Laad het vooraf getrainde VGG16-model.
    OPMERKING: De eerste stap is het laden van het vooraf getrainde VGG16-model uit de Keras-bibliotheek6.
    1. Volg deze algemene stappen om een vooraf getraind VGG16-model in Python te laden met behulp van populaire deep learning-bibliotheken zoals PyTorch (zie Materiaaltabel):
      1. Zaklamp importeren. Importeer torchvision.models als modellen.
      2. Laad het vooraf getrainde VGG16-model. vgg16_model = modellen.vgg16(voorgetraind=Waar).
      3. Zorg ervoor dat de samenvatting van het VGG16-model "print(vgg16_model)" is.
  2. Definieer de DCL- en DEDN-modellen.
    1. Geef voor de pseudocode van het DCL-algoritme Input: Image dataset SOD en Output: Trained DCL model op.
      1. Initialiseer het DCL-model met het VGG16-backbonenetwerk.
      2. Verwerk de afbeeldingsgegevensset D vooraf (bijv. formaat wijzigen, normalisatie).
      3. Splits de dataset op in trainings- en validatiesets.
      4. Definieer de verliesfunctie voor het trainen van het DCL-model (bijv. binaire cross-entropie).
      5. Stel de hyperparameters voor training in: Leersnelheid (0,0001), Aantal ingestelde trainingsepochs (50), Batchgrootte is (8), Optimizer (Adam).
      6. Train het DCL-model: doe voor elke epoch in het gedefinieerde aantal epochs voor elke batch in de trainingsset. Voer het volgende in:
        1. Voorwaartse doorgang: Batchafbeeldingen invoeren in het DCL-model. Bereken het verlies met behulp van de voorspelde saliency maps en ground truth maps.
        2. Achterwaartse pass: Werk de modelparameters bij met behulp van het einde van de gradiëntafdaling. Bereken het validatieverlies en andere evaluatiestatistieken aan het einde van de validatieset.
      7. Sla het getrainde DCL-model op.
      8. Retourneer het getrainde DCL-model.
    2. Voor pseudo-code voor het DEDN-algoritme, invoer: Afbeeldingsgegevensset (X), Ground truth saliency maps (Y), Aantal trainingsiteraties (N).
      1. Zorg er voor het encodernetwerk voor dat de encoder is gebaseerd op het VGG16-skelet met aanpassingen (zoals hieronder vermeld).
        OPMERKING: encoder_input = Invoer (vorm=input_shape)
        encoder_conv1 = Conv2D(64, (3, 3), activation='relu', padding='same')(encoder_input)
        encoder_pool1 = MaxPooling2D((2; 2))(encoder_conv1)
        encoder_conv2 = Conv2D(128, (3, 3), activation='relu', padding='same')(encoder_pool1)
        encoder_pool2 = MaxPooling2D((2; 2))(encoder_conv2)
        encoder_conv3 = Conv2D(256, (3, 3), activation='relu', padding='same')(encoder_pool2)
        encoder_pool3 = MaxPooling2D((2; 2))(encoder_conv3)
      2. Zorg er voor het decodernetwerk voor dat de decoder is gebaseerd op het VGG16-skelet met aanpassingen (zoals hieronder vermeld).
        OPMERKING: decoder_conv1 = Conv2D(256, (3, 3), activation='relu', padding='same')(encoder_pool3)
        decoder_upsample1 = UpSampling2D((2; 2))(decoder_conv1)
        decoder_conv2 = Conv2D(128, (3, 3), activation='relu', padding='same')(decoder_upsample1)
        decoder_upsample2 = UpSampling2D((2; 2))(decoder_conv2)
        decoder_conv3 = Conv2D(64, (3, 3), activation='relu', padding='same')(decoder_upsample2)
        decoder_upsample3 = UpSampling2D((2; 2))(decoder_conv3)
        decoder_output = Conv2D(1, (1, 1), activation='sigmoid', padding='same')(decoder_upsample3)
    3. Definieer het DEDN-model. model = Model (ingangen = encoder_input, uitgangen = decoder_output).
    4. Stel het model samen. model.compile (optimizer = Adam, verlies = binary_crossentropy).
    5. Selecteer de trainingslus.
      OPMERKING: Voor iteratie in bereik (N): # Selecteer willekeurig een reeks afbeeldingen en grondwaarheidskaarten; batch_X, batch_Y = randomly_select_batch(X, Y, batch_size).
      1. Train het model op de batch. verlies = model.train_on_batch(batch_X, batch_Y). Druk het verlies af voor bewaking.
    6. Sla het getrainde model op. model.save ('dedn_model.h5').
  3. Combineren.
    1. Combineer de uitgangen van de DCL- en DEDN-netwerken en verfijn de saliency map met behulp van een volledig verbonden CRF-model (Conditional Random Field).

2. Beeldverwerking

  1. Klik op code uitvoeren om de GUI-interface te openen (Figuur 4).
  2. Klik op open afbeelding om het pad en dus de te detecteren afbeelding te selecteren.
  3. Klik op de weergaveafbeelding om de afbeelding weer te geven die is geselecteerd voor detectie.
  4. Klik op detectie starten om de geselecteerde afbeelding te detecteren.
    OPMERKING: Het detectieresultaat verschijnt samen met het gedetecteerde beeld, d.w.z. het resultaat van het opvallende object (Figuur 5).
  5. Klik op selecteer het opslagpad om de afbeeldingsresultaten van de opvallende objectdetectie op te slaan.

Subscription Required. Please recommend JoVE to your librarian.

Representative Results

Deze studie introduceert een end-to-end diep neuraal netwerk dat bestaat uit twee complementaire netwerken: een multi-scale volledig convolutioneel netwerk op pixelniveau en een diep encoder-decodernetwerk. Het eerste netwerk integreert contextuele semantiek om visuele contrasten af te leiden uit functiekaarten op meerdere schalen, waarmee de uitdaging van vaste receptieve velden in diepe neurale netwerken over verschillende lagen wordt aangepakt. Het tweede netwerk maakt gebruik van zowel diepe als ondiepe beeldfuncties om het probleem van vage grenzen in doelobjecten te verminderen. Ten slotte wordt een volledig verbonden CRF-model (Conditional Random Field) toegepast om de ruimtelijke samenhang en contouren van de saliency map te verbeteren.

De studie voert een kwalitatieve en kwantitatieve vergelijking uit tussen het voorgestelde algoritme en tien bestaande algoritmen in het veld. Experimentele resultaten tonen de effectiviteit aan van het voorgestelde algoritme bij het verbeteren van de nauwkeurigheid van significante objectdetectie. Bovendien toont het algoritme potentiële toepasbaarheid in visuele energietaken, wat veelbelovende perspectieven biedt in verschillende complexe omgevingen binnen het domein van intelligente elektriciteitsnetten.

Ablatie-experimenten
Het huidige onderzoek heeft een reeks ablatie-experimenten uitgevoerd op de SOD-database om de effectiviteit van het algoritme te evalueren. De resultaten van deze experimenten zijn weergegeven in tabel 1. (1) De evaluatiemaatstaven die worden gebruikt om het model te vergelijken, zijn de Precision-Recall-curve22, Fβen EMAE. Tabel 1 (nr. 1) resultaten laten zien dat het verwijderen van het DCL-model uit het algoritme een afname van de Fβwaarde en een toename van de EMAE-waardeveroorzaakt. De bovengenoemde observatie suggereert dat Dynamic Convolutional Layers (DCL) het vermogen kunnen hebben om de werkzaamheid van diepe neurale netwerken te versterken door dynamische receptieve velden in verschillende lagen te integreren, wat op zijn beurt het visuele contrast van meervoudige functiekaarten kan verhogen. (2) Uit tabel 1 (nr. 2) kunnen we zien dat het algoritme in dit artikel alleen de DEDN-structuur verwijdert, in vergelijking met de volledige module in tabel 1 (nr. 3), de F_β waarde in tabel 1 (nr. 2) afneemt en de E_MAE waarde toeneemt, wat aangeeft dat het DEDN de prominentie effectief en nauwkeurig kan lokaliseren, het receptieve veld kan vergroten, en behoud de gedetailleerde informatie van het beeld, terwijl de grenzen van de prominentie worden versterkt.

Figuur 6 toont de visualisatieresultaten van het ablatie-experiment. De afbeeldingen zijn gerangschikt van links naar rechts en tonen de originele afbeelding, het resultaat van het DCL-algoritme, het resultaat van het DEDN-algoritme, het voorgestelde algoritme in dit artikel en de bijbehorende grondwaarheidsafbeelding. Bij nadere inspectie van figuur 6 is het duidelijk dat het DCL-algoritme de neiging heeft om de doelgrens te beschrijven bij het detecteren van afbeeldingen in de SOD-database, maar moeite heeft om de achtergrond effectief te filteren. Het DEDN-algoritme daarentegen versterkt de doelgrens, maar staat voor uitdagingen bij het onderdrukken van achtergrondredundantie-informatie. Het algoritme dat in dit artikel wordt voorgesteld, combineert daarentegen de sterke punten van deze twee algoritmen op een complementaire manier, waardoor het doel effectief wordt benadrukt en redundantie-informatie van complexe achtergronden wordt onderdrukt. De resultaten van dit artikel overtreffen die van beide algoritmes alleen.

Vergelijking met andere geavanceerde algoritmen
Om de prestaties van het voorgestelde algoritme te evalueren, werd een vergelijkende analyse uitgevoerd met elf prominente detectiemethoden voor opvallende objecten, namelijk GMR23, GS24, SF25, PD26, SS27, DRFI28, MDF29, ELD30, DHS31 en DCL11. Onder hen zijn GMR23, GS24, SF25, PD26, SS27 en DRFI28 goed presterende traditionele niet-gesuperviseerde saliency-detectiemethoden die vaak worden gebruikt als benchmarks door veel deep saliency-modellen. De overige vier methoden maken gebruik van diepe convolutionele neurale netwerken en hebben superieure prestaties aangetoond in hun respectievelijke onderzoeksliteratuur. De evaluatiemaatstaven die voor dit onderzoek worden gebruikt, omvatten PR-curves, maximale F-meetwaarden en gemiddelde absolute fout (MAE). De geselecteerde testdatasets bestaan uit SOD- en ECSSD-datasets.

Kwantitatieve vergelijking
Figuur 7 illustreert de precisie-recall (PR)-curven die het in deze studie voorgestelde algoritme vergelijken met 10 andere prominente detectiemethoden voor opvallende objecten op de openbaar beschikbare beelddatasets SOD en ECSSD. De curves geven duidelijk aan dat het algoritme dat in deze studie wordt voorgesteld, beter presteert dan de andere 10 algoritmen, waardoor de superieure detectieprestaties van de in dit artikel gepresenteerde methode worden gevalideerd. Van bijzonder belang is het vermogen van dit algoritme om een hoge precisie te behouden, zelfs als de terugroepactie 1 nadert, wat wijst op de nauwkeurige segmentatie van visueel opvallende objecten terwijl hun integriteit wordt gewaarborgd. Tabel 2 geeft een kwantitatieve vergelijking van de methoden op de SOD- en ECSSD-testdatasets, waaruit blijkt dat ons algoritme betere prestaties behaalt in termen van de maximale F-maat (Fβ) en de gemiddelde absolute fout (EMAE), voornamelijk toegeschreven aan de complementaire combinatie van het DCL-netwerk en het DEDN-netwerk.

Kwalitatieve vergelijking
Bovendien werd een kwalitatieve beoordeling uitgevoerd om de visuele resultaten van de geanalyseerde technieken naast elkaar te plaatsen, zoals geïllustreerd in figuur 8. Deze figuren tonen een reeks afbeeldingen die van links naar rechts zijn gerangschikt, te beginnen met de originele afbeeldingen, gevolgd door GMR23, GS24, SF25, PD26, SS27, DRFI28, MDF29, ELD30, DHS31 en DCL11, het algoritme dat in dit artikel wordt voorgesteld en de Ground-truth-kaart.

In figuur 8A wordt een kwalitatieve vergelijking in de SOD-dataset weergegeven. Het is duidelijk dat de originele afbeelding in kolom 1 een relatief vergelijkbare kleurverdeling vertoont tussen de achtergrond- en voorgrondelementen. Bovendien vertonen de eerste en derde saliency maps een meer ingewikkelde achtergrondtextuur, waardoor de detectie van het opvallende object mogelijk wordt belemmerd. Het algoritme dat in deze studie wordt geschetst, laat een significante verbetering zien in de detectie van opvallende objecten in complexe omgevingen, die de prestaties van andere bestaande algoritmen overtreft. De eerste afbeelding in kolom 1, met name de tweede afbeelding, bevat achtergrondtakken die vermengd zijn met het dier op de voorgrond, wat een uitdaging vormt voor de juiste beoordeling van het object op de voorgrond. Het algoritme dat in dit onderzoek naar voren is gebracht, pakt met succes het probleem van achtergrondinterferentie aan en markeert effectief het objectgebied op de voorgrond. Het experiment toont aan dat het voorgestelde algoritme een hoge nauwkeurigheid en precisie bereikt bij het omgaan met afbeeldingen met complexe achtergronden.

In figuur 8B wordt een kwalitatieve vergelijking binnen de ECSSD-dataset gepresenteerd, waarbij de visuele contrastresultaten van verschillende detectiemethoden voor opvallende objecten worden getoond. De bevindingen geven aan dat het voorgestelde algoritme superieure detectieprestaties levert in diverse en complexe natuurlijke scènes. Deze natuurlijke scènebeelden omvatten scenario's zoals opvallende objecten die in contact komen met beeldgrenzen in de eerste en tweede afbeelding en een laag contrast en kleurgelijkenis tussen de voor- en achtergrond in de derde afbeelding. Door middel van deze gevisualiseerde uitkomsten markeert het hier voorgestelde algoritme effectief complete opvallende objecten en zorgt het voor duidelijke objectgrenzen. Ongeacht de schaal van opvallende objecten, of ze nu groot of klein zijn, vertoont het algoritme consequent een hoge segmentatienauwkeurigheid, wat de effectiviteit ervan valideert. Bovendien vertoont het algoritme dat in deze studie wordt gepresenteerd, in vergelijking met andere methoden, een hogere robuustheid, waardoor valse detecties in opvallendheidsregio's (of achtergrondregio's) worden beperkt.

Figure 1
Figuur 1: Algemeen structuurkader. Schematische weergave van het voorgestelde model. Klik hier om een grotere versie van deze figuur te bekijken.

Figure 2
Figuur 2: Het DCL-model op pixelniveau. Een DCL-model op pixelniveau wordt gebruikt binnen de architectuur van VGG16, een diep convolutioneel neuraal netwerk. De eerste vier maximale poolinglagen zijn onderling verbonden met drie kernels. Klik hier om een grotere versie van deze figuur te bekijken.

Figure 3
Figuur 3: Encoding-decoding network model (DEDN). Diepe functies worden versmolten met ondiepe functies die zijn geïnspireerd op het randdetectiewerk, waardoor het encoder-decoder-netwerkmodel (DEDN) wordt voorgesteld. Klik hier om een grotere versie van deze figuur te bekijken.

Figure 4
Figuur 4: De GUI-interface. De code wordt uitgevoerd om een GUI-interface te genereren voor eenvoudige bediening. Klik hier om een grotere versie van deze figuur te bekijken.

Figure 5
Figuur 5: Demo van de GUI-interface. Presentatie van de GUI-interface voor eenvoudige vergelijking van testbeeldresultaten. Klik hier om een grotere versie van deze figuur te bekijken.

Figure 6
Figuur 6: De visualisatieresultaten van het ablatie-experiment. (A) De originele afbeelding, (B) het DCL-algoritme, (C) het DEDN-algoritme, (D) het algoritme dat in het huidige onderzoek is gebruikt, en (E) het bijbehorende grondwaarheidsbeeld worden van links naar rechts weergegeven. Zoals te zien is in figuur 6, (B) kan het DCL-algoritme alleen de doelgrens beschrijven bij het detecteren van afbeeldingen, en is de achtergrond moeilijk te filteren. (C) Het DEDN-algoritme heeft tot gevolg dat de doelgrens wordt versterkt, maar het is even moeilijk om de achtergrondredundantie-informatie te onderdrukken; terwijl (D) het algoritme in dit artikel deze twee algoritmen op een complementaire manier combineert, waarbij het doel wordt benadrukt en de redundantie-informatie van de complexe achtergrond wordt onderdrukt. Klik hier om een grotere versie van deze figuur te bekijken.

Figure 7
Figuur 7: P-R-curve. (A) P-R-curven bevinden zich respectievelijk in SOD-databases en (B) P-R-curven bevinden zich in ECSSD-databases. De PR-curven van het algoritme van deze studie in zowel (A) als (B) zijn hoger dan die van de andere 10 algoritmen, wat bewijst dat het algoritme in dit artikel een hoge nauwkeurigheid heeft ten opzichte van deze 10 algoritmen. Klik hier om een grotere versie van deze figuur te bekijken.

Figure 8
Figuur 8: Kwalitatieve vergelijking. Kwalitatieve vergelijking van verschillende algoritmen voor de detectie van opvallende objecten in respectievelijk de SOD-databanken (A) en de ECSSD-databanken (B). De originele invoerafbeeldingen worden van links naar rechts gepresenteerd, GMR, GS, SF, PD, SS, DRFI, MDF, ELD, DHS en DCL, het algoritme dat in deze studie wordt voorgesteld en de Ground-truth map. Zoals te zien is in (A), biedt het geschetste algoritme een aanzienlijke verbetering in de detectie van opvallende objecten in complexe omgevingen, waarbij het de prestaties van andere bestaande algoritmen overtreft. Zoals te zien is in (B), heeft het algoritme dat in deze studie wordt voorgesteld een hogere robuustheid in vergelijking met andere methoden omdat het de valse detectie van opvallende (of achtergrond) gebieden vermindert. Klik hier om een grotere versie van deze figuur te bekijken.

Nee. Module-instelling Fβ EMAE
NR.1 Alleen DCL verwijderen 0.835 0.117
NR.2 Alleen DEDN verwijderen 0.832 0.126
NR.3 Volledige module 0.854 0.110

Tabel 1: Resultaten van ablatie-experimenten.

Model GRASZODE ECSSD
Fβ EMAE Fβ EMAE
GMR 0.740 0.148 0.476 0.189
GS 0.677 0.188 0.355 0.344
SF 0.779 0.150 0.309 0.230
PD 0.720 0.162 0.358 0.248
ß 0.574 0.225 0.268 0.344
DRFI 0.801 0.127 0.516 0.166
MDF 0.709 0.150 0.832 0.105
OUDERDOM 0.737 0.154 0.869 0.078
DHS (DHS) 0.812 0.127 0.907 0.059
DCL 0.786 0.131 0.901 0.068
Deze studie 0.854 0.110 0.938 0.044

Tabel 2: De maximale F-meetwaarden (Fβ) en MAE-waarden (Mean Absolute Error) van verschillende algoritmen in twee afbeeldingsdatasets.

Subscription Required. Please recommend JoVE to your librarian.

Discussion

Het artikel introduceert een end-to-end diep neuraal netwerk dat speciaal is ontworpen voor de detectie van opvallende objecten in complexe omgevingen. Het netwerk bestaat uit twee onderling verbonden componenten: een multiscale volledig convolutioneel netwerk op pixelniveau (DCL) en een deep encoder-decoder network (DEDN). Deze componenten werken synergetisch en bevatten contextuele semantiek om visuele contrasten te genereren binnen multiscale feature maps. Bovendien maken ze gebruik van zowel diepe als ondiepe beeldkenmerken om de precisie van de afbakening van objectgrenzen te verbeteren. De integratie van een volledig verbonden Conditional Random Field (CRF)-model verbetert de ruimtelijke samenhang van saliency maps en contourafbakening verder.

Om dit doel te bereiken werden twee deep networks, namelijk het Deep Context Learning (DCL) netwerk en het Deep Encoder-Decoder Network (DEDN), gebouwd op basis van de VGG16 architectuur. Zoals uitgelegd in operationele stap 1.2, zijn invoerbeelden die via de DCL-opbrengst worden verwerkt, voorzien van kaarten van verschillende schalen, gekenmerkt door verschillende receptieve velden. Deze kaarten worden vervolgens gecombineerd met contextuele semantiek, waardoor uiteindelijk saillantiekaarten worden gegenereerd met dimensies W × H, die interdimensionale coherentie bezitten. In het bijzonder maakt de DCL11 gebruik van een paar convolutionele lagen, elk uitgerust met een 7 x 7 kernel, om de laatste poolinglaag van het originele VGG16-netwerk te vervangen. Deze wijziging is cruciaal voor het behoud van ruimtelijke informatie binnen de functiekaarten. In samenwerking met contextuele semantiek resulteert dit in saliency maps met interdimensionale coherentie.

Tegelijkertijd maakt het Deep Encoder-Decoder Network (DEDN)14 gebruik van 3 x 3 kernel convolutionele lagen in zijn decodersectie, gevolgd door een enkele convolutionele laag na de laatste decoderingsmodule. Deze integratie van diepe en ondiepe kenmerken door de DEDN vergemakkelijkt het genereren van opvallende kaarten met ruimtelijke dimensies W × H, waarmee uitdagingen worden aangepakt die verband houden met onduidelijke objectgrenzen. Het onderzoek dat in dit artikel wordt gepresenteerd, introduceert een baanbrekende techniek voor het detecteren van opvallende objecten, zoals uitgelegd in operationele stap 1.3. Het voegt de DCL- en DEDN-modellen samen tot een uniform netwerkraamwerk door middel van een trainingsproces dat de gewichten van deze twee diepe netwerken leert en vervolgens de verworven saliency maps samenvoegt. Verdere verfijning wordt bereikt door Conditional Random Fields (CRF) op een volledig verbonden manier toe te passen. Het primaire doel van deze verfijning is het verbeteren van de ruimtelijke consistentie en contourlokalisatie.

Beide netwerken zijn verbeterd met behulp van de VGG16-architectuur als hun neurale netwerkruggengraat, die uiteindelijk samensmelten via Conditional Random Fields (CRF). Hoewel het voorgestelde algoritme een aanzienlijk potentieel heeft op het gebied van doeldetectie in ingewikkelde omgevingen, zullen toekomstige onderzoeksinitiatieven gericht zijn op het verbeteren van de rekenefficiëntie. Het doel is om een superieure verwerkingssnelheid te bereiken zonder afbreuk te doen aan de detectieprestaties.

Het voorgestelde algoritme wordt uitgebreid geëvalueerd aan de hand van 10 hedendaagse algoritmen op de SOD20 - en ECSSD21-databases . De evaluatieresultaten geven aan dat het voorgestelde algoritme beter presteert dan andere benaderingen in termen van precisie en nauwkeurigheid, en de doeltreffendheid ervan bij de detectie van opvallende objecten in complexe omgevingen aantoont. Bovendien is het algoritme veelbelovend voor overdraagbaarheid naar visuele taken op het gebied van elektrische energiesystemen. Het biedt een aanzienlijk potentieel voor toepassingen zoals de segmentatie van isolatoren en vroege detectie van brandgevaar in complexe omgevingen binnen intelligente elektriciteitsnetten.

Subscription Required. Please recommend JoVE to your librarian.

Disclosures

De auteurs hebben niets te onthullen.

Acknowledgments

Dit werk wordt ondersteund door 2024 Henan Provincial Higher Education Institutions Key Scientific Research Project Funding Program Establishment (Projectnummer: 24A520053). Deze studie wordt ook ondersteund door Specialized Creation and Integration Characteristics Demonstration Course Construction in de provincie Henan.

Materials

Name Company Catalog Number Comments
Matlab MathWorks Matlab R2016a MATLAB's programming interface provides development tools for improving code quality maintainability and maximizing performance.
It provides tools for building applications using custom graphical interfaces.
It provides tools for combining MATLAB-based algorithms with external applications and languages
Processor  Intel 11th Gen Intel(R) Core (TM) i5-1135G7 @ 2.40GHz 64-bit Win11 processor 
Pycharm JetBrains PyCharm 3.0 PyCharm is a Python IDE (Integrated Development Environment)
a list of required python:
modulesmatplotlib
skimage
torch
os
time
pydensecrf
opencv
glob
PIL
torchvision
numpy
tkinter
PyTorch  Facebook PyTorch 1.4  PyTorch is an open source Python machine learning library , based on Torch , used for natural language processing and other applications.PyTorch can be viewed both as the addition of GPU support numpy , but also can be viewed as a powerful deep neural network with automatic derivatives .

DOWNLOAD MATERIALS LIST

References

  1. Wang, W. G., Shen, J. B., Ling, H. B. A deep network solution for attention and aesthetics aware photo cropping. IEEE Transactions on Pattern Analysis and Machine Intelligence. 41 (7), 1531-1544 (2018).
  2. Wang, W. G., Sun, G. L., Gool, L. V. Looking beyond single images for weakly supervised semantic segmentation learning. IEEE Transactions on Pattern Analysis and Machine. , (2022).
  3. Mei, H. L., et al. Exploring dense context for salient object detection. IEEE Transactions on Circuits and Systems for Video Technology. 32 (3), 1378-1389 (2021).
  4. Borji, A., Itti, L. State-of-the-art in visual attention modeling. IEEE Transactions on Pattern Analysis and Machine Intelligence. 35 (1), 185-207 (2012).
  5. Fully convolutional networks for semantic segmentation. Long, J., Shelhamer, E., Darrell, T. Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, , 3431-3440 (2015).
  6. Simonyan, K., Zisserman, A. Very deep convolutional networks for large-scale image recognition. arXiv preprint. , 1409-1556 (2014).
  7. Deep residual learning for image recognition. He, K., Zhang, X., Ren, S., Sun, J. Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, , 770-778 (2016).
  8. Dhsnet: Deep hierarchical saliency network for salient object detection. Liu, N., Han, J. Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, , 678-686 (2016).
  9. A bi-directional message passing model for salient object detection. Zhang, L., Dai, J., Lu, H., He, Y., Wang, G. Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, , 1741-1750 (2018).
  10. Wu, R., et al. A mutual learning method for salient object detection with intertwined multi-supervision. Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, , 8150-8159 (2019).
  11. Deep contrast learning for salient object detection. Li, G., Yu, Y. Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, , 478-487 (2019).
  12. Ren, Q., Hu, R. Multi-scale deep encoder-decoder network for salient object detection. Neurocomputing. 316, 95-104 (2018).
  13. Wang, W. G., et al. Salient object detection in the deep learning era: An in-depth survey. IEEE Transactions on Pattern Analysis and Machine Intelligence. 44 (6), 3239-3259 (2021).
  14. Zhou, T., et al. RGB-D salient object detection: A survey. Computational Visual Media. 7, 37-69 (2021).
  15. Fu, K., et al. Siamese network for RGB-D salient object detection and beyond. IEEE Transactions on Pattern Analysis and Machine Intelligence. 44 (9), 5541-5559 (2021).
  16. Lai, Q., et al. Weakly supervised visual saliency prediction. IEEE Transactions on Image Processing. 31, 3111-3124 (2022).
  17. A bi-directional message passing model for salient object detection. Zhang, L., Dai, J., Lu, H., He, Y., Wang, G. Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, , 1741-1750 (2018).
  18. A mutual learning method for salient object detection with intertwined multi-supervision. Wu, R. Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, , 8150-8159 (2019).
  19. Wang, W., Shen, J., Dong, X., Borji, A., Yang, R. Inferring salient objects from human fixations. IEEE Transactions on Pattern Analysis and Machine Intelligence. 42 (8), 1913-1927 (2019).
  20. Design and perceptual validation of performance measures for salient object segmentation. Movahedi, V., Elder, J. H. 2010 IEEE Computer Society Conference on Computer Vision and Pattern Recognition-Workshops, , 49-56 (2010).
  21. Shi, J., Yan, Q., Xu, L., Jia, J. Hierarchical image saliency detection on extended CSSD. IEEE Transactions on Pattern Analysis and Machine Intelligence. 38 (4), 717-729 (2015).
  22. Frequency-tuned salient region detection. Achanta, R., Hemami, S., Estrada, F., Susstrunk, S. 2009 IEEE Conference on Computer Vision and Pattern Recognition, , 1597-1604 (2009).
  23. Saliency detection via graph-based manifold ranking. Yang, C., Zhang, L., Lu, H., Ruan, X., Yang, M. H. Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, , 3166-3173 (2013).
  24. Wei, Y., et al. Geodesic saliency using background priors. Computer Vision-ECCV 2012. , Springer. Berlin Heidelberg. 29-42 (2012).
  25. What makes a patch distinct. Margolin, R., Tal, A., Zelnik-Manor, L. Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, , 1139-1146 (2013).
  26. Saliency filters: Contrast based filtering for salient region detection. Perazzi, F., Krähenbühl, P., Pritch, Y., Hornung, A. 2012 IEEE Conference on Computer Vision and Pattern Recognition, , 733-740 (2012).
  27. Hou, X., Harel, J., Koch, C. Image signature: Highlighting sparse salient regions. IEEE Transactions on Pattern Analysis and Machine Intelligence. 34 (1), 194-201 (2011).
  28. Salient object detection: A discriminative regional feature integration approach. Jiang, H., et al. Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, , 2083-2090 (2013).
  29. Visual saliency based on multiscale deep features. Li, G., Yu, Y. Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, , 5455-5463 (2015).
  30. Deep saliency with encoded low level distance map and high-level features. Lee, G., Tai, Y. W., Kim, J. Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, , 660-668 (2016).
  31. Dhsnet: Deep hierarchical saliency network for salient object detection. Liu, N., Han, J. Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, , 678-686 (2016).

Tags

Engineering complexe omgevingen end-to-end diepe neurale netwerken detectie van opvallende objecten
End-to-end diep neuraal netwerk voor detectie van opvallende objecten in complexe omgevingen
Play Video
PDF DOI DOWNLOAD MATERIALS LIST

Cite this Article

Wang, Y., Wang, Z. End-To-End DeepMore

Wang, Y., Wang, Z. End-To-End Deep Neural Network for Salient Object Detection in Complex Environments. J. Vis. Exp. (202), e65554, doi:10.3791/65554 (2023).

Less
Copy Citation Download Citation Reprints and Permissions
View Video

Get cutting-edge science videos from JoVE sent straight to your inbox every month.

Waiting X
Simple Hit Counter