Summary

Réseau neuronal profond de bout en bout pour la détection d’objets saillants dans des environnements complexes

Published: December 15, 2023
doi:

Summary

Le présent protocole décrit un nouvel algorithme de détection d’objets saillants de bout en bout. Il exploite les réseaux neuronaux profonds pour améliorer la précision de la détection d’objets saillants dans des contextes environnementaux complexes.

Abstract

La détection d’objets saillants est devenue un domaine d’intérêt en plein essor dans le domaine de la vision par ordinateur. Cependant, les algorithmes dominants présentent une précision réduite lorsqu’ils sont chargés de détecter des objets saillants dans des environnements complexes et à multiples facettes. À la lumière de cette préoccupation urgente, cet article présente un réseau neuronal profond de bout en bout qui vise à détecter des objets saillants dans des environnements complexes. L’étude présente un réseau neuronal profond de bout en bout qui vise à détecter des objets saillants dans des environnements complexes. Comprenant deux composants interdépendants, à savoir un réseau convolutif complet multi-échelle au niveau du pixel et un réseau encodeur-décodeur profond, le réseau proposé intègre une sémantique contextuelle pour produire un contraste visuel sur des cartes de caractéristiques multi-échelles tout en utilisant des caractéristiques d’image profondes et superficielles pour améliorer la précision de l’identification des limites d’objets. L’intégration d’un modèle de champ aléatoire conditionnel (CRF) entièrement connecté améliore encore la cohérence spatiale et la délimitation des contours des cartes saillantes. L’algorithme proposé est évalué de manière approfondie par rapport à 10 algorithmes contemporains sur les bases de données SOD et ECSSD. Les résultats de l’évaluation démontrent que l’algorithme proposé surpasse les autres approches en termes de précision et d’exactitude, établissant ainsi son efficacité dans la détection d’objets saillants dans des environnements complexes.

Introduction

La détection d’objets saillants imite l’attention visuelle humaine, identifiant rapidement les régions clés de l’image tout en supprimant les informations d’arrière-plan. Cette technique est largement utilisée comme outil de prétraitement dans des tâches telles que le recadrage d’image1, la segmentation sémantique2 et l’édition d’image3. Il rationalise les tâches telles que le remplacement de l’arrière-plan et l’extraction du premier plan, améliorant ainsi l’efficacité et la précision de l’édition. De plus, il facilite la segmentation sémantique en améliorant la localisation des cibles. Le potentiel de la détection d’objets saillants pour améliorer l’efficacité du calcul et conserver la mémoire souligne ses importantes perspectives de recherche et d’application.

Au fil des ans, la détection d’objets saillants a évolué, passant des algorithmes traditionnels initiaux à l’intégration d’algorithmes d’apprentissage profond. L’objectif de ces avancées a été de réduire l’écart entre la détection d’objets saillants et les mécanismes visuels humains. Cela a conduit à l’adoption de modèles de réseaux convolutifs profonds pour l’étude de la détection d’objets saillants. Borji et al.4 ont résumé et généralisé la plupart des algorithmes traditionnels classiques, qui reposent sur les caractéristiques sous-jacentes de l’image. Malgré une certaine amélioration de la précision de la détection, l’expérience manuelle et la cognition continuent de poser des défis pour la détection d’objets saillants dans des environnements complexes.

L’utilisation des réseaux neuronaux convolutifs (CNN) est répandue dans le domaine de la détection d’objets saillants. Dans ce contexte, les réseaux neuronaux convolutifs profonds sont utilisés pour les mises à jour du poids grâce à l’apprentissage autonome. Des réseaux neuronaux convolutifs ont été utilisés pour extraire la sémantique contextuelle des images grâce à l’utilisation de couches convolutives et de pooling en cascade, permettant l’apprentissage de caractéristiques d’images complexes à des niveaux supérieurs, qui ont une plus grande capacité de discrimination et de caractérisation pour la détection d’objets saillants dans différents environnements.

En 2016, les réseaux neuronaux entièrement convolutifs5 ont gagné en popularité en tant qu’approche populaire pour la détection d’objets saillants, sur la base de laquelle les chercheurs ont commencé la détection d’objets saillants au niveau du pixel. De nombreux modèles sont généralement construits sur des réseaux existants (par exemple, VGG166, ResNet7), visant à améliorer la représentation de l’image et à renforcer l’effet de la détection des bords.

Liu et al.8 ont utilisé un réseau neuronal déjà entraîné comme cadre pour calculer l’image globalement, puis ont affiné la limite de l’objet à l’aide d’un réseau hiérarchique. La combinaison des deux réseaux forme le réseau final de saillance profonde. Cela a été accompli en introduisant la carte saillante précédemment acquise dans le réseau en tant que connaissance préalable de manière répétitive. Zhang et al.9 ont fusionné efficacement les informations sémantiques et spatiales d’images à l’aide de réseaux profonds avec un transfert d’informations bidirectionnel de couches superficielles à profondes et profondes à superficielles, respectivement. La détection d’objets saillants à l’aide d’un modèle d’apprentissage mutuel en profondeur a été proposée par Wu et al.10. Le modèle utilise des informations de premier plan et de périphérie dans un réseau neuronal convolutif pour faciliter le processus de détection. Li et al.11 ont utilisé l’algorithme des trous des réseaux neuronaux pour relever le défi de la fixation des champs réceptifs de diverses couches dans les réseaux neuronaux profonds dans le contexte de la détection d’objets saillants. Cependant, la segmentation super-pixel est utilisée pour l’acquisition des bords des objets, ce qui augmente considérablement l’effort de calcul et le temps de calcul. Ren et al.12 ont conçu un réseau encodeur-décodeur multi-échelle pour détecter les objets saillants et ont utilisé des réseaux neuronaux convolutifs pour combiner efficacement des caractéristiques profondes et superficielles. Bien que le défi du brouillage des frontières dans la détection d’objets soit résolu par cette approche, la fusion multi-échelle des informations entraîne inévitablement des exigences de calcul accrues.

La revue de la littérature13 propose que la détection de saillance, des méthodes traditionnelles aux méthodes d’apprentissage profond, soit résumée, et que l’évolution de la détection de cibles de saillance depuis ses origines jusqu’à l’ère de l’apprentissage profond soit très clairement visible. Divers modèles de détection d’objets saillants basés sur RVB-D avec de bonnes performances ont été proposés dans la littérature14. La littérature ci-dessus passe en revue et classe les différents types d’algorithmes de détection d’objets saillants et décrit leurs scénarios d’application, les bases de données utilisées et les mesures d’évaluation. Cet article fournit également une analyse qualitative et quantitative des algorithmes proposés concernant leurs bases de données suggérées et leurs métriques d’évaluation.

Tous les algorithmes ci-dessus ont obtenu des résultats remarquables dans des bases de données publiques, fournissant une base pour la détection d’objets saillants dans des environnements complexes. Bien qu’il y ait eu de nombreuses réalisations de recherche dans ce domaine, tant au pays qu’à l’étranger, il reste encore quelques problèmes à régler. (1) Les algorithmes traditionnels d’apprentissage non profond ont tendance à avoir une faible précision en raison de leur dépendance à des caractéristiques étiquetées manuellement telles que la couleur, la texture et la fréquence, qui peuvent être facilement affectées par l’expérience subjective et la perception. Par conséquent, la précision de leurs capacités de détection d’objets saillants est diminuée. La détection d’objets saillants dans des environnements complexes à l’aide d’algorithmes traditionnels non deep learning est difficile en raison de leur difficulté à gérer des scénarios complexes. (2) Les méthodes conventionnelles de détection d’objets saillants présentent une précision limitée en raison de leur dépendance à des caractéristiques étiquetées manuellement telles que la couleur, la texture et la fréquence. De plus, la détection au niveau de la région peut être coûteuse en calcul, ignorant souvent la cohérence spatiale, et a tendance à mal détecter les limites des objets. Ces problèmes doivent être résolus pour améliorer la précision de la détection des objets saillants. (3) La détection d’objets saillants dans des environnements complexes représente un défi pour la plupart des algorithmes. La plupart des algorithmes de détection d’objets saillants sont confrontés à de sérieux défis en raison de l’environnement de détection d’objets saillants de plus en plus complexe avec des arrière-plans variables (couleurs d’arrière-plan et de premier plan similaires, textures d’arrière-plan complexes, etc.), de nombreuses incertitudes telles que des tailles d’objets de détection incohérentes et la définition peu claire des bords de premier plan et d’arrière-plan.

La plupart des algorithmes actuels présentent une faible précision dans la détection d’objets saillants dans des environnements complexes avec des couleurs d’arrière-plan et de premier plan similaires, des textures d’arrière-plan complexes et des bords flous. Bien que les algorithmes actuels d’objets saillants basés sur l’apprentissage profond démontrent une plus grande précision que les méthodes de détection traditionnelles, les caractéristiques d’image sous-jacentes qu’ils utilisent ne parviennent toujours pas à caractériser efficacement les caractéristiques sémantiques, ce qui laisse place à l’amélioration de leurs performances.

En résumé, cette étude propose un réseau neuronal profond de bout en bout pour un algorithme de détection d’objets saillants, visant à améliorer la précision de la détection d’objets saillants dans des environnements complexes, à améliorer les bords cibles et à mieux caractériser les caractéristiques sémantiques. Les contributions de cet article sont les suivantes : (1) Le premier réseau utilise VGG16 comme réseau de base et modifie ses cinq couches de mise en commun à l’aide de l’algorithme des trous11. Le réseau neuronal entièrement convolutif multi-échelle au niveau du pixel apprend les caractéristiques de l’image à différentes échelles spatiales, relevant le défi des champs récepteurs statiques à travers différentes couches de réseaux neuronaux profonds et améliorant la précision de détection dans des zones importantes du domaine. (2) Les efforts récents pour améliorer la précision de la détection d’objets saillants se sont concentrés sur l’exploitation de réseaux neuronaux plus profonds, tels que VGG16, pour extraire à la fois les caractéristiques de profondeur du réseau d’encodeur et les caractéristiques superficielles du réseau de décodeur. Cette approche améliore efficacement la précision de détection des limites d’objets et améliore les informations sémantiques, en particulier dans les environnements complexes avec des arrière-plans variables, des tailles d’objets incohérentes et des frontières indistinctes entre le premier plan et l’arrière-plan. (3) Des efforts récents pour améliorer la précision de la détection d’objets saillants ont mis l’accent sur l’utilisation de réseaux plus profonds, y compris VGG16, pour extraire des caractéristiques profondes du réseau de codeur et des caractéristiques peu profondes du réseau de décodeur. Cette approche a démontré une meilleure détection des limites d’objets et une plus grande information sémantique, en particulier dans des environnements complexes avec des arrière-plans, des tailles d’objets et des frontières indistinctes entre le premier plan et l’arrière-plan. De plus, l’intégration d’un modèle de champ aléatoire conditionnel (CRF) entièrement connecté a été mise en œuvre pour augmenter la cohérence spatiale et la précision des contours des cartes saillantes. L’efficacité de cette approche a été évaluée sur des ensembles de données SOD et ECSSD avec des antécédents complexes et s’est avérée statistiquement significative.

Travaux connexes
Fu et al.15 ont proposé une approche conjointe utilisant le RVB et l’apprentissage profond pour la détection d’objets saillants. Lai et al.16 ont introduit un modèle faiblement supervisé pour la détection d’objets saillants, apprenant la saillance à partir d’annotations, en utilisant principalement des étiquettes griffonnées pour gagner du temps d’annotation. Bien que ces algorithmes aient présenté une fusion de deux réseaux complémentaires pour la détection d’objets saillants, ils manquent d’une étude approfondie de la détection de saillance dans des scénarios complexes. Wang et al.17 ont conçu une fusion itérative en deux modes des caractéristiques du réseau neuronal, à la fois ascendant et descendant, optimisant progressivement les résultats de l’itération précédente jusqu’à la convergence. Zhang et al.18 ont fusionné efficacement les informations sémantiques et spatiales d’images à l’aide de réseaux profonds avec un transfert d’informations bidirectionnel de couches peu profondes à profondes et de couches profondes à superficielles, respectivement. La détection d’objets saillants à l’aide d’un modèle d’apprentissage mutuel en profondeur a été proposée par Wu et al.19. Le modèle utilise des informations de premier plan et de périphérie dans un réseau neuronal convolutif pour faciliter le processus de détection. Ces modèles de détection d’objets saillants basés sur des réseaux neuronaux profonds ont atteint des performances remarquables sur des ensembles de données accessibles au public, permettant la détection d’objets saillants dans des scènes naturelles complexes. Néanmoins, la conception de modèles encore plus supérieurs reste un objectif important dans ce domaine de recherche et constitue la principale motivation de cette étude.

Cadre général
La représentation schématique du modèle proposé, telle qu’illustrée à la figure 1, est principalement dérivée de l’architecture VGG16, incorporant à la fois un réseau neuronal entièrement convolutif (DCL) multi-échelle au niveau du pixel et un réseau encodeur-décodeur profond (DEDN). Le modèle élimine toutes les couches finales de VGG16 entièrement connectées tout en tenant compte des dimensions d’image d’entrée de L × H. Le mécanisme opérationnel implique le traitement initial de l’image d’entrée via le DCL, facilitant l’extraction des caractéristiques profondes, tandis que les caractéristiques superficielles sont obtenues à partir des réseaux DEDN. La fusion de ces caractéristiques est ensuite soumise à un modèle de champ aléatoire conditionnel (CRF) entièrement connecté, augmentant la cohérence spatiale et la précision des contours des cartes de saillance produites.

Pour vérifier l’efficacité du modèle, il a été testé et validé sur des ensembles de données SOD20 et ECSSD21 avec des antécédents complexes. Une fois que l’image d’entrée a traversé le DCL, différentes cartes de caractéristiques d’échelle avec divers champs réceptifs sont obtenues, et la sémantique contextuelle est combinée pour produire une carte saillante W × H avec une cohérence interdimensionnelle. Le DCL utilise une paire de couches convolutives avec 7 x 7 noyaux pour remplacer la couche de mise en commun finale du réseau VGG16 d’origine, améliorant ainsi la préservation des informations spatiales dans les cartes de caractéristiques. Ceci, combiné à la sémantique contextuelle, produit une carte saillante W × H avec une cohérence interdimensionnelle. De même, le réseau Deep Encoder-Decoder (DEDN) utilise des couches convolutives avec 3 x 3 noyaux dans les décodeurs et une seule couche convolutive après le dernier module de décodage. En tirant parti des caractéristiques profondes et superficielles de l’image, il est possible de générer une carte saillante avec une dimension spatiale de W × H, répondant au défi des limites d’objets indistinctes. L’étude décrit une technique pionnière pour la détection d’objets saillants qui fusionne les modèles DCL et DEDN en un réseau unifié. Les poids de ces deux réseaux profonds sont appris par un processus d’entraînement, et les cartes de saillance résultantes sont fusionnées puis affinées à l’aide d’un champ aléatoire conditionnel (CRF) entièrement connecté. L’objectif principal de ce raffinement est d’améliorer la cohérence spatiale et la localisation des contours.

Réseau neuronal entièrement convolutif multi-échelle au niveau du pixel
L’architecture VGG16 se composait à l’origine de cinq couches de pooling, chacune avec une foulée de 2. Chaque couche de regroupement compresse la taille de l’image pour augmenter le nombre de canaux, obtenant ainsi plus d’informations contextuelles. Le modèle DCL s’inspire de la littérature13 et constitue une amélioration du cadre des VGG16. Dans cet article, un modèle DCL11 au niveau du pixel est utilisé, comme le montre la figure 2 dans l’architecture de VGG16, un réseau de neurones convolutifs profonds. Les quatre couches de regroupement maximales initiales sont interconnectées avec trois noyaux. Le premier noyau est 3 × 3 × 128 ; le deuxième noyau est 1 × 1 × 128 ; et le troisième noyau est 1 × 1 × 1. Pour obtenir une taille uniforme des cartes de caractéristiques après les quatre couches de regroupement initiales, connectées à trois noyaux, chaque taille étant équivalente à un huitième de l’image d’origine, la taille de pas du premier noyau connecté à ces quatre plus grandes couches de regroupement est définie sur 4, 2, 1 et 1, respectivement.

Pour préserver le champ récepteur d’origine dans les différents noyaux, l’algorithme des trous proposé dans la littérature11 est utilisé pour étendre la taille du noyau en ajoutant des zéros, maintenant ainsi l’intégrité du noyau. Ces quatre cartes de caractéristiques sont connectées au premier noyau avec des tailles d’étape différentes. Par conséquent, les cartes d’entités produites à l’étape finale possèdent des dimensions identiques. Les quatre cartes de caractéristiques constituent un ensemble de caractéristiques multi-échelles obtenues à partir d’échelles distinctes, chacune représentant des tailles variables de champs réceptifs. Les cartes de caractéristiques obtenues à partir des quatre couches intermédiaires sont concaténées avec la carte de caractéristiques ultime dérivée de VGG16, générant ainsi une sortie à 5 canaux. La sortie qui en résulte est ensuite soumise à un noyau 1 × 1 × 1 avec la fonction d’activation sigmoïde, produisant finalement la carte saillante (avec une résolution d’un huitième de l’image originale). L’image est suréchantillonnée et agrandie à l’aide d’une interpolation bilinéaire, ce qui garantit que l’image résultante, appelée carte de saillance, conserve une résolution identique à l’image initiale.

Réseau encodeur-décodeur profond
De même, le réseau VGG16 est utilisé comme réseau principal. VGG16 se caractérise par un faible nombre de canaux de carte de caractéristiques peu profonds mais à haute résolution et un nombre élevé de canaux de caractéristiques profonds mais à faible résolution. Le regroupement des couches et le sous-échantillonnage augmentent la vitesse de calcul du réseau profond au prix d’une réduction de la résolution de sa carte de caractéristiques. Pour résoudre ce problème, suite à l’analyse de la littérature14, le réseau de codeurs est utilisé pour modifier la connectivité complète de la dernière couche de pooling dans le VGG16 d’origine. Cette modification consiste à le remplacer par deux couches convolutives à 7 × 7 noyaux (les noyaux convolutifs plus gros augmentent le champ réceptif). Les deux noyaux de convolution sont équipés d’une opération de normalisation (BN) et d’une unité linéaire modifiée (ReLU). Cet ajustement se traduit par une carte des caractéristiques de sortie de l’encodeur qui préserve mieux les informations de l’espace image.

Alors que l’encodeur améliore la sémantique d’image de haut niveau pour la localisation globale des objets saillants, le problème de flou des frontières de son objet saillant n’est pas efficacement amélioré. Pour résoudre ce problème, les caractéristiques profondes sont fusionnées avec des caractéristiques peu profondes, inspirées des travaux de détection des bords12, proposant le modèle de réseau encodeur-décodeur (DEDN) comme le montre la figure 3. L’architecture du codeur comprend trois noyaux interconnectés avec les quatre premiers, tandis que le décodeur améliore systématiquement la résolution de la carte des caractéristiques en utilisant les valeurs maximales récupérées à partir des couches de regroupement maximales.

Dans cette méthodologie innovante de détection d’objets saillants, pendant la phase de décodeur, une couche convolutive avec un noyau 3 × 3 est utilisée en combinaison avec une couche de normalisation par lots et une unité linéaire adaptée. À la fin du module de décodage final dans l’architecture du décodeur, une couche convolutive à canal unique est utilisée pour obtenir une carte saillante des dimensions spatiales W × H. La carte saillante est générée par une fusion collaborative du modèle encodeur-décodeur, donnant le résultat, et la fusion complémentaire des deux, c’est-à-dire la fusion complémentaire de l’information profonde et de l’information superficielle. Cela permet non seulement de localiser avec précision l’objet saillant et d’augmenter le champ réceptif, mais aussi de préserver efficacement les informations détaillées de l’image et de renforcer la limite de l’objet saillant.

Mécanisme d’intégration
L’architecture du codeur comprend trois noyaux, qui sont associés aux quatre couches de mise en commun maximales initiales du modèle VGG16. En revanche, le décodeur est intentionnellement formulé pour augmenter progressivement la résolution des cartes de caractéristiques acquises à partir des couches de suréchantillonnage en exploitant les valeurs maximales recueillies à partir des couches de regroupement correspondantes. Une couche convolutive utilisant un noyau 3 x 3, une couche de normalisation par lots et une unité linéaire modifiée sont ensuite utilisées dans le décodeur, suivies d’une couche convolutive à canal unique pour générer une carte saillante des dimensions W × H. Les poids des deux réseaux profonds sont appris par des cycles d’entraînement alternés. Les paramètres du premier réseau ont été maintenus fixes, tandis que les paramètres du second réseau ont été entraînés pendant un total de cinquante cycles. Au cours du processus, les poids de la carte de saillance (S1 et S2) utilisée pour la fusion sont mis à jour via un gradient aléatoire. La fonctionde perte 11 est :

Equation 1 (1)

Dans l’expression donnée, le symbole G représente la valeur étiquetée manuellement, tandis que W signifie l’ensemble complet des paramètres du réseau. Le poids βi sert de facteur d’équilibrage pour réguler la proportion de pixels saillants par rapport aux pixels non saillants dans le processus de calcul.

L’image I est caractérisée par trois paramètres : |Je|, |Je| et |Je|+, qui représentent respectivement le nombre total de pixels, le nombre de pixels non saillants et le nombre de pixels saillants. Equation 2

Étant donné que les cartes saillantes obtenues à partir des deux réseaux ci-dessus ne tiennent pas compte de la cohérence des pixels voisins, un modèle de raffinement de saillance au niveau des pixels entièrement connecté CRF15 est utilisé pour améliorer la cohérence spatiale. L’équation d’énergie11 est la suivante, résolvant le problème d’étiquetage des pixels binaires.

Equation 3 (2)

L désigne l’étiquette binaire (valeur saillante ou valeur non saillante) attribuée à tous les pixels. La variable P(li) indique la probabilité qu’un pixel xidonné se voie attribuer une étiquette spécifique li, indiquant la probabilité que le pixel xisoit saillante. Au début, P(1) = Siet P(0) = 1 – Si, où Sidésigne la valeur de saillance au pixel xidans la carte de saillance fusionnée Sθi,j(li,l j) est le potentiel par paires, défini comme suit.

Equation 4 (3)

Parmi eux, si lilj, alors μ(li,l j) = 1, sinon μ(li,l j) = 0. Le calcul de θi,j implique l’utilisation de deux noyaux, où le noyau initial dépend à la fois de la position du pixel P et de l’intensité du pixel I. Il en résulte que la proximité de pixels de couleurs similaires présente des valeurs de saillance comparables. Les deux paramètres, σα et σ β, régulent la mesure dans laquelle la similitude des couleurs et la proximité spatiale influencent le résultat. L’objectif du deuxième noyau est d’éliminer les petites régions isolées. La minimisation de l’énergie est obtenue grâce à un filtrage de grande dimension, qui accélère le champ moyen de la distribution de champ aléatoire conditionnel (CRF). Lors du calcul, la carte saillante désignée Scrf présente une cohérence spatiale et un contour améliorés en ce qui concerne les objets saillants détectés.

Configurations expérimentales
Dans cet article, un réseau profond pour la détection de cibles saillantes basé sur le réseau neuronal VGG16 est construit à l’aide de Python. Le modèle proposé est comparé à d’autres méthodes utilisant les ensembles de données SOD20 et ECSSD21 . La base de données d’images SOD est connue pour ses arrière-plans complexes et encombrés, la similitude des couleurs entre le premier plan et l’arrière-plan et la petite taille des objets. Chaque image de cet ensemble de données se voit attribuer une valeur réelle étiquetée manuellement pour l’évaluation quantitative et qualitative des performances. D’autre part, l’ensemble de données ECSSD se compose principalement d’images provenant d’Internet, présentant des scènes naturelles plus complexes et réalistes avec un faible contraste entre l’arrière-plan de l’image et les objets saillants.

Les indices d’évaluation utilisés pour comparer le modèle dans le présent document comprennent la courbe de précision-rappel couramment utilisée, Fβet EMAE. Pour évaluer quantitativement la carte de saillance prédite, la courbe de rappel de précision (P-R)22 est utilisée en modifiant le seuil de 0 à 255 pour binariser la carte de saillance. Fβest une métrique d’évaluation complète, calculée avec les équations de précision et de rappel dérivées de la carte des saillies binarisées et d’une carte des valeurs réelles.

Equation 5 (4)

β est le paramètre de poids pour ajuster la précision et le rappel, en réglant β2 = 0,3. Le calcul de EMAEéquivaut au calcul de l’erreur absolue moyenne entre l’application de saillance résultante et l’application de vérité terrain, telle que définie par l’expression mathématique qui en résulte :

Equation 6 (5)

Soit Ts(u,v) la valeur extraite des pixels saillants de l’application (u,v) et TG(u,v) la valeur correspondante des vrais pixels de l’application (u,v).

Protocol

1. Configuration et procédure expérimentales Chargez le modèle VGG16 pré-entraîné.REMARQUE : La première étape consiste à charger le modèle VGG16 pré-entraîné à partir de la bibliothèque Keras6.Pour charger un modèle VGG16 pré-entraîné en Python à l’aide de bibliothèques de Deep Learning populaires comme PyTorch (voir Table of Materials), procédez comme suit :Importer une torche. Importez <stro…

Representative Results

Cette étude présente un réseau de neurones profonds de bout en bout comprenant deux réseaux complémentaires : un réseau entièrement convolutif multi-échelle au niveau du pixel et un réseau d’encodeur-décodeur profond. Le premier réseau intègre une sémantique contextuelle pour dériver des contrastes visuels à partir de cartes de caractéristiques multi-échelles, répondant au défi des champs récepteurs fixes dans les réseaux neuronaux profonds à travers différentes couches. Le deuxième réseau util…

Discussion

L’article présente un réseau neuronal profond de bout en bout spécialement conçu pour la détection d’objets saillants dans des environnements complexes. Le réseau est composé de deux composants interconnectés : un réseau entièrement convolutif (DCL) multi-échelle au niveau du pixel et un réseau encodeur-décodeur profond (DEDN). Ces composants fonctionnent en synergie, incorporant une sémantique contextuelle pour générer des contrastes visuels dans des cartes de caractéristiques multi-échelles. De pl…

Divulgazioni

The authors have nothing to disclose.

Acknowledgements

Ce travail est soutenu par l’établissement du programme de financement des projets de recherche scientifique clés des établissements d’enseignement supérieur de la province du Henan de 2024 (numéro de projet : 24A520053). Cette étude est également soutenue par la création spécialisée et la construction de cours de démonstration caractéristiques d’intégration dans la province du Henan.

Materials

Matlab MathWorks Matlab R2016a MATLAB's programming interface provides development tools for improving code quality maintainability and maximizing performance.
It provides tools for building applications using custom graphical interfaces.
It provides tools for combining MATLAB-based algorithms with external applications and languages
Processor  Intel 11th Gen Intel(R) Core (TM) i5-1135G7 @ 2.40GHz 64-bit Win11 processor 
Pycharm JetBrains PyCharm 3.0 PyCharm is a Python IDE (Integrated Development Environment)
a list of required python:
modulesmatplotlib
skimage
torch
os
time
pydensecrf
opencv
glob
PIL
torchvision
numpy
tkinter
PyTorch  Facebook PyTorch 1.4  PyTorch is an open source Python machine learning library , based on Torch , used for natural language processing and other applications.PyTorch can be viewed both as the addition of GPU support numpy , but also can be viewed as a powerful deep neural network with automatic derivatives .

Riferimenti

  1. Wang, W. G., Shen, J. B., Ling, H. B. A deep network solution for attention and aesthetics aware photo cropping. IEEE Transactions on Pattern Analysis and Machine Intelligence. 41 (7), 1531-1544 (2018).
  2. Wang, W. G., Sun, G. L., Gool, L. V. Looking beyond single images for weakly supervised semantic segmentation learning. IEEE Transactions on Pattern Analysis and Machine. , (2022).
  3. Mei, H. L., et al. Exploring dense context for salient object detection. IEEE Transactions on Circuits and Systems for Video Technology. 32 (3), 1378-1389 (2021).
  4. Borji, A., Itti, L. State-of-the-art in visual attention modeling. IEEE Transactions on Pattern Analysis and Machine Intelligence. 35 (1), 185-207 (2012).
  5. Long, J., Shelhamer, E., Darrell, T. Fully convolutional networks for semantic segmentation. , 3431-3440 (2015).
  6. Simonyan, K., Zisserman, A. Very deep convolutional networks for large-scale image recognition. arXiv preprint. , 1409-1556 (2014).
  7. He, K., Zhang, X., Ren, S., Sun, J. Deep residual learning for image recognition. , 770-778 (2016).
  8. Liu, N., Han, J. Dhsnet: Deep hierarchical saliency network for salient object detection. , 678-686 (2016).
  9. Zhang, L., Dai, J., Lu, H., He, Y., Wang, G. A bi-directional message passing model for salient object detection. , 1741-1750 (2018).
  10. Wu, R., et al. A mutual learning method for salient object detection with intertwined multi-supervision. , 8150-8159 (2019).
  11. Li, G., Yu, Y. Deep contrast learning for salient object detection. , 478-487 (2019).
  12. Ren, Q., Hu, R. Multi-scale deep encoder-decoder network for salient object detection. Neurocomputing. 316, 95-104 (2018).
  13. Wang, W. G., et al. Salient object detection in the deep learning era: An in-depth survey. IEEE Transactions on Pattern Analysis and Machine Intelligence. 44 (6), 3239-3259 (2021).
  14. Zhou, T., et al. RGB-D salient object detection: A survey. Computational Visual Media. 7, 37-69 (2021).
  15. Fu, K., et al. Siamese network for RGB-D salient object detection and beyond. IEEE Transactions on Pattern Analysis and Machine Intelligence. 44 (9), 5541-5559 (2021).
  16. Lai, Q., et al. Weakly supervised visual saliency prediction. IEEE Transactions on Image Processing. 31, 3111-3124 (2022).
  17. Zhang, L., Dai, J., Lu, H., He, Y., Wang, G. A bi-directional message passing model for salient object detection. , 1741-1750 (2018).
  18. Wu, R. A mutual learning method for salient object detection with intertwined multi-supervision. , 8150-8159 (2019).
  19. Wang, W., Shen, J., Dong, X., Borji, A., Yang, R. Inferring salient objects from human fixations. IEEE Transactions on Pattern Analysis and Machine Intelligence. 42 (8), 1913-1927 (2019).
  20. Movahedi, V., Elder, J. H. Design and perceptual validation of performance measures for salient object segmentation. , 49-56 (2010).
  21. Shi, J., Yan, Q., Xu, L., Jia, J. Hierarchical image saliency detection on extended CSSD. IEEE Transactions on Pattern Analysis and Machine Intelligence. 38 (4), 717-729 (2015).
  22. Achanta, R., Hemami, S., Estrada, F., Susstrunk, S. Frequency-tuned salient region detection. , 1597-1604 (2009).
  23. Yang, C., Zhang, L., Lu, H., Ruan, X., Yang, M. H. Saliency detection via graph-based manifold ranking. , 3166-3173 (2013).
  24. Wei, Y., et al. Geodesic saliency using background priors. Computer Vision-ECCV 2012. , 29-42 (2012).
  25. Margolin, R., Tal, A., Zelnik-Manor, L. What makes a patch distinct. , 1139-1146 (2013).
  26. Perazzi, F., Krähenbühl, P., Pritch, Y., Hornung, A. Saliency filters: Contrast based filtering for salient region detection. , 733-740 (2012).
  27. Hou, X., Harel, J., Koch, C. Image signature: Highlighting sparse salient regions. IEEE Transactions on Pattern Analysis and Machine Intelligence. 34 (1), 194-201 (2011).
  28. Jiang, H., et al. Salient object detection: A discriminative regional feature integration approach. , 2083-2090 (2013).
  29. Li, G., Yu, Y. Visual saliency based on multiscale deep features. , 5455-5463 (2015).
  30. Lee, G., Tai, Y. W., Kim, J. Deep saliency with encoded low level distance map and high-level features. , 660-668 (2016).
  31. Liu, N., Han, J. Dhsnet: Deep hierarchical saliency network for salient object detection. , 678-686 (2016).

Play Video

Citazione di questo articolo
Wang, Y., Wang, Z. End-To-End Deep Neural Network for Salient Object Detection in Complex Environments. J. Vis. Exp. (202), e65554, doi:10.3791/65554 (2023).

View Video