End-To-End Deep Neural Network for Salient Object Detection in Complex Environments

Yu Wang; Zhiteng Wang

doi:10.3791/65554

JoVE Journal > Engineering

Please note that all translations are automatically generated. Click here for the English version.

工学

Red neuronal profunda de extremo a extremo para la detección de objetos destacados en entornos complejos

Published: December 15, 2023

doi:

10.3791/65554

Yu Wang, Zhiteng Wang

¹Zhengzhou University of Economics and Business, ²The 713 Research Institute of CSSC

概要

El presente protocolo describe un novedoso algoritmo de detección de objetos destacados de extremo a extremo. Aprovecha las redes neuronales profundas para mejorar la precisión de la detección de objetos destacados dentro de contextos ambientales intrincados.

Abstract

La detección de objetos destacados se ha convertido en un área de interés creciente dentro del ámbito de la visión por computadora. Sin embargo, los algoritmos predominantes exhiben una precisión disminuida cuando se les asigna la tarea de detectar objetos destacados dentro de entornos intrincados y multifacéticos. A la luz de esta preocupación apremiante, este artículo presenta una red neuronal profunda de extremo a extremo que tiene como objetivo detectar objetos destacados dentro de entornos complejos. El estudio presenta una red neuronal profunda de extremo a extremo que tiene como objetivo detectar objetos destacados dentro de entornos complejos. Compuesta por dos componentes interrelacionados, a saber, una red convolucional completa multiescala a nivel de píxel y una red profunda de codificador-decodificador, la red propuesta integra la semántica contextual para producir contraste visual a través de mapas de características multiescala, al tiempo que emplea características de imagen profundas y superficiales para mejorar la precisión de la identificación de los límites de los objetos. La integración de un modelo de campo aleatorio condicional (CRF) totalmente conectado mejora aún más la coherencia espacial y la delineación de contornos de los mapas destacados. El algoritmo propuesto se evalúa exhaustivamente en comparación con 10 algoritmos contemporáneos en las bases de datos SOD y ECSSD. Los resultados de la evaluación demuestran que el algoritmo propuesto supera a otros enfoques en términos de precisión y exactitud, estableciendo así su eficacia en la detección de objetos destacados en entornos complejos.

Introduction

La detección de objetos salientes imita la atención visual humana, identificando rápidamente regiones clave de la imagen y suprimiendo la información de fondo. Esta técnica se emplea ampliamente como herramienta de preprocesamiento en tareas como el recorte de imágenes¹, la segmentación semántica² y la edición de imágenes³. Agiliza tareas como el reemplazo de fondos y la extracción de primer plano, mejorando la eficiencia y precisión de la edición. Además, ayuda en la segmentación semántica al mejorar la localización de objetivos. El potencial de la detección de objetos destacados para mejorar la eficiencia computacional y conservar la memoria subraya sus importantes perspectivas de investigación y aplicación.

A lo largo de los años, la detección de objetos destacados ha evolucionado desde los algoritmos tradicionales iniciales hasta la incorporación de algoritmos de aprendizaje profundo. El objetivo de estos avances ha sido reducir la brecha entre la detección de objetos destacados y los mecanismos visuales humanos. Esto ha llevado a la adopción de modelos de redes convolucionales profundas para el estudio de la detección de objetos destacados. Borji et ^al.4 resumieron y generalizaron la mayoría de los algoritmos tradicionales clásicos, que se basan en las características subyacentes de la imagen. A pesar de algunas mejoras en la precisión de la detección, la experiencia manual y la cognición siguen planteando desafíos para la detección de objetos destacados en entornos complejos.

El uso de redes neuronales convolucionales (CNN) es frecuente en el dominio de la detección de objetos destacados. En este contexto, las redes neuronales convolucionales profundas se utilizan para actualizar el peso a través del aprendizaje autónomo. Las redes neuronales convolucionales se han empleado para extraer la semántica contextual de las imágenes mediante el uso de capas convolucionales y de agrupación en cascada, lo que permite el aprendizaje de características complejas de la imagen en niveles superiores, que tienen una mayor capacidad de discriminación y caracterización para la detección de objetos destacados en diferentes entornos.

En 2016, las redes neuronales totalmente convolucionales⁵ ganaron una tracción significativa como un enfoque popular para la detección de objetos destacados, en base al cual los investigadores comenzaron la detección de objetos salientes a nivel de píxel. Muchos modelos suelen construirse en redes existentes (por ejemplo, VGG16⁶, ResNet⁷), con el objetivo de mejorar la representación de la imagen y reforzar el efecto de la detección de bordes.

Liu et ^al.8 utilizaron una red neuronal ya entrenada como marco para calcular la imagen globalmente y luego refinaron el límite del objeto utilizando una red jerárquica. La combinación de las dos redes forma la red final de prominencia profunda. Esto se logró introduciendo en la red el mapa saliente previamente adquirido como conocimiento previo de manera repetitiva. Zhang et ^al.9 fusionaron eficazmente la información semántica y espacial de las imágenes utilizando redes profundas con transferencia bidireccional de información superficial a profunda y de capas profundas a superficiales, respectivamente. La detección de objetos salientes utilizando un modelo profundo de aprendizaje mutuo fue propuesta por Wu et ^al.10. El modelo utiliza información de primer plano y de borde dentro de una red neuronal convolucional para facilitar el proceso de detección. Li et ^al.11 emplearon el “algoritmo de agujero” de las redes neuronales para abordar el desafío de fijar los campos receptivos de diversas capas en redes neuronales profundas en el contexto de la detección de objetos destacados. Sin embargo, la segmentación de superpíxeles se utiliza para la adquisición del borde del objeto, lo que aumenta en gran medida el esfuerzo computacional y el tiempo de cálculo. Ren et ^al.12 idearon una red codificador-decodificador multiescala para detectar objetos destacados y utilizaron redes neuronales convolucionales para combinar eficazmente características profundas y superficiales. Aunque el desafío de la difuminación de límites en la detección de objetos se resuelve a través de este enfoque, la fusión multiescala de información inevitablemente da como resultado mayores demandas computacionales.

La revisión de la literatura¹³ propone que se resume la detección de prominencia, desde los métodos tradicionales hasta los métodos de aprendizaje profundo, y se puede ver muy claramente la evolución de la detección de dianas de prominencia desde sus orígenes hasta la era del aprendizaje profundo. En la literatura se han propuesto varios modelos de detección de objetos destacados basados en RGB-D con buen rendimiento¹⁴. La literatura anterior revisa y clasifica los diversos tipos de algoritmos para la detección de objetos de prominencia y describe sus escenarios de aplicación, las bases de datos utilizadas y las métricas de evaluación. Este artículo también proporciona un análisis cualitativo y cuantitativo de los algoritmos propuestos en relación con sus bases de datos sugeridas y métricas de evaluación.

Todos los algoritmos anteriores han obtenido resultados notables en bases de datos públicas, proporcionando una base para la detección de objetos destacados en entornos complejos. Aunque se han producido numerosos logros de investigación en este campo, tanto a nivel nacional como internacional, todavía quedan algunas cuestiones por abordar. (1) Los algoritmos tradicionales de aprendizaje no profundo tienden a tener una baja precisión debido a su dependencia de características etiquetadas manualmente, como el color, la textura y la frecuencia, que pueden verse fácilmente afectadas por la experiencia y la percepción subjetivas. En consecuencia, la precisión de sus capacidades de detección de objetos sobresalientes se ve disminuida. La detección de objetos destacados en entornos complejos mediante algoritmos tradicionales de aprendizaje no profundo es un reto debido a su dificultad para manejar escenarios intrincados. (2) Los métodos convencionales para la detección de objetos salientes exhiben una precisión limitada debido a su dependencia de características etiquetadas manualmente, como el color, la textura y la frecuencia. Además, la detección a nivel de región puede ser costosa desde el punto de vista computacional, ya que a menudo ignora la coherencia espacial y tiende a detectar mal los límites de los objetos. Estos problemas deben abordarse para mejorar la precisión de la detección de objetos destacados. (3) La detección de objetos destacados en entornos intrincados presenta un desafío para la mayoría de los algoritmos. La mayoría de los algoritmos de detección de objetos destacados se enfrentan a serios desafíos debido al entorno de detección de objetos salientes cada vez más complejo con fondos variables (colores de fondo y primer plano similares, texturas de fondo complejas, etc.), muchas incertidumbres, como tamaños de objetos de detección inconsistentes y la definición poco clara de los bordes de primer plano y fondo.

La mayoría de los algoritmos actuales muestran una baja precisión en la detección de objetos destacados en entornos complejos con colores de fondo y primer plano similares, texturas de fondo complejas y bordes borrosos. Aunque los algoritmos actuales de objetos salientes basados en el aprendizaje profundo demuestran una mayor precisión que los métodos de detección tradicionales, las características de imagen subyacentes que utilizan aún se quedan cortas a la hora de caracterizar las características semánticas de forma eficaz, lo que deja margen de mejora en su rendimiento.

En resumen, este estudio propone una red neuronal profunda de extremo a extremo para un algoritmo de detección de objetos destacados, con el objetivo de mejorar la precisión de la detección de objetos destacados en entornos complejos, mejorar los bordes del objetivo y caracterizar mejor las características semánticas. Las contribuciones de este trabajo son las siguientes: (1) La primera red emplea VGG16 como red base y modifica sus cinco capas de agrupación utilizando el ‘algoritmo de ^agujero’11. La red neuronal convolucional multiescala a nivel de píxel aprende características de imágenes de diferentes escalas espaciales, abordando el desafío de los campos receptivos estáticos en varias capas de redes neuronales profundas y mejorando la precisión de la detección en áreas significativas de enfoque en el campo. (2) Los esfuerzos recientes para mejorar la precisión de la detección de objetos destacados se han centrado en aprovechar las redes neuronales más profundas, como VGG16, para extraer tanto las características de profundidad de la red codificadora como las características superficiales de la red decodificadora. Este enfoque mejora eficazmente la precisión de la detección de los límites de los objetos y mejora la información semántica, especialmente en entornos complejos con fondos variables, tamaños de objetos incoherentes y límites indistintos entre el primer plano y el fondo. (3) Los esfuerzos recientes para mejorar la precisión de la detección de objetos destacados han hecho hincapié en el uso de redes más profundas, incluida VGG16, para extraer características profundas de la red de codificadores y características superficiales de la red de decodificadores. Este enfoque ha demostrado una mejor detección de los límites de los objetos y una mayor información semántica, especialmente en entornos complejos con diferentes fondos, tamaños de objetos y límites indistintos entre el primer plano y el fondo. Además, se ha implementado la integración de un modelo de campo aleatorio condicional (CRF) totalmente conectado para aumentar la coherencia espacial y la precisión del contorno de los mapas destacados. La efectividad de este enfoque se evaluó en conjuntos de datos de SOD y ECSSD con antecedentes complejos y se encontró que era estadísticamente significativa.

Trabajos relacionados
Fu et ^al.15 propusieron un enfoque conjunto utilizando RGB y aprendizaje profundo para la detección de objetos destacados. Lai et ^al.16 introdujeron un modelo débilmente supervisado para la detección de objetos destacados, aprendiendo la prominencia de las anotaciones, utilizando principalmente etiquetas garabateadas para ahorrar tiempo de anotación. Si bien estos algoritmos presentaron una fusión de dos redes complementarias para la detección de objetos de prominencia, carecen de una investigación en profundidad sobre la detección de prominencia en escenarios complejos. Wang et ^al.17 diseñaron una fusión iterativa de dos modos de características de redes neuronales, tanto de abajo hacia arriba como de arriba hacia abajo, optimizando progresivamente los resultados de la iteración anterior hasta la convergencia. Zhang et ^al.18 fusionaron eficazmente la información semántica y espacial de las imágenes utilizando redes profundas con transferencia bidireccional de información superficial a profunda y de capas profundas a superficiales, respectivamente. La detección de objetos salientes utilizando un modelo profundo de aprendizaje mutuo fue propuesta por Wu et ^al.19. El modelo utiliza información de primer plano y de borde dentro de una red neuronal convolucional para facilitar el proceso de detección. Estos modelos de detección de objetos salientes basados en redes neuronales profundas han logrado un rendimiento notable en conjuntos de datos disponibles públicamente, lo que permite la detección de objetos destacados en escenas naturales complejas. Sin embargo, el diseño de modelos aún más superiores sigue siendo un objetivo importante en este campo de investigación y sirve como motivación principal para este estudio.

Marco general
La representación esquemática del modelo propuesto, como se muestra en la Figura 1, se deriva principalmente de la arquitectura VGG16, que incorpora una red neuronal convolucional (DCL) multiescala a nivel de píxel y una red de codificador-decodificador profundo (DEDN). El modelo elimina toda la agrupación final y las capas totalmente conectadas de VGG16, al tiempo que se adapta a las dimensiones de la imagen de entrada de W × H. El mecanismo operativo implica el procesamiento inicial de la imagen de entrada a través de la DCL, lo que facilita la extracción de características profundas, mientras que las características superficiales se obtienen de las redes DEDN. La amalgama de estas características se somete posteriormente a un modelo de campo aleatorio condicional (CRF) totalmente conectado, lo que aumenta la coherencia espacial y la precisión del contorno de los mapas de prominencia producidos.

Para determinar la eficacia del modelo, se sometió a pruebas y validación en conjuntos de datos SOD²⁰ y ECSSD²¹ con antecedentes intrincados. Después de que la imagen de entrada pasa a través de la DCL, se obtienen diferentes mapas de características de escala con varios campos receptivos y se combina la semántica contextual para producir un mapa saliente W × H con coherencia interdimensional. La DCL emplea un par de capas convolucionales con núcleos de 7 x 7 para sustituir la capa de agrupación final de la red VGG16 original, mejorando la preservación de la información espacial en los mapas de entidades. Esto, combinado con la semántica contextual, produce un mapa saliente W × H con coherencia interdimensional. De manera similar, la red de codificador-decodificador profundo (DEDN) utiliza capas convolucionales con 3 x 3 núcleos en los decodificadores y una sola capa convolucional después del último módulo de decodificación. Aprovechando las características profundas y superficiales de la imagen, es posible generar un mapa saliente con una dimensión espacial de W × H, abordando el desafío de los límites indistintos de los objetos. El estudio describe una técnica pionera para la detección de objetos destacados que amalgama los modelos DCL y DEDN en una red unificada. Los pesos de estas dos redes profundas se aprenden a través de un proceso de entrenamiento, y los mapas de prominencia resultantes se fusionan y luego se refinan utilizando un campo aleatorio condicional (CRF) totalmente conectado. El objetivo principal de este refinamiento es mejorar la coherencia espacial y la localización de curvas de nivel.

Red neuronal totalmente convolucional multiescala a nivel de píxel
La arquitectura VGG16 originalmente consistía en cinco capas de agrupación, cada una con un paso de 2. Cada capa de agrupación comprime el tamaño de la imagen para aumentar el número de canales, obteniendo más información contextual. El modelo DCL se inspira en la literatura¹³ y es una mejora del marco de VGG16. En este artículo, se utiliza un modelo DCL¹¹ a nivel de píxel, como se muestra en la Figura 2 dentro de la arquitectura de VGG16, una red neuronal convolucional profunda. Las cuatro capas de agrupación máximas iniciales están interconectadas con tres núcleos. El primer kernel es 3 × 3 × 128; el segundo kernel es 1 × 1 × 128; y el tercer kernel es 1 × 1 × 1. Para lograr un tamaño uniforme de los mapas de entidades después de las cuatro capas de agrupación iniciales, conectadas a tres núcleos, siendo cada tamaño equivalente a un octavo de la imagen original, el tamaño del paso del primer núcleo conectado a estas cuatro capas de agrupación más grandes se establece en 4, 2, 1 y 1, respectivamente.

Para preservar el campo receptivo original en los diferentes núcleos, se utiliza el “algoritmo de agujeros” propuesto en la literatura¹¹ para ampliar el tamaño del núcleo mediante la adición de ceros, manteniendo así la integridad del núcleo. Estos cuatro mapas de características están conectados al primer kernel con diferentes tamaños de paso. En consecuencia, los mapas de características producidos en la etapa final poseen dimensiones idénticas. Los cuatro mapas de características constituyen un conjunto de características multiescala obtenidas a partir de distintas escalas, cada una de las cuales representa diferentes tamaños de campos receptivos. Los mapas de características resultantes obtenidos de las cuatro capas intermedias se concatenan con el mapa de características final derivado de VGG16, generando así una salida de 5 canales. La salida resultante se somete posteriormente a un kernel 1 × 1 × 1 con la función de activación sigmoide, produciendo finalmente el mapa saliente (con una resolución de un octavo de la imagen original). La imagen se muestrea y se amplía mediante interpolación bilineal, lo que garantiza que la imagen resultante, denominada mapa de prominencia, mantenga una resolución idéntica a la de la imagen inicial.

Red profunda de codificador-decodificador
Del mismo modo, la red VGG16 se emplea como red troncal. VGG16 se caracteriza por un bajo número de canales de mapa de características poco profundos pero de alta resolución y un alto número de canales de características profundas pero de baja resolución. La agrupación de capas y la reducción de muestreo aumentan la velocidad computacional de la red profunda a costa de reducir la resolución de su mapa de entidades. Para solucionar este problema, siguiendo el análisis de la literatura¹⁴, se utiliza la red de codificadores para modificar la conectividad completa de la última capa de agrupación en el VGG16 original. Esta modificación implica reemplazarlo con dos capas convolucionales con 7 × 7 núcleos (los núcleos convolucionales más grandes aumentan el campo receptivo). Ambos núcleos de convolución están equipados con una operación de normalización (BN) y una unidad lineal modificada (ReLU). Este ajuste da como resultado un mapa de entidades de salida del codificador que conserva mejor la información del espacio de la imagen.

Si bien el codificador mejora la semántica de imágenes de alto nivel para la localización global de objetos salientes, el problema de desenfoque de límites de su objeto saliente no mejora de manera efectiva. Para abordar este problema, las características profundas se fusionan con características superficiales, inspiradas en el trabajo de detección de bordes¹², proponiendo el modelo de red codificador-decodificador (DEDN) como se muestra en la Figura 3. La arquitectura del codificador comprende tres núcleos interconectados con los cuatro iniciales, mientras que el decodificador mejora sistemáticamente la resolución del mapa de características utilizando los valores máximos recuperados de las capas de agrupación máximas.

En esta metodología innovadora para la detección de objetos destacados, durante la fase de decodificador, se utiliza una capa convolucional con un kernel 3 × 3 en combinación con una capa de normalización por lotes y una unidad lineal adaptada. Al final del módulo de decodificación final dentro de la arquitectura del decodificador, se emplea una capa convolucional de canal solitario para obtener un mapa destacado de las dimensiones espaciales W × H. El mapa saliente se genera a través de una fusión colaborativa del modelo codificador-decodificador, que produce el resultado, y la fusión complementaria de los dos, es decir, la fusión complementaria de información profunda e información superficial. Esto no solo logra una localización precisa del objeto saliente y aumenta el campo receptivo, sino que también preserva eficazmente la información detallada de la imagen y fortalece el límite del objeto saliente.

Mecanismo de integración
La arquitectura del codificador consta de tres núcleos, que están asociados con las cuatro capas de agrupación máximas iniciales del modelo VGG16. Por el contrario, el decodificador se formula intencionadamente para aumentar progresivamente la resolución de los mapas de entidades adquiridos de las capas de muestreo ascendente aprovechando los valores máximos obtenidos de las capas de agrupación correspondientes. A continuación, se utiliza en el decodificador una capa convolucional que utiliza un núcleo de 3 x 3, una capa de normalización por lotes y una unidad lineal modificada, seguida de una capa convolucional de un solo canal para generar un mapa destacado de dimensiones W × H. Los pesos de las dos redes profundas se aprenden a través de ciclos de entrenamiento alternos. Los parámetros de la primera red se mantuvieron fijos, mientras que los parámetros de la segunda red se sometieron a un entrenamiento durante un total de cincuenta ciclos. Durante el proceso, los pesos del mapa de prominencia (^S1 y ^S2) utilizado para la fusión se actualizan a través de un gradiente aleatorio. La función^{de pérdida 11} es:

(1)

En la expresión dada, el símbolo G representa el valor etiquetado manualmente, mientras que W significa el conjunto completo de parámetros de red. El peso β_i sirve como factor de equilibrio para regular la proporción de píxeles salientes frente a los píxeles no salientes en el proceso de cálculo.

La imagen I se caracteriza por tres parámetros: |I|, |Yo|_– y |Yo|₊, que representan el número total de píxeles, el recuento de píxeles no salientes y el recuento de píxeles salientes, respectivamente.

Dado que los mapas salientes obtenidos de las dos redes anteriores no tienen en cuenta la coherencia de los píxeles vecinos, se utiliza un modelo de refinamiento de prominencia a nivel de píxel totalmente conectado CRF¹⁵ para mejorar la coherencia espacial. La ecuación de energía¹¹ es la siguiente, resolviendo el problema de etiquetado de píxeles binarios.

(2)

donde L denota la etiqueta binaria (valor saliente o valor no destacado) asignada a todos los píxeles. La variable P(l_i) denota la probabilidad de que a un píxel x _idado se le asigne una etiqueta específica l_i, lo que indica la probabilidad de que el píxel x_isea saliencia. Al principio, P(1) = S_iy P(0) = 1 – S_i, donde S_idenota el valor de prominencia en el píxel x_identro del mapa de prominencia fusionado S. θ_i,j(l_i,l _j) es el potencial por pares, definido de la siguiente manera.

(3)

Entre ellos, si l_i≠ l_j, entonces μ(l_i,l _j) = 1, de lo contrario μ(l_i,l _j) = 0. El cálculo de θ_i,j implica la utilización de dos núcleos, donde el núcleo inicial depende tanto de la posición del píxel P como de la intensidad del píxel I. Esto da como resultado la proximidad de píxeles con colores similares que exhiben valores de prominencia comparables. Los dos parámetros, σ_α y σ_β, regulan el grado en que la similitud de color y la proximidad espacial influyen en el resultado. El objetivo del segundo kernel es eliminar pequeñas regiones aisladas. La minimización de la energía se logra a través del filtrado de alta dimensión, que acelera el campo medio de la distribución del campo aleatorio condicional (CRF). Tras el cálculo, el mapa saliente denotado como S_crf exhibe una mayor coherencia espacial y contorno con respecto a los objetos salientes detectados.

Configuraciones experimentales
En este artículo, se construye una red profunda para la detección de objetivos destacados basada en la red neuronal VGG16 utilizando Python. El modelo propuesto se compara con otros métodos que utilizan los conjuntos de datos SOD²⁰ y ECSSD²¹ . La base de datos de imágenes SOD es conocida por sus fondos complejos y desordenados, la similitud de colores entre el primer plano y el fondo, y el tamaño pequeño de los objetos. A cada imagen de este conjunto de datos se le asigna un valor verdadero etiquetado manualmente para la evaluación del rendimiento cuantitativa y cualitativa. Por otro lado, el conjunto de datos de la ECSSD consiste principalmente en imágenes procedentes de Internet, con escenas naturales más complejas y realistas con un bajo contraste entre el fondo de la imagen y los objetos destacados.

Los índices de evaluación utilizados para comparar el modelo en este trabajo incluyen la curva de precisión-recuerdo comúnmente utilizada, F_βy E_MAE. Para evaluar cuantitativamente el mapa de prominencia predicho, se emplea la curva²² de Precisión-Recuperación (P-R) alterando el umbral de 0 a 255 para binarizar el mapa de prominencia. F_βes una métrica de evaluación integral, calculada con las ecuaciones de precisión y recuerdo derivadas del mapa de salientes binarizado y un mapa de valores verdaderos.

(4)

donde β es el parámetro de peso para ajustar la precisión y la recuperación, estableciendo β² = 0,3. El cálculo de E_MAEes equivalente a calcular el error absoluto medio entre el mapa de prominencia resultante y el mapa de verdad del terreno, tal como se define en la expresión matemática siguiente:

(5)

Sea T_s(u,v) el valor extraído de los píxeles del mapa saliente (u,v) y sea T_G(u,v) el valor correspondiente de los píxeles del mapa verdadero (u,v).

Protocol

1. Configuración y procedimiento experimental Cargue el modelo VGG16 previamente entrenado.NOTA: El primer paso es cargar el modelo VGG16 previamente entrenado desde la biblioteca Keras6.Para cargar un modelo VGG16 previamente entrenado en Python mediante bibliotecas de aprendizaje profundo populares como PyTorch (consulte Tabla de materiales), siga estos pasos generales:Antorcha de importación. Importe torc…

Representative Results

Este estudio presenta una red neuronal profunda de extremo a extremo que comprende dos redes complementarias: una red totalmente convolucional multiescala a nivel de píxel y una red profunda de codificador-decodificador. La primera red integra la semántica contextual para derivar contrastes visuales a partir de mapas de características de múltiples escalas, abordando el desafío de los campos receptivos fijos en redes neuronales profundas a través de diferentes capas. La segunda red utiliza características de image…

Discussion

El artículo presenta una red neuronal profunda de extremo a extremo diseñada específicamente para la detección de objetos destacados en entornos complejos. La red se compone de dos componentes interconectados: una red convolucional (DCL) multiescala a nivel de píxel y una red de codificador-decodificador profundo (DEDN). Estos componentes funcionan de forma sinérgica, incorporando semántica contextual para generar contrastes visuales dentro de mapas de entidades multiescala. Además, aprovechan las característica…

開示

The authors have nothing to disclose.

Acknowledgements

Este trabajo cuenta con el apoyo del Establecimiento del Programa de Financiación de Proyectos Clave de Investigación Científica de las Instituciones Provinciales de Educación Superior de Henan 2024 (Número de proyecto: 24A520053). Este estudio también cuenta con el apoyo del Curso de Demostración de Características de Creación e Integración Especializadas en la Construcción en la provincia de Henan.

Materials

Matlab	MathWorks	Matlab R2016a	MATLAB's programming interface provides development tools for improving code quality maintainability and maximizing performance. It provides tools for building applications using custom graphical interfaces. It provides tools for combining MATLAB-based algorithms with external applications and languages
Processor	Intel	11th Gen Intel(R) Core (TM) i5-1135G7 @ 2.40GHz	64-bit Win11 processor
Pycharm	JetBrains	PyCharm 3.0	PyCharm is a Python IDE (Integrated Development Environment) a list of required python: modulesmatplotlib skimage torch os time pydensecrf opencv glob PIL torchvision numpy tkinter
PyTorch	Facebook	PyTorch 1.4	PyTorch is an open source Python machine learning library , based on Torch , used for natural language processing and other applications.PyTorch can be viewed both as the addition of GPU support numpy , but also can be viewed as a powerful deep neural network with automatic derivatives .

参考文献

Wang, W. G., Shen, J. B., Ling, H. B. A deep network solution for attention and aesthetics aware photo cropping. IEEE Transactions on Pattern Analysis and Machine Intelligence. 41 (7), 1531-1544 (2018).
Wang, W. G., Sun, G. L., Gool, L. V. Looking beyond single images for weakly supervised semantic segmentation learning. IEEE Transactions on Pattern Analysis and Machine. , (2022).
Mei, H. L., et al. Exploring dense context for salient object detection. IEEE Transactions on Circuits and Systems for Video Technology. 32 (3), 1378-1389 (2021).
Borji, A., Itti, L. State-of-the-art in visual attention modeling. IEEE Transactions on Pattern Analysis and Machine Intelligence. 35 (1), 185-207 (2012).
Long, J., Shelhamer, E., Darrell, T. Fully convolutional networks for semantic segmentation. , 3431-3440 (2015).
Simonyan, K., Zisserman, A. Very deep convolutional networks for large-scale image recognition. arXiv preprint. , 1409-1556 (2014).
He, K., Zhang, X., Ren, S., Sun, J. Deep residual learning for image recognition. , 770-778 (2016).
Liu, N., Han, J. Dhsnet: Deep hierarchical saliency network for salient object detection. , 678-686 (2016).
Zhang, L., Dai, J., Lu, H., He, Y., Wang, G. A bi-directional message passing model for salient object detection. , 1741-1750 (2018).
Wu, R., et al. A mutual learning method for salient object detection with intertwined multi-supervision. , 8150-8159 (2019).
Li, G., Yu, Y. Deep contrast learning for salient object detection. , 478-487 (2019).
Ren, Q., Hu, R. Multi-scale deep encoder-decoder network for salient object detection. Neurocomputing. 316, 95-104 (2018).
Wang, W. G., et al. Salient object detection in the deep learning era: An in-depth survey. IEEE Transactions on Pattern Analysis and Machine Intelligence. 44 (6), 3239-3259 (2021).
Zhou, T., et al. RGB-D salient object detection: A survey. Computational Visual Media. 7, 37-69 (2021).
Fu, K., et al. Siamese network for RGB-D salient object detection and beyond. IEEE Transactions on Pattern Analysis and Machine Intelligence. 44 (9), 5541-5559 (2021).
Lai, Q., et al. Weakly supervised visual saliency prediction. IEEE Transactions on Image Processing. 31, 3111-3124 (2022).
Zhang, L., Dai, J., Lu, H., He, Y., Wang, G. A bi-directional message passing model for salient object detection. , 1741-1750 (2018).
Wu, R. A mutual learning method for salient object detection with intertwined multi-supervision. , 8150-8159 (2019).
Wang, W., Shen, J., Dong, X., Borji, A., Yang, R. Inferring salient objects from human fixations. IEEE Transactions on Pattern Analysis and Machine Intelligence. 42 (8), 1913-1927 (2019).
Movahedi, V., Elder, J. H. Design and perceptual validation of performance measures for salient object segmentation. , 49-56 (2010).
Shi, J., Yan, Q., Xu, L., Jia, J. Hierarchical image saliency detection on extended CSSD. IEEE Transactions on Pattern Analysis and Machine Intelligence. 38 (4), 717-729 (2015).
Achanta, R., Hemami, S., Estrada, F., Susstrunk, S. Frequency-tuned salient region detection. , 1597-1604 (2009).
Yang, C., Zhang, L., Lu, H., Ruan, X., Yang, M. H. Saliency detection via graph-based manifold ranking. , 3166-3173 (2013).
Wei, Y., et al. Geodesic saliency using background priors. Computer Vision-ECCV 2012. , 29-42 (2012).
Margolin, R., Tal, A., Zelnik-Manor, L. What makes a patch distinct. , 1139-1146 (2013).
Perazzi, F., Krähenbühl, P., Pritch, Y., Hornung, A. Saliency filters: Contrast based filtering for salient region detection. , 733-740 (2012).
Hou, X., Harel, J., Koch, C. Image signature: Highlighting sparse salient regions. IEEE Transactions on Pattern Analysis and Machine Intelligence. 34 (1), 194-201 (2011).
Jiang, H., et al. Salient object detection: A discriminative regional feature integration approach. , 2083-2090 (2013).
Li, G., Yu, Y. Visual saliency based on multiscale deep features. , 5455-5463 (2015).
Lee, G., Tai, Y. W., Kim, J. Deep saliency with encoded low level distance map and high-level features. , 660-668 (2016).
Liu, N., Han, J. Dhsnet: Deep hierarchical saliency network for salient object detection. , 678-686 (2016).

Play Video

PDF

DOI

DOWNLOAD MATERIALS LIST

記事を引用

Wang, Y., Wang, Z. End-To-End Deep Neural Network for Salient Object Detection in Complex Environments. J. Vis. Exp. (202), e65554, doi:10.3791/65554 (2023).

Red neuronal profunda de extremo a extremo para la detección de objetos destacados en entornos complejos