End-To-End Deep Neural Network for Salient Object Detection in Complex Environments

Yu Wang; Zhiteng Wang

doi:10.3791/65554

JoVE Journal > Engineering

Please note that all translations are automatically generated. Click here for the English version.

Engenharia

用于复杂环境中显著目标检测的端到端深度神经网络

Published: December 15, 2023

doi:

10.3791/65554

Yu Wang¹, Zhiteng Wang²

¹Zhengzhou University of Economics and Business, ²The 713 Research Institute of CSSC

Summary

本协议描述了一种新型的端到端显著目标检测算法。它利用深度神经网络来提高复杂环境背景下显著目标检测的精度。

Abstract

突出目标检测已成为计算机视觉领域中一个新兴的兴趣领域。然而，当任务是在复杂和多方面的环境中检测突出物体时，流行的算法表现出较低的精度。鉴于这一紧迫问题，本文提出了一种端到端深度神经网络，旨在检测复杂环境中的突出对象。该研究引入了一种端到端的深度神经网络，旨在检测复杂环境中的突出物体。该网络由像素级多尺度全卷积网络和深度编码器-解码器网络两个相互关联的组件组成，该网络集成了上下文语义，在多尺度特征图上产生视觉对比，同时采用深浅图像特征来提高目标边界识别的准确性。全连接条件随机场（CRF）模型的集成进一步增强了显著地图的空间连贯性和等高线描绘。针对SOD和ECSSD数据库上的10种现代算法，对所提出的算法进行了广泛的评估。评估结果表明，所提算法在精度和准确度方面优于其他方法，从而确立了其在复杂环境中显著目标检测的有效性。

Introduction

突出物体检测模仿人类的视觉注意力，快速识别关键图像区域，同时抑制背景信息。该技术被广泛用作图像裁剪¹、语义分割² 和图像编辑³ 等任务中的预处理工具。它简化了背景替换和前景提取等任务，提高了编辑效率和精度。此外，它还通过增强目标定位来帮助语义分割。显著目标检测在提高计算效率和节省内存方面的潜力凸显了其重要的研究和应用前景。

多年来，显著目标检测已经从最初的传统算法发展到深度学习算法的结合。这些进步的目的是缩小显著物体检测与人类视觉机制之间的差距。这导致了深度卷积网络模型的采用，用于显著目标检测的研究。Borji等人^[4 ]总结并推广了大多数依赖于图像底层特征的经典传统算法。尽管检测精度有所提高，但手动经验和认知能力仍然给复杂环境中的显著物体检测带来挑战。

卷积神经网络（CNN）的使用在显著目标检测领域很普遍。在这种情况下，深度卷积神经网络被用于通过自主学习进行权重更新。卷积神经网络通过级联卷积层和池化层从图像中提取上下文语义，能够在更高层次上学习复杂的图像特征，这些特征在不同环境下的显著目标检测中具有更高的辨别和表征能力。

2016 年，全卷积神经网络⁵ 作为一种流行的显著性目标检测方法获得了巨大的关注，研究人员在此基础上开始了像素级显著性目标检测。许多模型通常建立在现有网络上（例如，VGG16⁶、ResNet⁷），旨在增强图像表示并增强边缘检测效果。

Liu等人^[8 ]使用已经训练过的神经网络作为框架来全局计算图像，然后使用分层网络细化对象边界。两个网络的组合形成了最终的深度显著性网络。这是通过以重复的方式将先前获得的显著地图作为先验知识输入网络来实现的。Zhang等^[9 ]利用深度网络有效地融合了图像语义和空间信息，分别实现了从浅层到深层和从深层到浅层的双向信息传递。Wu等人¹⁰提出了使用相互学习深度模型检测显著对象的方法。该模型利用卷积神经网络中的前景和边缘信息来促进检测过程。Li等^[11 ]利用神经网络的“空穴算法”来解决在显著目标检测的背景下固定深度神经网络中不同层的感受野的挑战。然而，超像素分割用于对象边缘采集，大大增加了计算工作量和计算时间。任等人^[12 ]设计了一个多尺度的编码器-解码器网络来检测显著的物体，并利用卷积神经网络有效地结合了深层和浅层特征。尽管通过这种方法解决了目标检测中边界模糊的挑战，但信息的多尺度融合不可避免地导致了更高的计算需求。

文献综述¹³ 提出，总结了显著性检测从传统方法到深度学习方法，可以非常清楚地看到显著性目标检测从起源到深度学习时代的演变。文献¹⁴中提出了各种基于RGB-D的显著目标检测模型，并具有良好的性能。以上文献对各种类型的显著性目标检测算法进行了综述和分类，并介绍了它们的应用场景、使用的数据库和评价指标。本文还对所提出的算法进行了定性和定量分析，涉及其建议的数据库和评估指标。

上述算法在公共数据库中都取得了显著的成果，为复杂环境下的显著目标检测提供了依据。尽管在国内和国际上，这一领域的研究成果众多，但仍有一些问题需要解决。（1）传统的非深度学习算法由于依赖颜色、纹理、频率等人工标注的特征，容易受到主观体验和感知的影响，因此精度往往较低。因此，其显著目标检测能力的精度降低。使用传统的非深度学习算法检测复杂环境中的突出对象具有挑战性，因为它们难以处理复杂的场景。（2）传统的显著目标检测方法由于依赖于手动标记的特征（如颜色、纹理和频率）而表现出有限的准确性。此外，区域级检测的计算成本可能很高，通常会忽略空间一致性，并且往往无法检测对象边界。这些问题需要得到解决，以提高显著目标检测的精度。（3）在复杂环境中进行显著目标检测对大多数算法来说是一个挑战。由于具有可变背景（相似的背景和前景颜色、复杂的背景纹理等）的显著目标检测环境日益复杂，检测目标大小不一致等不确定性以及前景和背景边缘定义不明确等诸多不确定性，大多数显著目标检测算法都面临着严峻的挑战。

在具有相似背景和前景颜色、复杂背景纹理和模糊边缘的复杂环境中，大多数当前算法在检测显着对象方面的准确性较低。尽管目前基于深度学习的显著对象算法表现出比传统检测方法更高的准确性，但它们利用的底层图像特征在有效表征语义特征方面仍然不足，其性能仍有改进的空间。

综上所述，该文提出一种端到端的深度神经网络，旨在提高复杂环境下显著目标检测的准确性，改善目标边缘，更好地表征语义特征。本文的贡献如下：（1）第一个网络采用VGG16作为基础网络，并使用“孔算法”¹¹修改其五个池化层。像素级多尺度全卷积神经网络从不同的空间尺度学习图像特征，解决了深度神经网络各层静态感受野的挑战，提高了场内重要焦点区域的检测精度。（2）最近提高显著目标检测准确性的努力集中在利用更深的神经网络，如VGG16，从编码器网络中提取深度特征，从解码器网络中提取浅层特征。这种方法有效地提高了对象边界的检测精度，并改善了语义信息，特别是在背景多变、对象大小不一致、前景和背景边界模糊的复杂环境中。（3）近年来，为了提高显著目标检测的精度，人们强调使用更深的网络，包括VGG16，从编码器网络中提取深层特征，从解码器网络中提取浅层特征。这种方法已经证明了对对象边界的改进检测和更多的语义信息，特别是在具有不同背景、对象大小以及前景和背景之间边界模糊的复杂环境中。此外，还实现了全连接条件随机场（CRF）模型的集成，以增强显著地图的空间连贯性和等高线精度。在具有复杂背景的 SOD 和 ECSSD 数据集上评估了这种方法的有效性，并发现具有统计学意义。

相关工作
Fu et ^al.15 提出了一种使用 RGB 和深度学习进行显著目标检测的联合方法。Lai等^[16 ]引入了一种弱监督模型，用于显著性对象检测，从注释中学习显著性，主要利用涂鸦标签来节省注释时间。虽然这些算法融合了两个互补的显著性目标检测网络，但它们缺乏对复杂场景下显著性检测的深入研究。Wang等^[17 ]设计了一种自下而上和自上而下的神经网络特征的双模迭代融合，逐步优化前一次迭代的结果，直到收敛。Zhang等^[18 ]利用深度网络有效地融合了图像语义和空间信息，分别实现了从浅层到深层和从深层到浅层的双向信息传递。Wu等¹⁹提出了使用相互学习深度模型检测显著对象的方法。该模型利用卷积神经网络中的前景和边缘信息来促进检测过程。这些基于深度神经网络的显著性目标检测模型在公开可用的数据集上取得了卓越的性能，能够在复杂的自然场景中实现显著目标检测。尽管如此，设计更优越的模型仍然是该研究领域的一个重要目标，也是本研究的主要动机。

总体框架
如 图 1 所示，所提出的模型的示意图主要源自 VGG16 架构，包括像素级多尺度全卷积神经网络（DCL）和深度编码器-解码器网络（DEDN）。该模型消除了 VGG16 的所有最终池化层和全连接层，同时适应了 W × H 的输入图像尺寸。操作机制涉及通过DCL对输入图像进行初始处理，便于提取深层特征，而浅层特征则从DEDN网络获得。随后，这些特征的合并受到全连接条件随机场（CRF）模型的影响，增强了所生成的显著性图的空间连贯性和等高线精度。

为了确定该模型的有效性，它在具有复杂背景的 SOD²⁰ 和 ECSSD²¹ 数据集上进行了测试和验证。输入图像通过DCL后，得到具有不同感受野的不同比例特征图，并结合上下文语义，生成具有维度间连贯性的W×H显著图。DCL 采用一对具有 7 x 7 内核的卷积层来替代原始 VGG16 网络的最终池化层，从而增强了特征图中空间信息的保存。这与上下文语义相结合，产生了具有跨维度连贯性的 W × H 显著图。同样，深度编码器-解码器网络（DEDN）利用解码器中具有 3 x 3 内核的卷积层，并在最后一个解码模块之后使用单个卷积层。利用图像的深层和浅层特征，可以生成空间维度为 W × H 的突出地图，从而解决物体边界模糊的挑战。该研究描述了一种开创性的显著目标检测技术，该技术将 DCL 和 DEDN 模型合并到一个统一的网络中。通过训练过程学习这两个深度网络的权重，并合并生成的显著性图，然后使用完全连接的条件随机场（CRF）进行细化。这种改进的主要目的是提高空间一致性和等高线定位。

像素级多尺度全卷积神经网络
VGG16 架构最初由五个池化层组成，每个池化层的步幅为 2。每个池化层压缩图像大小以增加通道数，从而获得更多上下文信息。DCL 模型的灵感来自文献¹³ ，是对 VGG16 框架的改进。在本文中，使用了像素级 DCL 模型¹¹ ，如图 2 所示，位于深度卷积神经网络 VGG16 的架构中。最初的四个最大池层与三个内核互连。第一个内核是 3 × 3 × 128;第二个内核是 1 × 1 × 128;第三个内核是 1 × 1 × 1。为了在连接到三个内核的初始四个池化层之后实现统一大小的特征图，每个池化层的大小相当于原始图像的八分之一，连接到这四个最大池化层的第一个内核的步长分别设置为 4、2、1 和 1。

为了在不同的核中保留原始感受野，文献¹¹ 中提出的“空穴算法”用于通过添加零来扩展核的大小，从而保持核的完整性。这四个特征图以不同的步长连接到第一个内核。因此，在最后阶段生成的特征图具有相同的尺寸。这四个特征图构成了一组从不同尺度获得的多尺度特征，每个特征代表不同大小的感受野。从四个中间层获得的结果特征图与从 VGG16 派生的最终特征图连接起来，从而生成 5 通道输出。随后的输出随后受到具有 S 形激活函数的 1 × 1 × 1 内核的影响，最终产生显著图（分辨率为原始图像的八分之一）。使用双线性插值对图像进行上采样和放大，确保生成的图像（称为显著性图）保持与初始图像相同的分辨率。

深度编码器-解码器网络
同样，VGG16网络被用作骨干网络。VGG16的特点是浅特征图通道数量少，但分辨率高，深特征通道数量多，但分辨率低。池化层和下采样提高了深度网络的计算速度，但代价是降低了其特征图分辨率。为了解决这个问题，根据文献¹⁴中的分析，编码器网络用于修改原始VGG16中最后一个池化层的完全连通性。这种修改包括用两个具有 7 × 7 个内核的卷积层替换它（较大的卷积内核增加了感受野）。两个卷积核都配备了归一化（BN）操作和修改后的线性单元（ReLU）。此调整将生成编码器输出特征图，以更好地保留图像空间信息。

虽然编码器改进了显著对象全局定位的高级图像语义，但其显著对象的边界模糊问题并未得到有效改善。为了解决这个问题，受边缘检测工作¹² 的启发，将深层特征与浅层特征融合在一起，提出了编码器-解码器网络模型（DEDN），如 图 3 所示。编码器架构包括三个与初始四个内核互连的内核，而解码器则使用从最大池化层检索到的最大值系统地增强特征图分辨率。

在这种用于显著对象检测的创新方法中，在解码器阶段，将具有 3 × 3 内核的卷积层与批量归一化层和自适应线性单元结合使用。在解码器架构中的最终解码模块结束时，采用孤信道卷积层来获取空间维度 W × H 的显着映射。显著图是通过编码器-解码器模型的协同融合生成的，产生了结果，以及两者的互补融合，即深层信息和浅层信息的互补融合。这不仅实现了对突出物体的精确定位，增加了感受野，而且有效地保留了图像细节信息，加强了突出物体的边界。

集成机制
编码器架构由三个内核组成，它们与 VGG16 模型的初始四个最大池化层相关联。相比之下，解码器被特意制定为通过利用从相应的池化层获得的最大值来逐步增强从上采样层获取的特征图的分辨率。然后在解码器中使用利用 3 x 3 内核的卷积层、批量归一化层和修改后的线性单元，然后是单通道卷积层以生成维度 W × H 的显着映射。两个深度网络的权重是通过交替的训练周期来学习的。第一个网络的参数保持固定，而第二个网络的参数总共经过了五十个周期的训练。在此过程中，用于融合的显著性图（^S1 和 ^S2）的权重通过随机梯度进行更新。损失函数¹¹ 为：

(1)

在给定的表达式中，符号 G 表示手动标记的值，而 W 表示完整的网络参数集。_i β权重作为平衡因子，用于调节计算过程中显著像素与非显著像素的比例。

图像 I 的特征有三个参数： |我|， |我|_– 和 |我|₊，分别表示像素总数、非显著像素数和显著像素数。

由于从上述两个网络获得的显著图没有考虑相邻像素的相干性，因此使用全连接像素级显著性细化模型CRF¹⁵ 来提高空间相干性。能量方程¹¹ 如下，求解二进制像素标记问题。

(2)

其中 L 表示分配给所有像素的二进制标签（显著值或非显著值）。变量 P（l_i）表示给定像素 x_i被分配特定标签 l_i 的可能性，表示像素 x_i显著性的可能性。一开始，P（1） = S_i和 P（0） = 1 – S_i，其中 S_i表示融合显著性图 S 中像素 x_i处的显著性值。θ_i，j（l_i，l _j）是成对势位，定义如下。

(3)

其中，如果 l_i≠ l_j，则 μ（l_i，l _j） = 1，否则 μ（l_i，l _j） = 0。θ_i，j 的计算涉及两个核的使用，其中初始核取决于像素位置 P 和像素强度 I。这导致具有相似颜色的像素具有相似的显著性值。_{σ α} 和σ_β这两个参数调节了颜色相似性和空间接近性对结果的影响程度。第二个内核的目标是消除孤立的小区域。能量的最小化是通过高维滤波实现的，它加快了条件随机场（CRF）分布的平均场。经过计算，表示为 S_crf 的显著性地图与检测到的显著性物体相比表现出增强的空间连贯性和等高线。

实验性配置
本文利用Python构建了一个基于VGG16神经网络的深度目标检测网络。使用SOD²⁰ 和ECSSD²¹ 数据集将所提出的模型与其他方法进行了比较。SOD 图像数据库以其复杂而杂乱的背景、前景和背景之间的颜色相似以及较小的物体尺寸而闻名。此数据集中的每张图像都被分配了一个手动标记的真实值，用于定量和定性性能评估。另一方面，ECSSD数据集主要由来自互联网的图像组成，具有更复杂和逼真的自然场景，图像背景和突出物体之间的对比度较低。

本文用于比较模型的评价指标包括常用的Precision-Recall曲线、 F_β和 E_MAE。为了定量评估预测的显著性图，采用精确召回率（P-R）曲线²² 将阈值从 0 更改为 255 以对显著性图进行二值化。 F_β是一个综合评估指标，使用从二值显著性图和真实值图派生的精度和召回率方程计算。

(4)

其中 β 是用于调整准确率和召回率的权重参数，设置 β² = 0.3。 E_MAE的计算等效于计算结果显著性图和地面实况图之间的平均绝对误差，如下图所定义：

(5)

设 T_s（u，v）表示显著映射（u，v）像素的提取值，设 T_G（u，v）表示真实映射（u，v）像素的相应值。

Protocol

1. 实验设置和程序加载预训练的 VGG16 模型。注意：第一步是从 Keras库 6 加载预训练的 VGG16 模型。要使用 PyTorch 等流行的深度学习库在 Python 中加载预训练的 VGG16 模型（请参阅材料表），请遵循以下常规步骤：导入火炬。导入 torchvision.models 作为模型。加载预训练的 VGG16 模型。vgg16_model = models.vg…

Representative Results

本研究引入了一个由两个互补网络组成的端到端深度神经网络：像素级多尺度全卷积网络和深度编码器-解码器网络。第一个网络集成了上下文语义，从多尺度特征图中推导出视觉对比，解决了跨不同层的深度神经网络中固定感受野的挑战。第二个网络利用深和浅图像特征来缓解目标对象边界模糊的问题。最后，应用全连接条件随机场（CRF）模型提高显著性图的空间相干性和等高线。 <p class="jov…

Discussion

本文介绍了一种端到端深度神经网络，专门设计用于检测复杂环境中的突出物体。该网络由两个相互连接的组件组成：像素级多尺度全卷积网络（DCL）和深度编码器-解码器网络（DEDN）。这些组件协同工作，结合上下文语义，在多尺度特征图中生成视觉对比。此外，它们还利用深和浅图像特征来提高物体边界描绘的精度。全连接条件随机场（CRF）模型的集成进一步增强了显著性图和等高线描绘?…

Declarações

The authors have nothing to disclose.

Acknowledgements

本研究由2024年河南省高等学校重点科研项目资助项目建立（项目编号：24A520053）资助。本研究还得到了河南省特色创意与融合特色示范课程建设的支持。

Materials

Matlab	MathWorks	Matlab R2016a	MATLAB's programming interface provides development tools for improving code quality maintainability and maximizing performance. It provides tools for building applications using custom graphical interfaces. It provides tools for combining MATLAB-based algorithms with external applications and languages
Processor	Intel	11th Gen Intel(R) Core (TM) i5-1135G7 @ 2.40GHz	64-bit Win11 processor
Pycharm	JetBrains	PyCharm 3.0	PyCharm is a Python IDE (Integrated Development Environment) a list of required python: modulesmatplotlib skimage torch os time pydensecrf opencv glob PIL torchvision numpy tkinter
PyTorch	Facebook	PyTorch 1.4	PyTorch is an open source Python machine learning library , based on Torch , used for natural language processing and other applications.PyTorch can be viewed both as the addition of GPU support numpy , but also can be viewed as a powerful deep neural network with automatic derivatives .

Referências

Wang, W. G., Shen, J. B., Ling, H. B. A deep network solution for attention and aesthetics aware photo cropping. IEEE Transactions on Pattern Analysis and Machine Intelligence. 41 (7), 1531-1544 (2018).
Wang, W. G., Sun, G. L., Gool, L. V. Looking beyond single images for weakly supervised semantic segmentation learning. IEEE Transactions on Pattern Analysis and Machine. , (2022).
Mei, H. L., et al. Exploring dense context for salient object detection. IEEE Transactions on Circuits and Systems for Video Technology. 32 (3), 1378-1389 (2021).
Borji, A., Itti, L. State-of-the-art in visual attention modeling. IEEE Transactions on Pattern Analysis and Machine Intelligence. 35 (1), 185-207 (2012).
Long, J., Shelhamer, E., Darrell, T. Fully convolutional networks for semantic segmentation. , 3431-3440 (2015).
Simonyan, K., Zisserman, A. Very deep convolutional networks for large-scale image recognition. arXiv preprint. , 1409-1556 (2014).
He, K., Zhang, X., Ren, S., Sun, J. Deep residual learning for image recognition. , 770-778 (2016).
Liu, N., Han, J. Dhsnet: Deep hierarchical saliency network for salient object detection. , 678-686 (2016).
Zhang, L., Dai, J., Lu, H., He, Y., Wang, G. A bi-directional message passing model for salient object detection. , 1741-1750 (2018).
Wu, R., et al. A mutual learning method for salient object detection with intertwined multi-supervision. , 8150-8159 (2019).
Li, G., Yu, Y. Deep contrast learning for salient object detection. , 478-487 (2019).
Ren, Q., Hu, R. Multi-scale deep encoder-decoder network for salient object detection. Neurocomputing. 316, 95-104 (2018).
Wang, W. G., et al. Salient object detection in the deep learning era: An in-depth survey. IEEE Transactions on Pattern Analysis and Machine Intelligence. 44 (6), 3239-3259 (2021).
Zhou, T., et al. RGB-D salient object detection: A survey. Computational Visual Media. 7, 37-69 (2021).
Fu, K., et al. Siamese network for RGB-D salient object detection and beyond. IEEE Transactions on Pattern Analysis and Machine Intelligence. 44 (9), 5541-5559 (2021).
Lai, Q., et al. Weakly supervised visual saliency prediction. IEEE Transactions on Image Processing. 31, 3111-3124 (2022).
Zhang, L., Dai, J., Lu, H., He, Y., Wang, G. A bi-directional message passing model for salient object detection. , 1741-1750 (2018).
Wu, R. A mutual learning method for salient object detection with intertwined multi-supervision. , 8150-8159 (2019).
Wang, W., Shen, J., Dong, X., Borji, A., Yang, R. Inferring salient objects from human fixations. IEEE Transactions on Pattern Analysis and Machine Intelligence. 42 (8), 1913-1927 (2019).
Movahedi, V., Elder, J. H. Design and perceptual validation of performance measures for salient object segmentation. , 49-56 (2010).
Shi, J., Yan, Q., Xu, L., Jia, J. Hierarchical image saliency detection on extended CSSD. IEEE Transactions on Pattern Analysis and Machine Intelligence. 38 (4), 717-729 (2015).
Achanta, R., Hemami, S., Estrada, F., Susstrunk, S. Frequency-tuned salient region detection. , 1597-1604 (2009).
Yang, C., Zhang, L., Lu, H., Ruan, X., Yang, M. H. Saliency detection via graph-based manifold ranking. , 3166-3173 (2013).
Wei, Y., et al. Geodesic saliency using background priors. Computer Vision-ECCV 2012. , 29-42 (2012).
Margolin, R., Tal, A., Zelnik-Manor, L. What makes a patch distinct. , 1139-1146 (2013).
Perazzi, F., Krähenbühl, P., Pritch, Y., Hornung, A. Saliency filters: Contrast based filtering for salient region detection. , 733-740 (2012).
Hou, X., Harel, J., Koch, C. Image signature: Highlighting sparse salient regions. IEEE Transactions on Pattern Analysis and Machine Intelligence. 34 (1), 194-201 (2011).
Jiang, H., et al. Salient object detection: A discriminative regional feature integration approach. , 2083-2090 (2013).
Li, G., Yu, Y. Visual saliency based on multiscale deep features. , 5455-5463 (2015).
Lee, G., Tai, Y. W., Kim, J. Deep saliency with encoded low level distance map and high-level features. , 660-668 (2016).
Liu, N., Han, J. Dhsnet: Deep hierarchical saliency network for salient object detection. , 678-686 (2016).

Play Video

PDF

DOI

DOWNLOAD MATERIALS LIST

Citar este artigo

Wang, Y., Wang, Z. End-To-End Deep Neural Network for Salient Object Detection in Complex Environments. J. Vis. Exp. (202), e65554, doi:10.3791/65554 (2023).