Engineering

用于复杂环境中显著目标检测的端到端深度神经网络

Published: December 15, 2023 doi: 10.3791/65554

¹Zhengzhou University of Economics and Business, ²The 713 Research Institute of CSSC

Summary

本协议描述了一种新型的端到端显著目标检测算法。它利用深度神经网络来提高复杂环境背景下显著目标检测的精度。

Abstract

突出目标检测已成为计算机视觉领域中一个新兴的兴趣领域。然而，当任务是在复杂和多方面的环境中检测突出物体时，流行的算法表现出较低的精度。鉴于这一紧迫问题，本文提出了一种端到端深度神经网络，旨在检测复杂环境中的突出对象。该研究引入了一种端到端的深度神经网络，旨在检测复杂环境中的突出物体。该网络由像素级多尺度全卷积网络和深度编码器-解码器网络两个相互关联的组件组成，该网络集成了上下文语义，在多尺度特征图上产生视觉对比，同时采用深浅图像特征来提高目标边界识别的准确性。全连接条件随机场（CRF）模型的集成进一步增强了显著地图的空间连贯性和等高线描绘。针对SOD和ECSSD数据库上的10种现代算法，对所提出的算法进行了广泛的评估。评估结果表明，所提算法在精度和准确度方面优于其他方法，从而确立了其在复杂环境中显著目标检测的有效性。

Introduction

突出物体检测模仿人类的视觉注意力，快速识别关键图像区域，同时抑制背景信息。该技术被广泛用作图像裁剪¹、语义分割² 和图像编辑³ 等任务中的预处理工具。它简化了背景替换和前景提取等任务，提高了编辑效率和精度。此外，它还通过增强目标定位来帮助语义分割。显著目标检测在提高计算效率和节省内存方面的潜力凸显了其重要的研究和应用前景。

多年来，显著目标检测已经从最初的传统算法发展到深度学习算法的结合。这些进步的目的是缩小显著物体检测与人类视觉机制之间的差距。这导致了深度卷积网络模型的采用，用于显著目标检测的研究。Borji等人^[4 ]总结并推广了大多数依赖于图像底层特征的经典传统算法。尽管检测精度有所提高，但手动经验和认知能力仍然给复杂环境中的显著物体检测带来挑战。

卷积神经网络（CNN）的使用在显著目标检测领域很普遍。在这种情况下，深度卷积神经网络被用于通过自主学习进行权重更新。卷积神经网络通过级联卷积层和池化层从图像中提取上下文语义，能够在更高层次上学习复杂的图像特征，这些特征在不同环境下的显著目标检测中具有更高的辨别和表征能力。

2016 年，全卷积神经网络⁵ 作为一种流行的显著性目标检测方法获得了巨大的关注，研究人员在此基础上开始了像素级显著性目标检测。许多模型通常建立在现有网络上（例如，VGG16⁶、ResNet⁷），旨在增强图像表示并增强边缘检测效果。

Liu等人^[8 ]使用已经训练过的神经网络作为框架来全局计算图像，然后使用分层网络细化对象边界。两个网络的组合形成了最终的深度显著性网络。这是通过以重复的方式将先前获得的显著地图作为先验知识输入网络来实现的。Zhang等^[9 ]利用深度网络有效地融合了图像语义和空间信息，分别实现了从浅层到深层和从深层到浅层的双向信息传递。Wu等人¹⁰提出了使用相互学习深度模型检测显著对象的方法。该模型利用卷积神经网络中的前景和边缘信息来促进检测过程。Li等^[11 ]利用神经网络的“空穴算法”来解决在显著目标检测的背景下固定深度神经网络中不同层的感受野的挑战。然而，超像素分割用于对象边缘采集，大大增加了计算工作量和计算时间。任等人^[12 ]设计了一个多尺度的编码器-解码器网络来检测显著的物体，并利用卷积神经网络有效地结合了深层和浅层特征。尽管通过这种方法解决了目标检测中边界模糊的挑战，但信息的多尺度融合不可避免地导致了更高的计算需求。

文献综述¹³ 提出，总结了显著性检测从传统方法到深度学习方法，可以非常清楚地看到显著性目标检测从起源到深度学习时代的演变。文献¹⁴中提出了各种基于RGB-D的显著目标检测模型，并具有良好的性能。以上文献对各种类型的显著性目标检测算法进行了综述和分类，并介绍了它们的应用场景、使用的数据库和评价指标。本文还对所提出的算法进行了定性和定量分析，涉及其建议的数据库和评估指标。

上述算法在公共数据库中都取得了显著的成果，为复杂环境下的显著目标检测提供了依据。尽管在国内和国际上，这一领域的研究成果众多，但仍有一些问题需要解决。（1）传统的非深度学习算法由于依赖颜色、纹理、频率等人工标注的特征，容易受到主观体验和感知的影响，因此精度往往较低。因此，其显著目标检测能力的精度降低。使用传统的非深度学习算法检测复杂环境中的突出对象具有挑战性，因为它们难以处理复杂的场景。（2）传统的显著目标检测方法由于依赖于手动标记的特征（如颜色、纹理和频率）而表现出有限的准确性。此外，区域级检测的计算成本可能很高，通常会忽略空间一致性，并且往往无法检测对象边界。这些问题需要得到解决，以提高显著目标检测的精度。（3）在复杂环境中进行显著目标检测对大多数算法来说是一个挑战。由于具有可变背景（相似的背景和前景颜色、复杂的背景纹理等）的显著目标检测环境日益复杂，检测目标大小不一致等不确定性以及前景和背景边缘定义不明确等诸多不确定性，大多数显著目标检测算法都面临着严峻的挑战。

在具有相似背景和前景颜色、复杂背景纹理和模糊边缘的复杂环境中，大多数当前算法在检测显着对象方面的准确性较低。尽管目前基于深度学习的显著对象算法表现出比传统检测方法更高的准确性，但它们利用的底层图像特征在有效表征语义特征方面仍然不足，其性能仍有改进的空间。

综上所述，该文提出一种端到端的深度神经网络，旨在提高复杂环境下显著目标检测的准确性，改善目标边缘，更好地表征语义特征。本文的贡献如下：（1）第一个网络采用VGG16作为基础网络，并使用“孔算法”¹¹修改其五个池化层。像素级多尺度全卷积神经网络从不同的空间尺度学习图像特征，解决了深度神经网络各层静态感受野的挑战，提高了场内重要焦点区域的检测精度。（2）最近提高显著目标检测准确性的努力集中在利用更深的神经网络，如VGG16，从编码器网络中提取深度特征，从解码器网络中提取浅层特征。这种方法有效地提高了对象边界的检测精度，并改善了语义信息，特别是在背景多变、对象大小不一致、前景和背景边界模糊的复杂环境中。（3）近年来，为了提高显著目标检测的精度，人们强调使用更深的网络，包括VGG16，从编码器网络中提取深层特征，从解码器网络中提取浅层特征。这种方法已经证明了对对象边界的改进检测和更多的语义信息，特别是在具有不同背景、对象大小以及前景和背景之间边界模糊的复杂环境中。此外，还实现了全连接条件随机场（CRF）模型的集成，以增强显著地图的空间连贯性和等高线精度。在具有复杂背景的 SOD 和 ECSSD 数据集上评估了这种方法的有效性，并发现具有统计学意义。

相关工作
Fu et ^al.15 提出了一种使用 RGB 和深度学习进行显著目标检测的联合方法。Lai等^[16 ]引入了一种弱监督模型，用于显著性对象检测，从注释中学习显著性，主要利用涂鸦标签来节省注释时间。虽然这些算法融合了两个互补的显著性目标检测网络，但它们缺乏对复杂场景下显著性检测的深入研究。Wang等^[17 ]设计了一种自下而上和自上而下的神经网络特征的双模迭代融合，逐步优化前一次迭代的结果，直到收敛。Zhang等^[18 ]利用深度网络有效地融合了图像语义和空间信息，分别实现了从浅层到深层和从深层到浅层的双向信息传递。Wu等¹⁹提出了使用相互学习深度模型检测显著对象的方法。该模型利用卷积神经网络中的前景和边缘信息来促进检测过程。这些基于深度神经网络的显著性目标检测模型在公开可用的数据集上取得了卓越的性能，能够在复杂的自然场景中实现显著目标检测。尽管如此，设计更优越的模型仍然是该研究领域的一个重要目标，也是本研究的主要动机。

总体框架
如 图 1 所示，所提出的模型的示意图主要源自 VGG16 架构，包括像素级多尺度全卷积神经网络（DCL）和深度编码器-解码器网络（DEDN）。该模型消除了 VGG16 的所有最终池化层和全连接层，同时适应了 W × H 的输入图像尺寸。操作机制涉及通过DCL对输入图像进行初始处理，便于提取深层特征，而浅层特征则从DEDN网络获得。随后，这些特征的合并受到全连接条件随机场（CRF）模型的影响，增强了所生成的显著性图的空间连贯性和等高线精度。

为了确定该模型的有效性，它在具有复杂背景的 SOD²⁰ 和 ECSSD²¹ 数据集上进行了测试和验证。输入图像通过DCL后，得到具有不同感受野的不同比例特征图，并结合上下文语义，生成具有维度间连贯性的W×H显著图。DCL 采用一对具有 7 x 7 内核的卷积层来替代原始 VGG16 网络的最终池化层，从而增强了特征图中空间信息的保存。这与上下文语义相结合，产生了具有跨维度连贯性的 W × H 显著图。同样，深度编码器-解码器网络（DEDN）利用解码器中具有 3 x 3 内核的卷积层，并在最后一个解码模块之后使用单个卷积层。利用图像的深层和浅层特征，可以生成空间维度为 W × H 的突出地图，从而解决物体边界模糊的挑战。该研究描述了一种开创性的显著目标检测技术，该技术将 DCL 和 DEDN 模型合并到一个统一的网络中。通过训练过程学习这两个深度网络的权重，并合并生成的显著性图，然后使用完全连接的条件随机场（CRF）进行细化。这种改进的主要目的是提高空间一致性和等高线定位。

像素级多尺度全卷积神经网络
VGG16 架构最初由五个池化层组成，每个池化层的步幅为 2。每个池化层压缩图像大小以增加通道数，从而获得更多上下文信息。DCL 模型的灵感来自文献¹³ ，是对 VGG16 框架的改进。在本文中，使用了像素级 DCL 模型¹¹ ，如图 2 所示，位于深度卷积神经网络 VGG16 的架构中。最初的四个最大池层与三个内核互连。第一个内核是 3 × 3 × 128;第二个内核是 1 × 1 × 128;第三个内核是 1 × 1 × 1。为了在连接到三个内核的初始四个池化层之后实现统一大小的特征图，每个池化层的大小相当于原始图像的八分之一，连接到这四个最大池化层的第一个内核的步长分别设置为 4、2、1 和 1。

为了在不同的核中保留原始感受野，文献¹¹ 中提出的“空穴算法”用于通过添加零来扩展核的大小，从而保持核的完整性。这四个特征图以不同的步长连接到第一个内核。因此，在最后阶段生成的特征图具有相同的尺寸。这四个特征图构成了一组从不同尺度获得的多尺度特征，每个特征代表不同大小的感受野。从四个中间层获得的结果特征图与从 VGG16 派生的最终特征图连接起来，从而生成 5 通道输出。随后的输出随后受到具有 S 形激活函数的 1 × 1 × 1 内核的影响，最终产生显著图（分辨率为原始图像的八分之一）。使用双线性插值对图像进行上采样和放大，确保生成的图像（称为显著性图）保持与初始图像相同的分辨率。

深度编码器-解码器网络
同样，VGG16网络被用作骨干网络。VGG16的特点是浅特征图通道数量少，但分辨率高，深特征通道数量多，但分辨率低。池化层和下采样提高了深度网络的计算速度，但代价是降低了其特征图分辨率。为了解决这个问题，根据文献¹⁴中的分析，编码器网络用于修改原始VGG16中最后一个池化层的完全连通性。这种修改包括用两个具有 7 × 7 个内核的卷积层替换它（较大的卷积内核增加了感受野）。两个卷积核都配备了归一化（BN）操作和修改后的线性单元（ReLU）。此调整将生成编码器输出特征图，以更好地保留图像空间信息。

虽然编码器改进了显著对象全局定位的高级图像语义，但其显著对象的边界模糊问题并未得到有效改善。为了解决这个问题，受边缘检测工作¹² 的启发，将深层特征与浅层特征融合在一起，提出了编码器-解码器网络模型（DEDN），如 图 3 所示。编码器架构包括三个与初始四个内核互连的内核，而解码器则使用从最大池化层检索到的最大值系统地增强特征图分辨率。

在这种用于显著对象检测的创新方法中，在解码器阶段，将具有 3 × 3 内核的卷积层与批量归一化层和自适应线性单元结合使用。在解码器架构中的最终解码模块结束时，采用孤信道卷积层来获取空间维度 W × H 的显着映射。显著图是通过编码器-解码器模型的协同融合生成的，产生了结果，以及两者的互补融合，即深层信息和浅层信息的互补融合。这不仅实现了对突出物体的精确定位，增加了感受野，而且有效地保留了图像细节信息，加强了突出物体的边界。

集成机制
编码器架构由三个内核组成，它们与 VGG16 模型的初始四个最大池化层相关联。相比之下，解码器被特意制定为通过利用从相应的池化层获得的最大值来逐步增强从上采样层获取的特征图的分辨率。然后在解码器中使用利用 3 x 3 内核的卷积层、批量归一化层和修改后的线性单元，然后是单通道卷积层以生成维度 W × H 的显着映射。两个深度网络的权重是通过交替的训练周期来学习的。第一个网络的参数保持固定，而第二个网络的参数总共经过了五十个周期的训练。在此过程中，用于融合的显著性图（^S1 和 ^S2）的权重通过随机梯度进行更新。损失函数¹¹ 为：

Equation 1 (1)

在给定的表达式中，符号 G 表示手动标记的值，而 W 表示完整的网络参数集。_i β权重作为平衡因子，用于调节计算过程中显著像素与非显著像素的比例。

图像 I 的特征有三个参数： |我|， |我|_- 和 |我|₊，分别表示像素总数、非显著像素数和显著像素数。 Equation 2

由于从上述两个网络获得的显著图没有考虑相邻像素的相干性，因此使用全连接像素级显著性细化模型CRF¹⁵ 来提高空间相干性。能量方程¹¹ 如下，求解二进制像素标记问题。

Equation 3 (2)

其中 L 表示分配给所有像素的二进制标签（显著值或非显著值）。变量 P（l_i）表示给定像素 x_i被分配特定标签 l_i 的可能性，表示像素 x_i显著性的可能性。一开始，P（1） = S_i和 P（0） = 1 - S_i，其中 S_i表示融合显著性图 S 中像素 x_i处的显著性值。θ_i，j（l_i，l _j）是成对势位，定义如下。

Equation 4 (3)

其中，如果 l_i≠ l_j，则 μ（l_i，l _j） = 1，否则 μ（l_i，l _j） = 0。θ_i，j 的计算涉及两个核的使用，其中初始核取决于像素位置 P 和像素强度 I。这导致具有相似颜色的像素具有相似的显著性值。_{σ α} 和σ_β这两个参数调节了颜色相似性和空间接近性对结果的影响程度。第二个内核的目标是消除孤立的小区域。能量的最小化是通过高维滤波实现的，它加快了条件随机场（CRF）分布的平均场。经过计算，表示为 S_crf 的显著性地图与检测到的显著性物体相比表现出增强的空间连贯性和等高线。

实验性配置
本文利用Python构建了一个基于VGG16神经网络的深度目标检测网络。使用SOD²⁰ 和ECSSD²¹ 数据集将所提出的模型与其他方法进行了比较。SOD 图像数据库以其复杂而杂乱的背景、前景和背景之间的颜色相似以及较小的物体尺寸而闻名。此数据集中的每张图像都被分配了一个手动标记的真实值，用于定量和定性性能评估。另一方面，ECSSD数据集主要由来自互联网的图像组成，具有更复杂和逼真的自然场景，图像背景和突出物体之间的对比度较低。

本文用于比较模型的评价指标包括常用的Precision-Recall曲线、 F_β和 E_MAE。为了定量评估预测的显著性图，采用精确召回率（P-R）曲线²² 将阈值从 0 更改为 255 以对显著性图进行二值化。 F_β是一个综合评估指标，使用从二值显著性图和真实值图派生的精度和召回率方程计算。

Equation 5 (4)

其中 β 是用于调整准确率和召回率的权重参数，设置 β² = 0.3。 E_MAE的计算等效于计算结果显著性图和地面实况图之间的平均绝对误差，如下图所定义：

Equation 6 (5)

设 T_s（u，v）表示显著映射（u，v）像素的提取值，设 T_G（u，v）表示真实映射（u，v）像素的相应值。

Subscription Required. Please recommend JoVE to your librarian.

Protocol

1. 实验设置和程序

加载预训练的 VGG16 模型。
注意：第一步是从 Keras^{库 6} 加载预训练的 VGG16 模型。
1. 要使用 PyTorch 等流行的深度学习库在 Python 中加载预训练的 VGG16 模型（请参阅 材料表），请遵循以下常规步骤：
  1. 导入火炬。导入 torchvision.models 作为模型。
  2. 加载预训练的 VGG16 模型。vgg16_model = models.vgg16（预训练 = True）。
  3. 确保 VGG16 模型的摘要为“print（vgg16_model）”。
定义 DCL 和 DEDN 模型。
1. 对于 DCL 算法的伪代码，请提供 输入：图像数据集 SOD 和 输出：训练的 DCL 模型。
  1. 使用 VGG16 骨干网初始化 DCL 模型 。
  2. 对图像数据集 D 进行预处理（例如，调整大小、归一化）。
  3. 将数据集拆分为训练集和验证集。
  4. 定义用于训练 DCL 模型的损失函数（例如，二元交叉熵）。
  5. 设置训练的超参数：学习率（0.0001）、训练周期数（50）、批处理大小为（8）、优化器（Adam）。
  6. 训练 DCL 模型：对于定义的 epoch 数中的每个 epoch，对训练集中的每个批处理执行 do。输入以下内容：
    1. 前向传递：将批处理图像馈送到 DCL 模型。使用预测的显著性图和地面实况图计算损失。
    2. 向后传递：使用梯度下降结束更新模型参数。计算验证集端的验证损失和其他评估指标。
  7. 保存经过训练的 DCL 模型。
  8. 返回经过训练的 DCL 模型。
2. 对于 DEDN 算法的伪代码，请输入：图像数据集（X）、真值显著性图（Y）、训练迭代次数（N）。
  1. 对于编码器网络，请确保编码器基于经过修改的 VGG16 骨架（如下所述）。
    注意：encoder_input = 输入（shape=input_shape）
    encoder_conv1 = Conv2D（64，（3， 3）， activation='relu'， padding='same'）（encoder_input）
    encoder_pool1 = MaxPooling2D（（2， 2））（encoder_conv1）
    encoder_conv2 = Conv2D（128，（3， 3）， activation='relu'， padding='same'）（encoder_pool1）
    encoder_pool2 = MaxPooling2D（（2， 2））（encoder_conv2）
    encoder_conv3 = Conv2D（256，（3， 3）， activation='relu'， padding='same'）（encoder_pool2）
    encoder_pool3 = MaxPooling2D（（2， 2））（encoder_conv3）
  2. 对于解码器网络，请确保解码器基于经过修改的 VGG16 骨架（如下所述）。
    注意：decoder_conv1 = Conv2D（256，（3， 3）， activation='relu'， padding='same'）（encoder_pool3）
    decoder_upsample1 = UpSampling2D（（2， 2））（decoder_conv1）
    decoder_conv2 = Conv2D（128，（3， 3）， activation='relu'， padding='same'）（decoder_upsample1）
    decoder_upsample2 = UpSampling2D（（2， 2））（decoder_conv2）
    decoder_conv3 = Conv2D（64，（3， 3）， activation='relu'， padding='same'）（decoder_upsample2）
    decoder_upsample3 = UpSampling2D（（2， 2））（decoder_conv3）
    decoder_output = Conv2D（1，（1， 1）， activation='sigmoid'， padding='same'）（decoder_upsample3）
3. 定义 DEDN 模型。模型 = 模型（输入 = encoder_input，输出 = decoder_output）。
4. 编译模型。model.compile （优化器 = Adam，损失 = binary_crossentropy）。
5. 选择 训练循环。
  说明：对于范围（N）的迭代： # 随机选择一批图像和地面实况图;batch_X，batch_Y = randomly_select_batch（X， Y， batch_size）。
  1. 在批处理上训练模型。损失 = model.train_on_batch（batch_X， batch_Y）。打印丢失以进行监控。
6. 保存经过训练的模型。model.save （'dedn_model.h5'）。
合。
1. 结合 DCL 和 DEDN 网络的输出，并使用全连接条件随机场（CRF）模型优化显著性图。

2. 图像处理

单击 run code 以调出 GUI 界面（图 4）。
单击 打开图像 以选择路径，从而选择要检测的图像。
单击 显示图像 以显示已选择用于检测的图像。
单击 “开始检测 ”以检测所选图像。
注意：检测结果将与检测到的图像一起出现，即突出物体的结果（图 5）。
单击 选择保存路径 以保存显着对象检测的图像结果。

Subscription Required. Please recommend JoVE to your librarian.

Representative Results

本研究引入了一个由两个互补网络组成的端到端深度神经网络：像素级多尺度全卷积网络和深度编码器-解码器网络。第一个网络集成了上下文语义，从多尺度特征图中推导出视觉对比，解决了跨不同层的深度神经网络中固定感受野的挑战。第二个网络利用深和浅图像特征来缓解目标对象边界模糊的问题。最后，应用全连接条件随机场（CRF）模型提高显著性图的空间相干性和等高线。

该研究对所提出的算法与该领域现有的十种算法进行了定性和定量比较。实验结果验证了所提算法在提高显著目标检测精度方面的有效性。此外，该算法在电力视觉任务中显示出潜在的适用性，在智能电网领域的各种复杂环境中提供了广阔的前景。

消融实验
目前的研究在SOD数据库上进行了一系列消融实验，以评估该算法的有效性。上述实验的结果详见表1。（1）用于比较模型的评价指标是精确率-召回率曲线²²、 F_β和 E_MAE。表1 （第1号）结果表明，从算法中去除DCL模型会导致 F_β值降低， E_MAE值增加。上述观察结果表明，动态卷积层（DCL）可能具有通过将动态感受野集成到不同层中来增强深度神经网络功效的能力，这反过来又可以提高多尺度特征图的视觉对比度。（2）从表1（No.2）可以看出，本文的算法只去掉了DEDN结构，与表1（No.3）中的完整模块相比，表1（No.2）中的F_β 值减小，E_MAE值增大，这表明DEDN能够有效、准确地定位突出点，增加感受野，并保留图像的详细信息，同时加强突出的边界。

图6 显示了消融实验的可视化结果。图像从左到右排列，展示了原始图像、DCL算法结果、DEDN算法结果、本文提出的算法以及相应的地面实况图像。仔细观察图6，很明显，DCL算法在检测SOD数据库中的图像时倾向于描述目标边界，但难以有效地过滤背景。另一方面，DEDN算法加强了目标边界，但在抑制后台冗余信息方面面临挑战。相比之下，本文提出的算法以互补的方式结合了这两种算法的优点，有效地突出了目标，同时抑制了来自复杂背景的冗余信息。本文的结果超过了任何一种算法的结果。

与其他高级算法的比较
为了评估所提算法的性能，对11种突出的目标检测方法进行了比较分析，即GMR²³、GS²⁴、SF²⁵、PD²⁶、SS²⁷、DRFI²⁸、MDF²⁹、ELD³⁰、DHS³¹和DCL¹¹。其中，GMR²³、GS²⁴、SF²⁵、PD²⁶、SS²⁷ 和 DRFI²⁸ 是性能良好的传统无监督显著性检测方法，通常被许多深度显著性模型用作基准。其余四种方法利用深度卷积神经网络，并在各自的研究文献中表现出卓越的性能。本研究采用的评估指标包括 PR 曲线、最大 F 测量值和平均绝对误差（MAE）。所选测试数据集包括SOD和ECSSD数据集。

定量比较
图 7 显示了将本研究中提出的算法与 SOD 和 ECSSD 公开可用的图像数据集上的其他 10 种突出目标检测方法进行比较的精确召回（PR）曲线。曲线清楚地表明，本研究提出的算法优于其他10种算法，从而验证了本文所提出的方法的优异检测性能。特别值得注意的是，即使召回率接近 1，该算法也能够保持高精度，这表明它可以准确地分割视觉上突出的物体，同时确保它们的完整性。表2 对SOD和ECSSD测试数据集上的方法进行了定量比较，表明我们的算法在最大F测量（F_β）和平均绝对误差（E_MAE）方面取得了更好的性能，这主要归功于DCL网络和DEDN网络的互补组合。

定性比较
此外，还进行了定性评估，以并列分析技术的视觉结果，如 图 8 所示。这些图展示了从左到右排列的一系列图像，从原始图像开始，然后是 GMR²³、GS²⁴、SF²⁵、PD²⁶、SS²⁷、DRFI²⁸、MDF²⁹、ELD³⁰、DHS³¹ 和 DCL¹¹、本文提出的算法和地面实况图。

在 图8A中，给出了SOD数据集的定性比较。很明显，第 1 列中的原始图像在背景和前景元素之间表现出相对相似的颜色分布。此外，第一和第三个显著性图呈现出更复杂的背景纹理，可能会阻碍对突出物体的检测。本研究中概述的算法在复杂环境中检测显着物体方面取得了显着改进，超过了其他现有算法的性能。第 1 列中的初始图像，尤其是第二幅图像，包含与前景动物混合的背景分支，对正确评估前景对象提出了挑战。该算法成功地解决了背景干扰问题，并有效地突出了前景物体区域。实验表明，所提算法在处理复杂背景图像时具有较高的准确度和精度。

在 图8B中，给出了ECSSD数据集中的定性比较，展示了各种显著目标检测方法的视觉对比度结果。结果表明，所提算法在多样化和复杂的自然场景中实现了优异的检测性能。这些自然场景图像包括一些场景，例如第一和第二张图像中与图像边界接触的突出物体，以及第三张图像中前景和背景之间的低对比度和颜色相似性。通过这些可视化结果，本文提出的算法有效地突出了完整的突出对象，同时确保了清晰的对象边界。无论显著对象的规模如何，无论它们是大是小，该算法始终表现出很高的分割精度，验证了其有效性。此外，与其他方法相比，本研究中提出的算法表现出更高的鲁棒性，减少了显著性区域（或背景区域）的错误检测。

图1：整体结构框架。所提出模型的示意图。请点击这里查看此图的较大版本.

图 2：像素级 DCL 模型。 在深度卷积神经网络 VGG16 的架构中使用了像素级 DCL 模型。最初的四个最大池层与三个内核互连。请点击这里查看此图的较大版本.

图 3：编码-解码网络模型（DEDN）。 受边缘检测工作的启发，将深层特征与浅层特征融合在一起，提出了编码器-解码器网络模型（DEDN）。请点击这里查看此图的较大版本.

图 4：GUI 界面。 运行代码以生成 GUI 界面，以便于操作。请点击这里查看此图的较大版本.

图 5：GUI 界面演示。 GUI界面显示，便于比较测试图像结果。请点击这里查看此图的较大版本.

图6：消融实验的可视化结果。（A）原始图像，（B）DCL算法，（C）DEDN算法，（D）当前研究中使用的算法，以及（E）相应的地面实况图像从左到右显示。从图6可以看出，（B）DCL算法在检测图像时只能描述目标边界，背景难以过滤。（C）DEDN算法具有强化目标边界的作用，但同样难以抑制背景冗余信息;而（D）本文的算法以互补的方式将这两种算法结合在一起，在抑制复杂背景冗余信息的同时突出了目标。请点击这里查看此图的较大版本.

图7：P-R曲线。（A）P-R曲线分别位于SOD数据库中，（B）P-R曲线分别位于ECSSD数据库中。本研究算法在（A）和（B）中的P-R曲线均高于其他10种算法，证明本文的算法相对于这10种算法具有较高的准确率。请点击这里查看此图的较大版本.

图8：定性比较。 SOD数据库（A）和ECSSD数据库（B）中不同显著目标检测算法的定性比较。原始输入图像从左到右依次为GMR、GS、SF、PD、SS、DRFI、MDF、ELD、DHS和DCL，本研究提出的算法和地面实况图。如（A）所示，概述的算法在复杂环境中检测显著物体方面提供了显著改进，超过了其他现有算法的性能。从（B）中可以看出，与其他方法相比，本研究提出的算法具有更高的鲁棒性，因为它减少了对显著（或背景）区域的错误检测。请点击这里查看此图的较大版本.

不。	模块设置	F_β	_風
NO.1	仅删除 DCL	0.835	0.117
NO.2 （英语）	仅删除 DEDN	0.832	0.126
NO.3 （英语）	完整模块	0.854	0.110

表1：消融实验结果。

型	草皮		ECSSD的
型	F_β	_風	F_β	_風
GMR全球监测率	0.740	0.148	0.476	0.189
GS系列	0.677	0.188	0.355	0.344
顺丰	0.779	0.150	0.309	0.230
PD公司	0.720	0.162	0.358	0.248
不锈钢	0.574	0.225	0.268	0.344
DRFI公司	0.801	0.127	0.516	0.166
中密度纤维板	0.709	0.150	0.832	0.105
高龄	0.737	0.154	0.869	0.078
国土安全部	0.812	0.127	0.907	0.059
DCL公司	0.786	0.131	0.901	0.068
本研究	0.854	0.110	0.938	0.044

表 2：两个图像数据集中各种算法的最大 F 测量值（F_β）和 MAE（平均绝对误差）值。

Subscription Required. Please recommend JoVE to your librarian.

Discussion

本文介绍了一种端到端深度神经网络，专门设计用于检测复杂环境中的突出物体。该网络由两个相互连接的组件组成：像素级多尺度全卷积网络（DCL）和深度编码器-解码器网络（DEDN）。这些组件协同工作，结合上下文语义，在多尺度特征图中生成视觉对比。此外，它们还利用深和浅图像特征来提高物体边界描绘的精度。全连接条件随机场（CRF）模型的集成进一步增强了显著性图和等高线描绘的空间连贯性。

为了实现这一目标，基于VGG16架构构建了深度上下文学习（DCL）网络和深度编码器-解码器网络（DEDN）两个深度网络。如操作步骤1.2所述，通过DCL处理的输入图像产生不同比例的特征图，其特征是不同的感受野。这些映射随后与上下文语义相结合，最终生成维度为 W × H 的显著性映射，具有维度间的连贯性。具体来说，DCL¹¹ 利用一对卷积层，每个卷积层都配备一个 7 x 7 内核，以取代原始 VGG16 网络的最终池化层。此修改对于在特征图中保留空间信息至关重要。通过与上下文语义的协作，它产生了具有跨维度连贯性的显著性地图。

同时，深度编码器-解码器网络（DEDN）¹⁴ 在其解码器部分采用 3 x 3 核卷积层，然后在最后一个解码模块之后采用单独的卷积层。DEDN 对深层和浅层特征的这种集成有助于生成空间维度为 W × H 的显著性图，从而解决与模糊对象边界相关的挑战。本文介绍的研究介绍了一种用于显著目标检测的开创性技术，如操作步骤 1.3 中所述。它通过训练过程将 DCL 和 DEDN 模型合并到一个统一的网络框架中，该过程学习这两个深度网络的权重，然后合并获取的显著性图。通过以完全连接的方式应用条件随机场（CRF）来实现进一步的细化。这种改进的主要目的是增强空间一致性和等高线定位。

这两个网络都使用 VGG16 架构作为其神经网络主干进行了增强，最终通过条件随机场（CRF）进行融合。虽然所提出的算法在复杂环境中的目标检测领域显示出相当大的潜力，但未来的研究计划将致力于提高其计算效率。目的是在不影响检测性能的情况下实现卓越的处理速度。

所提出的算法针对 SOD²⁰ 和 ECSSD²¹ 数据库上的 10 种现代算法进行了广泛的评估。评价结果表明，所提算法在精度和准确度方面优于其他方法，在复杂环境中的显著目标检测中具有有效性。此外，该算法还有望在电力系统领域的视觉任务中转移。它在智能电网中复杂环境中的绝缘子分割和火灾危险的早期检测等应用中具有巨大的潜力。

Subscription Required. Please recommend JoVE to your librarian.

Disclosures

作者没有什么可透露的。

Acknowledgments

本研究由2024年河南省高等学校重点科研项目资助项目建立（项目编号：24A520053）资助。本研究还得到了河南省特色创意与融合特色示范课程建设的支持。

Materials

Name	Company	Catalog Number	Comments
Matlab	MathWorks	Matlab R2016a	MATLAB's programming interface provides development tools for improving code quality maintainability and maximizing performance. It provides tools for building applications using custom graphical interfaces. It provides tools for combining MATLAB-based algorithms with external applications and languages
Processor	Intel	11th Gen Intel(R) Core (TM) i5-1135G7 @ 2.40GHz	64-bit Win11 processor
Pycharm	JetBrains	PyCharm 3.0	PyCharm is a Python IDE (Integrated Development Environment) a list of required python: modulesmatplotlib skimage torch os time pydensecrf opencv glob PIL torchvision numpy tkinter
PyTorch	Facebook	PyTorch 1.4	PyTorch is an open source Python machine learning library , based on Torch , used for natural language processing and other applications.PyTorch can be viewed both as the addition of GPU support numpy , but also can be viewed as a powerful deep neural network with automatic derivatives .

DOWNLOAD MATERIALS LIST

References

Wang, W. G., Shen, J. B., Ling, H. B. A deep network solution for attention and aesthetics aware photo cropping. IEEE Transactions on Pattern Analysis and Machine Intelligence. 41 (7), 1531-1544 (2018).
Wang, W. G., Sun, G. L., Gool, L. V. Looking beyond single images for weakly supervised semantic segmentation learning. IEEE Transactions on Pattern Analysis and Machine. , (2022).
Mei, H. L., et al. Exploring dense context for salient object detection. IEEE Transactions on Circuits and Systems for Video Technology. 32 (3), 1378-1389 (2021).
Borji, A., Itti, L. State-of-the-art in visual attention modeling. IEEE Transactions on Pattern Analysis and Machine Intelligence. 35 (1), 185-207 (2012).
Fully convolutional networks for semantic segmentation. Long, J., Shelhamer, E., Darrell, T. Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, , 3431-3440 (2015).
Simonyan, K., Zisserman, A. Very deep convolutional networks for large-scale image recognition. arXiv preprint. , 1409-1556 (2014).
Deep residual learning for image recognition. He, K., Zhang, X., Ren, S., Sun, J. Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, , 770-778 (2016).
Dhsnet: Deep hierarchical saliency network for salient object detection. Liu, N., Han, J. Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, , 678-686 (2016).
A bi-directional message passing model for salient object detection. Zhang, L., Dai, J., Lu, H., He, Y., Wang, G. Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, , 1741-1750 (2018).
Wu, R., et al. A mutual learning method for salient object detection with intertwined multi-supervision. Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, , 8150-8159 (2019).
Deep contrast learning for salient object detection. Li, G., Yu, Y. Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, , 478-487 (2019).
Ren, Q., Hu, R. Multi-scale deep encoder-decoder network for salient object detection. Neurocomputing. 316, 95-104 (2018).
Wang, W. G., et al. Salient object detection in the deep learning era: An in-depth survey. IEEE Transactions on Pattern Analysis and Machine Intelligence. 44 (6), 3239-3259 (2021).
Zhou, T., et al. RGB-D salient object detection: A survey. Computational Visual Media. 7, 37-69 (2021).
Fu, K., et al. Siamese network for RGB-D salient object detection and beyond. IEEE Transactions on Pattern Analysis and Machine Intelligence. 44 (9), 5541-5559 (2021).
Lai, Q., et al. Weakly supervised visual saliency prediction. IEEE Transactions on Image Processing. 31, 3111-3124 (2022).
A bi-directional message passing model for salient object detection. Zhang, L., Dai, J., Lu, H., He, Y., Wang, G. Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, , 1741-1750 (2018).
A mutual learning method for salient object detection with intertwined multi-supervision. Wu, R. Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, , 8150-8159 (2019).
Wang, W., Shen, J., Dong, X., Borji, A., Yang, R. Inferring salient objects from human fixations. IEEE Transactions on Pattern Analysis and Machine Intelligence. 42 (8), 1913-1927 (2019).
Design and perceptual validation of performance measures for salient object segmentation. Movahedi, V., Elder, J. H. 2010 IEEE Computer Society Conference on Computer Vision and Pattern Recognition-Workshops, , 49-56 (2010).
Shi, J., Yan, Q., Xu, L., Jia, J. Hierarchical image saliency detection on extended CSSD. IEEE Transactions on Pattern Analysis and Machine Intelligence. 38 (4), 717-729 (2015).
Frequency-tuned salient region detection. Achanta, R., Hemami, S., Estrada, F., Susstrunk, S. 2009 IEEE Conference on Computer Vision and Pattern Recognition, , 1597-1604 (2009).
Saliency detection via graph-based manifold ranking. Yang, C., Zhang, L., Lu, H., Ruan, X., Yang, M. H. Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, , 3166-3173 (2013).
Wei, Y., et al. Geodesic saliency using background priors. Computer Vision-ECCV 2012. , Springer. Berlin Heidelberg. 29-42 (2012).
What makes a patch distinct. Margolin, R., Tal, A., Zelnik-Manor, L. Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, , 1139-1146 (2013).
Saliency filters: Contrast based filtering for salient region detection. Perazzi, F., Krähenbühl, P., Pritch, Y., Hornung, A. 2012 IEEE Conference on Computer Vision and Pattern Recognition, , 733-740 (2012).
Hou, X., Harel, J., Koch, C. Image signature: Highlighting sparse salient regions. IEEE Transactions on Pattern Analysis and Machine Intelligence. 34 (1), 194-201 (2011).
Salient object detection: A discriminative regional feature integration approach. Jiang, H., et al. Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, , 2083-2090 (2013).
Visual saliency based on multiscale deep features. Li, G., Yu, Y. Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, , 5455-5463 (2015).
Deep saliency with encoded low level distance map and high-level features. Lee, G., Tai, Y. W., Kim, J. Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, , 660-668 (2016).
Dhsnet: Deep hierarchical saliency network for salient object detection. Liu, N., Han, J. Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, , 678-686 (2016).

Engineering

用于复杂环境中显著目标检测的端到端深度神经网络

Summary

Abstract

Introduction

Protocol

Representative Results

Discussion

Disclosures

Acknowledgments

Materials

References

Tags

Cite this Article

Summary

Abstract

Introduction

Protocol

Representative Results

Discussion

Disclosures

Acknowledgments

Materials

References

Tags

Cite this Article

Get cutting-edge science videos from JoVE sent straight to your inbox every month.