Настоящий протокол описывает новый сквозной алгоритм обнаружения заметных объектов. Он использует глубокие нейронные сети для повышения точности обнаружения заметных объектов в сложных условиях окружающей среды.
Обнаружение заметных объектов стало растущей областью интереса в области компьютерного зрения. Тем не менее, преобладающие алгоритмы демонстрируют меньшую точность, когда им поручено обнаруживать заметные объекты в сложных и многогранных средах. В свете этой насущной проблемы в данной статье представлена сквозная глубокая нейронная сеть, предназначенная для обнаружения заметных объектов в сложных средах. В исследовании представлена сквозная глубокая нейронная сеть, целью которой является обнаружение заметных объектов в сложных средах. Состоящая из двух взаимосвязанных компонентов, а именно многомасштабной полной сверточной сети на уровне пикселей и сети глубоких кодеров-декодеров, предлагаемая сеть интегрирует контекстуальную семантику для создания визуального контраста между многомасштабными картами признаков, используя при этом глубокие и поверхностные характеристики изображений для повышения точности идентификации границ объектов. Интеграция полносвязной модели условного случайного поля (CRF) еще больше повышает пространственную когерентность и контурное очерчивание карт выдающихся. Предложенный алгоритм всесторонне оценен в сравнении с 10 современными алгоритмами в базах данных SOD и ECSSD. Результаты оценки показывают, что предложенный алгоритм превосходит другие подходы по точности и достоверности, тем самым подтверждая его эффективность при обнаружении заметных объектов в сложных условиях.
Функция обнаружения заметных объектов имитирует зрительное внимание человека, быстро определяя ключевые области изображения, подавляя фоновую информацию. Этот метод широко используется в качестве инструмента предварительной обработки в таких задачах, как обрезка изображений1, семантическая сегментация2 и редактирование изображений3. Он оптимизирует такие задачи, как замена фона и извлечение переднего плана, повышая эффективность и точность редактирования. Кроме того, он помогает в семантической сегментации, улучшая целевую локализацию. Потенциал обнаружения заметных объектов для повышения вычислительной эффективности и экономии памяти подчеркивает его значительные исследовательские и прикладные перспективы.
На протяжении многих лет обнаружение заметных объектов эволюционировало от первоначальных традиционных алгоритмов до внедрения алгоритмов глубокого обучения. Цель этих достижений состояла в том, чтобы сократить разрыв между обнаружением заметных объектов и зрительными механизмами человека. Это привело к принятию глубоких сверточных сетевых моделей для изучения обнаружения заметных объектов. Borji et al.4 обобщили и обобщили большинство классических традиционных алгоритмов, которые опираются на базовые характеристики изображения. Несмотря на некоторое повышение точности обнаружения, ручное управление и познание по-прежнему создают трудности при обнаружении заметных объектов в сложных условиях.
Использование сверточных нейронных сетей (СНС) широко распространено в области обнаружения заметных объектов. В этом контексте глубокие сверточные нейронные сети используются для обновления веса с помощью автономного обучения. Сверточные нейронные сети используются для извлечения контекстуальной семантики из изображений с помощью каскадных сверточных и пулинговых слоев, что позволяет изучать сложные характеристики изображений на более высоких уровнях, которые обладают более высокой способностью к различению и характеристикам для обнаружения заметных объектов в различных средах.
В 2016 году полностью сверточныенейронные сети5 получили значительное распространение в качестве популярного подхода к обнаружению заметных объектов, на основе которого исследователи начали обнаружение заметных объектов на уровне пикселей. Многие модели, как правило, построены на существующих сетях (например, VGG166, ResNet7), направленных на улучшение представления изображения и усиление эффекта распознавания краев.
Liu et al.8 использовали уже обученную нейронную сеть в качестве основы для вычисления изображения глобально, а затем уточнили границу объекта с помощью иерархической сети. Комбинация этих двух сетей образует окончательную сеть глубокой значимости. Это достигалось путем ввода в сеть ранее полученной карты выступа в качестве априорного знания в повторяющейся манере. Zhang et al.9 эффективно объединили семантическую и пространственную информацию изображений с помощью глубоких сетей с двунаправленной передачей информации от поверхностных слоев к глубоким и от глубоких слоев к неглубоким, соответственно. Обнаружение заметных объектов с помощью модели взаимного обучения было предложено Wu et al.10. Модель использует информацию переднего плана и края в сверточной нейронной сети для облегчения процесса обнаружения. Li et al.11 использовали «дырочный алгоритм» нейронных сетей для решения задачи фиксации рецептивных полей различных слоев в глубоких нейронных сетях в контексте обнаружения заметных объектов. Тем не менее, сегментация суперпикселей используется для захвата краев объектов, что значительно увеличивает вычислительные усилия и время вычислений. Ren et al.12 разработали многомасштабную сеть кодеров-декодеров для обнаружения заметных объектов и использовали сверточные нейронные сети для эффективного объединения глубоких и мелких признаков. Несмотря на то, что проблема размытия границ при обнаружении объектов решается с помощью этого подхода, многомасштабное слияние информации неизбежно приводит к повышенным вычислительным требованиям.
В обзоре литературы13 предлагается, чтобы обобщить обнаружение салиентности, от традиционных методов до методов глубокого обучения, и можно очень ясно увидеть эволюцию обнаружения целей салиентности от ее истоков до эры глубокого обучения. В литературе предложены различные модели обнаружения выступающих объектов на основе RGB-D с хорошими характеристиками14. В приведенной выше литературе рассматриваются и классифицируются различные типы алгоритмов обнаружения объектов значимости, а также описываются сценарии их применения, используемые базы данных и метрики оценки. В данной статье также проведен качественный и количественный анализ предложенных алгоритмов с учетом предложенных ими баз данных и оценочных метрик.
Все вышеперечисленные алгоритмы показали замечательные результаты в общедоступных базах данных, обеспечив основу для обнаружения заметных объектов в сложных средах. Несмотря на многочисленные научные достижения в этой области как внутри страны, так и за рубежом, все еще остаются некоторые вопросы, требующие решения. (1) Традиционные алгоритмы неглубокого обучения, как правило, имеют низкую точность из-за их зависимости от вручную обозначенных характеристик, таких как цвет, текстура и частота, на которые может легко повлиять субъективный опыт и восприятие. Следовательно, точность их возможностей обнаружения заметных объектов снижается. Обнаружение заметных объектов в сложных средах с помощью традиционных алгоритмов неглубокого обучения является сложной задачей из-за их сложности в обработке сложных сценариев. (2) Традиционные методы обнаружения заметных объектов демонстрируют ограниченную точность из-за их зависимости от обозначенных вручную признаков, таких как цвет, текстура и частота. Кроме того, обнаружение на уровне региона может быть ресурсоемким с точки зрения вычислений, часто игнорируя пространственную согласованность и, как правило, плохо обнаруживая границы объектов. Эти проблемы необходимо решить для повышения точности обнаружения заметных объектов. (3) Обнаружение заметных объектов в сложных условиях представляет собой сложную задачу для большинства алгоритмов. Большинство алгоритмов обнаружения заметных объектов сталкиваются с серьезными проблемами из-за все более сложной среды обнаружения заметных объектов с переменным фоном (одинаковые цвета фона и переднего плана, сложные текстуры фона и т. д.), множества неопределенностей, таких как несогласованные размеры объектов обнаружения и нечеткое определение краев переднего и заднего плана.
Большинство современных алгоритмов демонстрируют низкую точность обнаружения заметных объектов в сложных средах с похожими цветами фона и переднего плана, сложными фоновыми текстурами и размытыми краями. Несмотря на то, что современные алгоритмы распознавания заметных объектов, основанные на глубоком обучении, демонстрируют более высокую точность, чем традиционные методы обнаружения, базовые функции изображений, которые они используют, по-прежнему не позволяют эффективно характеризовать семантические признаки, что оставляет возможности для улучшения их производительности.
Таким образом, в этом исследовании предлагается сквозная глубокая нейронная сеть для алгоритма обнаружения заметных объектов, направленная на повышение точности обнаружения заметных объектов в сложных средах, улучшение границ целей и лучшую характеристику семантических признаков. Вклад в эту статью заключается в следующем: (1) Первая сеть использует VGG16 в качестве базовой сети и модифицирует свои пять слоев пула, используя «алгоритм дырок»11. Многомасштабная полностью сверточная нейронная сеть пиксельного уровня изучает особенности изображения в различных пространственных масштабах, решая проблему статических рецептивных полей на различных уровнях глубоких нейронных сетей и повышая точность обнаружения в значимых областях фокусировки в поле. (2) Недавние усилия по повышению точности обнаружения заметных объектов были сосредоточены на использовании более глубоких нейронных сетей, таких как VGG16, для извлечения как глубинных признаков из сети кодировщиков, так и неглубоких признаков из сети декодеров. Такой подход эффективно повышает точность определения границ объектов и улучшает семантическую информацию, особенно в сложных средах с переменным фоном, несогласованными размерами объектов и нечеткими границами между передним и задним планами. (3) Недавние усилия по повышению точности обнаружения заметных объектов сделали акцент на использовании более глубоких сетей, включая VGG16, для извлечения глубоких признаков из сети кодеров и мелких признаков из сети декодеров. Этот подход продемонстрировал улучшенное обнаружение границ объектов и больший объем семантической информации, особенно в сложных средах с различным фоном, размерами объектов и нечеткими границами между передним и задним планами. Кроме того, была реализована интеграция полносвязной модели условного случайного поля (CRF) для повышения пространственной когерентности и точности контуров карт выдающихся. Эффективность данного подхода оценивалась на наборах данных SOD и ECSSD со сложным фоном и была признана статистически значимой.
Работы по теме
Fu et al.15 предложили совместный подход с использованием RGB и глубокого обучения для обнаружения заметных объектов. Lai et al.16 представили слабо контролируемую модель для обнаружения заметных объектов, обучаясь значимости из аннотаций, в основном используя метки для экономии времени аннотирования. Несмотря на то, что эти алгоритмы представляли собой слияние двух взаимодополняющих сетей для обнаружения объектов значимости, им не хватало углубленного исследования обнаружения салиентности в сложных сценариях. Wang et al.17 разработали двухмодовое итеративное слияние функций нейронной сети, как снизу вверх, так и сверху вниз, постепенно оптимизируя результаты предыдущей итерации до сходимости. Zhang et al.18 эффективно объединили семантическую и пространственную информацию изображений с помощью глубоких сетей с двунаправленной передачей информации от мелкого слоя к глубокому и от глубокого к неглубокому, соответственно. Обнаружение заметных объектов с помощью модели взаимного обучения было предложено Wu et al.19. Модель использует информацию переднего плана и края в сверточной нейронной сети для облегчения процесса обнаружения. Эти модели обнаружения заметных объектов на основе глубоких нейронных сетей достигли замечательной производительности на общедоступных наборах данных, что позволяет обнаруживать заметные объекты в сложных природных сценах. Тем не менее, разработка еще более совершенных моделей остается важной целью в этой области исследований и служит основной мотивацией для этого исследования.
Общая структура
Схематическое представление предлагаемой модели, как показано на рисунке 1, в основном является производным от архитектуры VGG16, включающей в себя как многомасштабную полностью сверточную нейронную сеть (DCL) на уровне пикселей, так и сеть глубокого кодирования-декодера (DEDN). Модель исключает все окончательные пулы и полносвязные слои VGG16, сохраняя при этом размеры входного изображения Ш × В. Оперативный механизм включает в себя первичную обработку входного изображения через DCL, облегчая извлечение глубоких признаков, в то время как мелкие объекты получаются из сетей EDN. Слияние этих характеристик впоследствии подвергается модели полносвязного условного случайного поля (CRF), повышающей пространственную когерентность и точность контуров полученных карт значимости.
Чтобы убедиться в эффективности модели, она прошла тестирование и валидацию на наборах данных SOD20 и ECSSD21 со сложным фоном. После того, как входное изображение проходит через РСН, получаются карты признаков разного масштаба с различными рецептивными полями, а контекстуальная семантика объединяется для получения карты выступа W × H с межпространственной когерентностью. В DCL используется пара сверточных слоев с ядрами 7 x 7 для замены конечного слоя пула исходной сети VGG16, улучшая сохранение пространственной информации в картах признаков. Это, в сочетании с контекстуальной семантикой, дает карту выступа W × H с межпространственной когерентностью. Аналогичным образом, в сети Deep Encoder-Decoder Network (DEDN) используются сверточные слои с ядрами 3 x 3 в декодерах и одним сверточным слоем после последнего модуля декодирования. Используя глубокие и поверхностные особенности изображения, можно создать карту выступов с пространственной размерностью W × H, решая проблему нечетких границ объектов. В исследовании описывается новаторский метод обнаружения заметных объектов, который объединяет модели DCL и DEDN в единую сеть. Веса этих двух глубоких сетей изучаются в процессе обучения, а результирующие карты значимости объединяются, а затем уточняются с помощью полносвязного условного случайного поля (CRF). Основной целью этого уточнения является улучшение пространственной согласованности и локализации контуров.
Мультимасштабная полностью сверточная нейронная сеть на уровне пикселей
Архитектура VGG16 первоначально состояла из пяти слоев пула, каждый из которых имел шаг 2. Каждый слой пула сжимает размер изображения, чтобы увеличить количество каналов, получая больше контекстной информации. Модель DCL вдохновлена литературой13 и является усовершенствованием структуры VGG16. В этой статье используется модельDCL 11 на уровне пикселей, как показано на рисунке 2 , в архитектуре VGG16, глубокой сверточной нейронной сети. Начальные четыре максимальных слоя пула связаны между собой тремя ядрами. Первое ядро — 3 × 3 × 128; второе ядро — 1 × 1 × 128; и третье ядро – 1 × 1 × 1. Чтобы добиться одинакового размера карт объектов после первых четырех слоев пула, соединенных с тремя ядрами, при этом каждый размер эквивалентен одной восьмой исходного изображения, размер шага первого ядра, соединенного с этими четырьмя крупнейшими слоями пула, устанавливается равным 4, 2, 1 и 1 соответственно.
Чтобы сохранить исходное рецептивное поле в различных ядрах, используется «алгоритм дырок», предложенный в литературе11 , для увеличения размера ядра путем добавления нулей, тем самым сохраняя целостность ядра. Эти четыре карты признаков подключены к первому ядру с разными размерами шага. Следовательно, карты признаков, полученные на заключительном этапе, имеют одинаковые размерности. Четыре карты признаков представляют собой набор многомасштабных объектов, полученных из различных масштабов, каждый из которых представляет различные размеры рецептивных полей. Результирующие карты признаков, полученные из четырех промежуточных слоев, объединяются с конечной картой признаков, полученной из VGG16, таким образом, генерируя 5-канальный выход. Последующий вывод затем подвергается воздействию ядра 1 × 1 × 1 с сигмоидальной функцией активации, в результате чего получается рельефное отображение (с разрешением в одну восьмую исходного изображения). Изображение дискретизируется и увеличивается с помощью билинейной интерполяции, гарантируя, что результирующее изображение, называемое картой салиентности, сохраняет то же разрешение, что и исходное изображение.
Глубокая сеть энкодеров-декодеров
Аналогично, сеть VGG16 используется в качестве магистральной сети. VGG16 характеризуется низким числом неглубоких каналов карты признаков, но высоким разрешением, а также большим количеством глубоких каналов признаков, но низким разрешением. Объединение слоев в пул и понижение дискретизации увеличивают вычислительную скорость глубокой сети за счет снижения разрешения карты признаков. Для решения этой проблемы, в соответствии с анализом, приведенным в литературе14, сеть кодировщика используется для изменения полной связности последнего слоя пула в исходном VGG16. Данная модификация предполагает замену его двумя сверточными слоями с 7 × 7 ядрами (более крупные сверточные ядра увеличивают рецептивное поле). Оба ядра свертки оснащены операцией нормализации (BN) и модифицированным линейным блоком (ReLU). Это уравнивание приводит к выходной карте объектов кодировщика, которая лучше сохраняет информацию о пространстве изображения.
Несмотря на то, что кодировщик улучшает высокоуровневую семантику изображения для глобальной локализации заметных объектов, проблема размытия границ его заметного объекта эффективно не решается. Чтобы решить эту проблему, глубокие признаки объединяются с мелкими функциями, вдохновленными работой12 по обнаружению границ, в которой предлагается модель сети кодировщика-декодера (DEDN), как показано на рисунке 3. Архитектура кодировщика состоит из трех ядер, связанных между собой с первоначальными четырьмя, в то время как декодер систематически повышает разрешение карты признаков, используя максимальные значения, полученные из максимальных слоев пула.
В этой инновационной методологии обнаружения заметных объектов на этапе декодирования используется сверточный слой с ядром 3 × 3 в сочетании со слоем пакетной нормализации и адаптированным линейным блоком. В завершении последнего модуля декодирования в архитектуре декодера используется сверточный слой с одним каналом для получения рельефной карты пространственных измерений W × H. Карта выступа генерируется путем совместного слияния модели кодера-декодера, что дает результат, и комплементарного слияния двух, т.е. комплементарного слияния глубокой информации и поверхностной информации. Это позволяет не только точно локализовать выступающий объект и увеличить рецептивное поле, но и эффективно сохранить информацию о деталях изображения и укрепить границу выступающего объекта.
Механизм интеграции
Архитектура кодировщика состоит из трех ядер, которые связаны с начальными четырьмя максимальными уровнями пула модели VGG16. В отличие от этого, декодер намеренно сформулирован таким образом, чтобы постепенно увеличивать разрешение карт признаков, полученных из слоев с повышающей дискретизацией, за счет использования максимальных значений, полученных от соответствующих слоев пула. Затем в декодере используется сверточный слой, использующий ядро 3 x 3, слой пакетной нормализации и модифицированный линейный блок, за которым следует одноканальный сверточный слой для создания заметной карты измерений W × H. Весовые коэффициенты двух глубоких сетей изучаются с помощью чередующихся циклов обучения. Параметры первой сети оставались неизменными, в то время как параметры второй сети подвергались обучению в общей сложности в течение пятидесяти циклов. Во время этого процесса веса карты салиентности (S1 и S2), используемые для слияния, обновляются с помощью случайного градиента. Функция потерь11 имеет вид:
(1)
В данном выражении символ G представляет собой значение, помеченное вручную, в то время как W обозначает полный набор параметров сети. Вес β i служит уравновешивающим фактором для регулирования соотношения заметных пикселей и незаметных пикселей в процессе вычисления.
Изображение I характеризуется тремя параметрами: |Я|, |Я|– и |Я|+, которые представляют общее количество пикселей, количество незаметных пикселей и количество заметных пикселей соответственно.
Поскольку карты выступов, полученные из двух вышеупомянутых сетей, не учитывают когерентность соседних пикселей, для улучшения пространственной когерентности используется полносвязная модель уточнения значимости на уровне пикселей CRF15 . Энергетическое уравнение11 выглядит следующим образом, решая задачу разметки двоичных пикселей.
(2)
где L обозначает двоичную метку (заметное значение или незаметное значение), присвоенную всем пикселям. Переменная P(li) обозначает вероятность того, что данному пикселю xiбудет присвоена определенная метка li, указывающая на вероятность того, что пикселю xiбудет известно. В начале P(1) = Siи P(0) = 1 – Si, где Siобозначает значение салиентности в пикселе xiв пределах объединенной карты салиентности S. θi,j(li,l j) – попарный потенциал, определяемый следующим образом.
(3)
Среди них, если li≠ lj, то μ(li,l j) = 1, в противном случае μ(li,l j) = 0. Вычисление θi,j включает в себя использование двух ядер, где исходное ядро зависит как от положения пикселя P, так и от интенсивности пикселя I. Это приводит к тому, что пиксели с похожими цветами имеют сопоставимые значения яркости. Два параметра, σα и σβ, регулируют степень, в которой сходство цветов и пространственная близость влияют на результат. Задачей второго ядра является устранение изолированных небольших областей. Минимизация энергии достигается за счет многомерной фильтрации, которая ускоряет среднее поле распределения условного случайного поля (CRF). После вычислений карта выступа, обозначенная как Scrf, демонстрирует повышенную пространственную когерентность и контур по отношению к обнаруженным заметным объектам.
Экспериментальные конфигурации
В данной статье построена глубокая сеть обнаружения заметных целей на основе нейронной сети VGG16 с использованием языка Python. Предложенная модель сравнивается с другими методами с использованием наборов данных SOD20 и ECSSD21 . База данных изображений SOD известна своими сложными и загроможденными фонами, сходством цветов между передним и задним планами, а также малыми размерами объектов. Каждому изображению в этом наборе данных присваивается истинное значение, помеченное вручную, как для количественной, так и для качественной оценки производительности. С другой стороны, набор данных ECSSD в основном состоит из изображений, взятых из Интернета, с более сложными и реалистичными природными сценами с низким контрастом между фоном изображения и заметными объектами.
Оценочные индексы, используемые для сравнения модели в этой статье, включают широко используемую кривую точности-полноты, Fβи EMAE. Для количественной оценки прогнозируемой карты значимости используется кривая точности-полноты (P-R)22 путем изменения порога от 0 до 255 для бинаризации карты салиентности. Fβ— это комплексная метрика оценки, рассчитанная с использованием уравнений точности и полноты, полученных из бинаризованной карты выступа и карты истинных значений.
(4)
где β — параметр веса для регулировки точности и полноты, установив β2 = 0,3. Вычисление EMAEэквивалентно вычислению средней абсолютной ошибки между результирующей картой значимости и картой наземной достоверности, определяемой следующим математическим выражением:
(5)
Пусть Ts(u,v) обозначает извлеченное значение пикселов выпуклой карты (u,v), а TG(u,v) обозначает соответствующее значение пикселов истинного отображения (u,v).
В статье представлена сквозная глубокая нейронная сеть, специально разработанная для обнаружения заметных объектов в сложных средах. Сеть состоит из двух взаимосвязанных компонентов: многомасштабной полностью сверточной сети пиксельного уровня (DCL) и сети глубоких кодеров-декодеров …
The authors have nothing to disclose.
Эта работа поддерживается Программой финансирования ключевых научно-исследовательских проектов высших учебных заведений провинции Хэнань на 2024 год (номер проекта: 24A520053). Это исследование также проводится при поддержке Специализированного демонстрационного курса по созданию и интеграции в провинции Хэнань.
Matlab | MathWorks | Matlab R2016a | MATLAB's programming interface provides development tools for improving code quality maintainability and maximizing performance. It provides tools for building applications using custom graphical interfaces. It provides tools for combining MATLAB-based algorithms with external applications and languages |
Processor | Intel | 11th Gen Intel(R) Core (TM) i5-1135G7 @ 2.40GHz | 64-bit Win11 processor |
Pycharm | JetBrains | PyCharm 3.0 | PyCharm is a Python IDE (Integrated Development Environment) a list of required python: modulesmatplotlib skimage torch os time pydensecrf opencv glob PIL torchvision numpy tkinter |
PyTorch | PyTorch 1.4 | PyTorch is an open source Python machine learning library , based on Torch , used for natural language processing and other applications.PyTorch can be viewed both as the addition of GPU support numpy , but also can be viewed as a powerful deep neural network with automatic derivatives . |