Summary

Karmaşık ortamlarda göze çarpan nesne algılama için uçtan uca derin sinir ağı

Published: December 15, 2023
doi:

Summary

Mevcut protokol, yeni bir uçtan uca göze çarpan nesne algılama algoritmasını açıklamaktadır. Karmaşık çevresel bağlamlarda göze çarpan nesne algılamanın hassasiyetini artırmak için derin sinir ağlarından yararlanır.

Abstract

Göze çarpan nesne algılama, bilgisayarla görme alanında gelişen bir ilgi alanı olarak ortaya çıkmıştır. Bununla birlikte, hakim algoritmalar, karmaşık ve çok yönlü ortamlarda göze çarpan nesneleri tespit etmekle görevlendirildiğinde azalan hassasiyet sergiler. Bu acil endişenin ışığında, bu makale, karmaşık ortamlarda göze çarpan nesneleri tespit etmeyi amaçlayan uçtan uca bir derin sinir ağı sunmaktadır. Çalışma, karmaşık ortamlarda göze çarpan nesneleri tespit etmeyi amaçlayan uçtan uca bir derin sinir ağı sunuyor. Piksel düzeyinde çok ölçekli tam evrişimli ağ ve derin kodlayıcı-kod çözücü ağı olmak üzere birbiriyle ilişkili iki bileşenden oluşan önerilen ağ, nesne sınırı tanımlamasının doğruluğunu artırmak için derin ve sığ görüntü özellikleri kullanırken, çok ölçekli özellik haritalarında görsel kontrast üretmek için bağlamsal anlambilimi bütünleştirir. Tamamen bağlantılı bir koşullu rastgele alan (CRF) modelinin entegrasyonu, göze çarpan haritaların uzamsal tutarlılığını ve kontur tasvirini daha da geliştirir. Önerilen algoritma, SOD ve ECSSD veritabanlarındaki 10 çağdaş algoritmaya karşı kapsamlı bir şekilde değerlendirilmiştir. Değerlendirme sonuçları, önerilen algoritmanın kesinlik ve doğruluk açısından diğer yaklaşımlardan daha iyi performans gösterdiğini ve böylece karmaşık ortamlarda göze çarpan nesne tespitindeki etkinliğini ortaya koyduğunu göstermektedir.

Introduction

Göze çarpan nesne algılama, arka plan bilgilerini bastırırken önemli görüntü bölgelerini hızla tanımlayarak insanın görsel dikkatini taklit eder. Bu teknik, görüntü kırpma1, anlamsal segmentasyon2 ve görüntü düzenleme3 gibi görevlerde bir ön işleme aracı olarak yaygın olarak kullanılmaktadır. Arka plan değiştirme ve ön plan çıkarma gibi görevleri kolaylaştırarak düzenleme verimliliğini ve hassasiyetini artırır. Ek olarak, hedef yerelleştirmeyi geliştirerek anlamsal segmentasyona yardımcı olur. Hesaplama verimliliğini artırmak ve belleği korumak için göze çarpan nesne algılama potansiyeli, önemli araştırma ve uygulama beklentilerinin altını çiziyor.

Yıllar geçtikçe, göze çarpan nesne algılama, ilk geleneksel algoritmalardan derin öğrenme algoritmalarının dahil edilmesine doğru gelişti. Bu ilerlemelerin amacı, göze çarpan nesne algılama ile insan görsel mekanizmaları arasındaki boşluğu daraltmak olmuştur. Bu, göze çarpan nesne algılama çalışması için derin evrişimli ağ modellerinin benimsenmesine yol açmıştır. Borji ve ark.4 , görüntünün altında yatan özelliklere dayanan klasik geleneksel algoritmaların çoğunu özetledi ve genelleştirdi. Algılama doğruluğundaki bazı gelişmelere rağmen, manuel deneyim ve biliş, karmaşık ortamlarda göze çarpan nesne algılaması için zorluklar oluşturmaya devam ediyor.

Evrişimli Sinir Ağlarının (CNN’ler) kullanımı, göze çarpan nesne algılama alanında yaygındır. Bu bağlamda, otonom öğrenme yoluyla ağırlık güncellemeleri için derin evrişimli sinir ağları kullanılmaktadır. Evrişimli sinir ağları, basamaklı evrişimli ve havuzlama katmanları kullanılarak görüntülerden bağlamsal anlambilim çıkarmak için kullanılmıştır ve farklı ortamlarda göze çarpan nesne algılama için daha yüksek ayrımcılık ve karakterizasyon yeteneğine sahip karmaşık görüntü özelliklerinin daha yüksek seviyelerde öğrenilmesini sağlar.

2016 yılında, tamamen evrişimli sinir ağları5 , araştırmacıların piksel düzeyinde göze çarpan nesne algılamaya başladığı belirgin nesne tespiti için popüler bir yaklaşım olarak önemli bir çekiş kazandı. Birçok model genellikle görüntü temsilini geliştirmeyi ve kenar algılamanın etkisini güçlendirmeyi amaçlayan mevcut ağlar (örneğin, VGG166, ResNet7) üzerine kuruludur.

Liu ve ark.8 , görüntüyü küresel olarak hesaplamak için çerçeve olarak önceden eğitilmiş bir sinir ağı kullandı ve ardından hiyerarşik bir ağ kullanarak nesne sınırını geliştirdi. İki ağın birleşimi, son derin belirginlik ağını oluşturur. Bu, daha önce edinilen göze çarpan haritanın tekrarlayan bir şekilde ön bilgi olarak ağa beslenmesiyle gerçekleştirildi. Zhang ve ark.9 , sırasıyla sığdan derine ve derinden sığ katmanlara çift yönlü bilgi aktarımı ile derin ağları kullanarak görüntü anlamsal ve uzamsal bilgileri etkili bir şekilde kaynaştırdı. Karşılıklı öğrenme derin modeli kullanılarak göze çarpan nesnelerin tespiti Wu ve ark.10 tarafından ortaya konmuştur. Model, algılama sürecini kolaylaştırmak için evrişimli bir sinir ağı içindeki ön plan ve kenar bilgilerini kullanır. Li ve ark.11 , göze çarpan nesne algılama bağlamında derin sinir ağlarındaki çeşitli katmanların alıcı alanlarını sabitleme zorluğunu ele almak için sinir ağlarının ‘delik algoritmasını’ kullandı. Bununla birlikte, nesne kenarı elde etmek için süper piksel segmentasyonu kullanılır ve bu da hesaplama çabasını ve hesaplama süresini büyük ölçüde artırır. Ren ve ark.12 , göze çarpan nesneleri tespit etmek için çok ölçekli bir kodlayıcı-kod çözücü ağı tasarladı ve derin ve sığ özellikleri etkili bir şekilde birleştirmek için evrişimli sinir ağlarını kullandı. Nesne algılamada sınır bulanıklığı sorunu bu yaklaşımla çözülse de, bilginin çok ölçekli birleşimi kaçınılmaz olarak artan hesaplama talepleriyle sonuçlanır.

Literatür taraması13 , geleneksel yöntemlerden derin öğrenme yöntemlerine kadar belirginlik tespitinin özetlendiğini ve belirginlik hedef tespitinin kökenlerinden derin öğrenme çağına evriminin çok net bir şekilde görülebileceğini öne sürmektedir. Literatürde iyi performansa sahip çeşitli RGB-D tabanlı göze çarpan nesne algılama modelleri önerilmiştir14. Yukarıdaki literatür, belirginlik nesnesi tespiti için çeşitli algoritma türlerini gözden geçirmekte ve sınıflandırmakta ve uygulama senaryolarını, kullanılan veritabanlarını ve değerlendirme ölçümlerini açıklamaktadır. Bu makale ayrıca, önerilen veritabanları ve değerlendirme ölçütleri ile ilgili olarak önerilen algoritmaların nitel ve nicel bir analizini sağlar.

Yukarıdaki algoritmaların tümü, karmaşık ortamlarda göze çarpan nesne tespiti için bir temel sağlayarak, halka açık veritabanlarında dikkate değer sonuçlar elde etmiştir. Bu alanda hem yurt içinde hem de yurt dışında çok sayıda araştırma başarısı elde edilmiş olmasına rağmen, hala ele alınması gereken bazı konular var. (1) Geleneksel derin olmayan öğrenme algoritmaları, öznel deneyim ve algıdan kolayca etkilenebilen renk, doku ve frekans gibi manuel olarak etiketlenmiş özelliklere güvenmeleri nedeniyle düşük doğruluğa sahip olma eğilimindedir. Sonuç olarak, göze çarpan nesne algılama yeteneklerinin hassasiyeti azalır. Geleneksel derin olmayan öğrenme algoritmalarını kullanarak karmaşık ortamlarda göze çarpan nesneleri tespit etmek, karmaşık senaryoları işlemedeki zorlukları nedeniyle zordur. (2) Göze çarpan nesne tespiti için geleneksel yöntemler, renk, doku ve frekans gibi manuel olarak etiketlenmiş özelliklere bağlı olmaları nedeniyle sınırlı doğruluk sergiler. Ek olarak, bölge düzeyinde algılama, genellikle uzamsal tutarlılığı göz ardı ederek hesaplama açısından pahalı olabilir ve nesne sınırlarını zayıf bir şekilde algılama eğilimindedir. Göze çarpan nesne algılamanın hassasiyetini artırmak için bu sorunların ele alınması gerekir. (3) Karmaşık ortamlarda göze çarpan nesne algılama, çoğu algoritma için bir zorluk teşkil eder. Göze çarpan nesne algılama algoritmalarının çoğu, değişken arka planlara (benzer arka plan ve ön plan renkleri, karmaşık arka plan dokuları vb.) sahip giderek daha karmaşık hale gelen göze çarpan nesne algılama ortamı, tutarsız algılama nesnesi boyutları ve ön plan ve arka plan kenarlarının belirsiz tanımı gibi birçok belirsizlik nedeniyle ciddi zorluklarla karşı karşıyadır.

Mevcut algoritmaların çoğu, benzer arka plan ve ön plan renklerine, karmaşık arka plan dokularına ve bulanık kenarlara sahip karmaşık ortamlarda göze çarpan nesneleri algılamada düşük doğruluk sergiler. Mevcut derin öğrenme tabanlı göze çarpan nesne algoritmaları, geleneksel algılama yöntemlerinden daha yüksek doğruluk gösterse de, kullandıkları temel görüntü özellikleri, anlamsal özellikleri etkili bir şekilde karakterize etmede hala yetersiz kalıyor ve performanslarında iyileştirme için yer bırakıyor.

Özetle, bu çalışma, karmaşık ortamlarda göze çarpan nesne algılamanın doğruluğunu artırmayı, hedef kenarları iyileştirmeyi ve anlamsal özellikleri daha iyi karakterize etmeyi amaçlayan, göze çarpan bir nesne algılama algoritması için uçtan uca bir derin sinir ağı önermektedir. Bu makalenin katkıları aşağıdaki gibidir: (1) İlk ağ, temel ağ olarak VGG16’yı kullanır ve ‘delik algoritmasını’11 kullanarak beş havuzlama katmanını değiştirir. Piksel düzeyinde çok ölçekli, tamamen evrişimli sinir ağı, farklı uzamsal ölçeklerden görüntü özelliklerini öğrenerek, derin sinir ağlarının çeşitli katmanlarındaki statik alıcı alanların zorluğunu ele alır ve alandaki önemli odak alanlarında algılama doğruluğunu artırır. (2) Göze çarpan nesne algılamanın doğruluğunu artırmaya yönelik son çabalar, hem kodlayıcı ağından derinlik özelliklerini hem de kod çözücü ağından sığ özellikleri çıkarmak için VGG16 gibi daha derin sinir ağlarından yararlanmaya odaklanmıştır. Bu yaklaşım, nesne sınırlarının algılama doğruluğunu etkili bir şekilde artırır ve özellikle değişken arka planlara, tutarsız nesne boyutlarına ve ön plan ile arka plan arasında belirsiz sınırlara sahip karmaşık ortamlarda anlamsal bilgileri geliştirir. (3) Göze çarpan nesne algılamanın hassasiyetini artırmaya yönelik son çabalar, kodlayıcı ağından derin özellikleri ve kod çözücü ağından sığ özellikleri çıkarmak için VGG16 dahil olmak üzere daha derin ağların kullanımını vurgulamıştır. Bu yaklaşım, özellikle farklı arka planlara, nesne boyutlarına ve ön plan ile arka plan arasındaki belirsiz sınırlara sahip karmaşık ortamlarda, nesne sınırlarının ve daha büyük anlamsal bilgilerin daha iyi algılandığını göstermiştir. Ek olarak, göze çarpan haritaların uzamsal tutarlılığını ve kontur hassasiyetini artırmak için tam bağlantılı bir koşullu rastgele alan (CRF) modelinin entegrasyonu uygulanmıştır. Bu yaklaşımın etkinliği, karmaşık arka plana sahip SOD ve ECSSD veri setleri üzerinde değerlendirilmiş ve istatistiksel olarak anlamlı bulunmuştur.

İlgili çalışma
Fu ve ark.15 , göze çarpan nesne tespiti için RGB ve derin öğrenmeyi kullanan ortak bir yaklaşım önerdi. Lai ve ark.16 , belirgin nesne tespiti için zayıf denetimli bir model tanıttı, ek açıklamalardan belirginliği öğrendi, öncelikle açıklama süresinden tasarruf etmek için karalama etiketlerini kullandı. Bu algoritmalar, belirginlik nesnesi algılaması için iki tamamlayıcı ağın bir birleşimini sunarken, karmaşık senaryolar altında belirginlik algılamaya yönelik derinlemesine araştırmadan yoksundurlar. Wang ve ark.17 , hem aşağıdan yukarıya hem de yukarıdan aşağıya olmak üzere sinir ağı özelliklerinin iki modlu yinelemeli bir füzyonunu tasarladı ve önceki yinelemenin sonuçlarını yakınsamaya kadar aşamalı olarak optimize etti. Zhang ve ark.18 , sırasıyla sığdan derine ve derinden sığ katmanlara çift yönlü bilgi aktarımı ile derin ağları kullanarak görüntü anlamsal ve uzamsal bilgileri etkili bir şekilde kaynaştırdı. Karşılıklı öğrenme derin modeli kullanılarak göze çarpan nesnelerin tespiti Wu ve ark.19 tarafından önerilmiştir. Model, algılama sürecini kolaylaştırmak için evrişimli bir sinir ağı içindeki ön plan ve kenar bilgilerini kullanır. Bu derin sinir ağı tabanlı göze çarpan nesne algılama modelleri, halka açık veri kümelerinde dikkate değer bir performans elde ederek karmaşık doğal sahnelerde göze çarpan nesne algılamayı mümkün kılmıştır. Bununla birlikte, daha da üstün modeller tasarlamak bu araştırma alanında önemli bir hedef olmaya devam etmekte ve bu çalışma için birincil motivasyon olarak hizmet etmektedir.

Genel çerçeve
Önerilen modelin şematik gösterimi, Şekil 1’de gösterildiği gibi, öncelikle hem piksel düzeyinde çok ölçekli tam evrişimli sinir ağı (DCL) hem de derin kodlayıcı-kod çözücü ağı (DEDN) içeren VGG16 mimarisinden türetilmiştir. Model, VGG16’nın tüm son havuzlama ve tam bağlı katmanlarını ortadan kaldırırken, G × Y giriş görüntü boyutlarını barındırır. Operasyonel mekanizma, giriş görüntüsünün DCL aracılığıyla ilk işlenmesini içerir ve derin özelliklerin çıkarılmasını kolaylaştırırken, sığ özellikler DEDN ağlarından elde edilir. Bu özelliklerin birleşimi daha sonra, üretilen belirginlik haritalarının uzamsal tutarlılığını ve kontur doğruluğunu artıran, tamamen bağlantılı bir koşullu rastgele alan (CRF) modeline tabi tutulur.

Modelin etkinliğini belirlemek için, karmaşık arka planlara sahip SOD20 ve ECSSD21 veri kümeleri üzerinde test ve doğrulamaya tabi tutuldu. Giriş görüntüsü DCL’den geçtikten sonra, çeşitli alıcı alanlara sahip farklı ölçekli özellik haritaları elde edilir ve boyutlar arası tutarlılığa sahip bir W × H göze çarpan haritası üretmek için bağlamsal anlambilim birleştirilir. DCL, orijinal VGG16 ağının son havuzlama katmanını değiştirmek için 7 x 7 çekirdeğe sahip bir çift evrişimli katman kullanır ve özellik haritalarındaki uzamsal bilgilerin korunmasını artırır. Bu, bağlamsal anlambilimle birleştiğinde, boyutlar arası tutarlılığa sahip bir W × H göze çarpan haritası üretir. Benzer şekilde, Derin Kodlayıcı-Kod Çözücü Ağı (DEDN), kod çözücülerde 3 x 3 çekirdekli evrişimli katmanlar ve son kod çözme modülünden sonra tek bir evrişimli katman kullanır. Görüntünün derin ve sığ özelliklerinden yararlanarak, belirsiz nesne sınırlarının zorluğunu ele alarak W × H uzamsal boyutuna sahip göze çarpan bir harita oluşturmak mümkündür. Çalışma, DCL ve DEDN modellerini birleşik bir ağda birleştiren göze çarpan nesne tespiti için öncü bir tekniği açıklamaktadır. Bu iki derin ağın ağırlıkları bir eğitim süreciyle öğrenilir ve ortaya çıkan belirginlik haritaları birleştirilir ve ardından tamamen bağlantılı bir Koşullu Rastgele Alan (CRF) kullanılarak iyileştirilir. Bu iyileştirmenin birincil amacı, uzamsal tutarlılığı ve kontur lokalizasyonunu iyileştirmektir.

Piksel düzeyinde çok ölçekli, tamamen evrişimli sinir ağı
VGG16 mimarisi başlangıçta her biri 2 adımlı beş havuzlama katmanından oluşuyordu. Her havuzlama katmanı, kanal sayısını artırmak ve daha bağlamsal bilgi elde etmek için görüntü boyutunu sıkıştırır. DCL modeli, literatür13’ten esinlenmiştir ve VGG16’nın çerçevesi üzerinde bir gelişmedir. Bu makalede, derin bir evrişimli sinir ağı olan VGG16 mimarisi içinde Şekil 2’de gösterildiği gibi piksel düzeyinde bir DCL modeli11 kullanılmıştır. İlk dört maksimum havuzlama katmanı, üç çekirdekle birbirine bağlıdır. İlk çekirdek 3 × 3 × 128’dir; ikinci çekirdek 1 × 1 × 128’dir; ve üçüncü çekirdek 1 × 1 × 1’dir. Üç çekirdeğe bağlı ilk dört havuzlama katmanından sonra, her biri orijinal görüntünün sekizde birine eşit olan tek tip bir özellik eşlemesi boyutu elde etmek için, bu en büyük dört havuzlama katmanına bağlı ilk çekirdeğin adım boyutu sırasıyla 4, 2, 1 ve 1 olarak ayarlanır.

Farklı çekirdeklerdeki orijinal alıcı alanı korumak için, literatür11’de önerilen “delik algoritması”, sıfırlar ekleyerek çekirdeğin boyutunu genişletmek ve böylece çekirdeğin bütünlüğünü korumak için kullanılır. Bu dört özellik eşlemesi, farklı adım boyutlarına sahip ilk çekirdeğe bağlanır. Sonuç olarak, son aşamada üretilen özellik haritaları aynı boyutlara sahiptir. Dört özellik haritası, her biri farklı boyutlardaki alıcı alanları temsil eden farklı ölçeklerden elde edilen bir dizi çok ölçekli özellik oluşturur. Dört ara katmandan elde edilen sonuç özellik haritaları, VGG16’dan türetilen nihai özellik haritası ile birleştirilir ve böylece 5 kanallı bir çıktı oluşturulur. Takip eden çıktı daha sonra sigmoid aktivasyon işlevine sahip 1 × 1 × 1 çekirdeğe tabi tutulur ve sonuçta göze çarpan harita üretilir (orijinal görüntünün sekizde biri çözünürlükle). Görüntü, çift doğrusal enterpolasyon kullanılarak yukarı örneklenir ve büyütülür, böylece belirginlik haritası olarak adlandırılan ortaya çıkan görüntünün ilk görüntüyle aynı çözünürlüğü koruması sağlanır.

Derin kodlayıcı-kod çözücü ağı
Benzer şekilde, VGG16 ağı omurga ağı olarak kullanılır. VGG16, az sayıda sığ özellik haritası kanalı, ancak yüksek çözünürlük ve çok sayıda derin özellik kanalı ancak düşük çözünürlük ile karakterize edilir. Havuzlama katmanları ve aşağı örnekleme, özellik haritası çözünürlüğünü azaltma pahasına derin ağın hesaplama hızını artırır. Bu sorunu çözmek için, literatür14’teki analizi takiben, kodlayıcı ağı, orijinal VGG16’daki son havuzlama katmanının tam bağlantısını değiştirmek için kullanılır. Bu modifikasyon, onu 7 × 7 çekirdekli iki evrişimli katmanla değiştirmeyi içerir (daha büyük evrişimli çekirdekler alıcı alanı artırır). Her iki evrişim çekirdeği de bir normalleştirme (BN) işlemi ve değiştirilmiş bir doğrusal birim (ReLU) ile donatılmıştır. Bu ayarlama, görüntü alanı bilgilerini daha iyi koruyan bir kodlayıcı çıktı özelliği eşlemesi ile sonuçlanır.

Kodlayıcı, göze çarpan nesnelerin küresel lokalizasyonu için üst düzey görüntü semantiğini geliştirirken, göze çarpan nesnesinin sınır bulanıklığı sorunu etkili bir şekilde iyileştirilmez. Bu sorunun üstesinden gelmek için, derin özellikler, Şekil 3’te gösterildiği gibi kodlayıcı-kod çözücü ağ modelini (DEDN) öneren kenar algılama çalışması12’den esinlenerek sığ özelliklerle birleştirilir. Kodlayıcı mimarisi, ilk dördü ile birbirine bağlı üç çekirdekten oluşurken, kod çözücü, maksimum havuzlama katmanlarından alınan maksimum değerleri kullanarak özellik haritası çözünürlüğünü sistematik olarak geliştirir.

Göze çarpan nesne algılamaya yönelik bu yenilikçi metodolojide, kod çözücü aşamasında, bir toplu normalleştirme katmanı ve uyarlanmış bir doğrusal birim ile birlikte 3 × 3 çekirdeğe sahip evrişimli bir katman kullanılır. Kod çözücü mimarisi içindeki son kod çözme modülünün sonunda, W × H uzamsal boyutlarının göze çarpan bir haritasını elde etmek için tek kanallı bir evrişimli katman kullanılır. Göze çarpan harita, kodlayıcı-kod çözücü modelinin işbirlikçi bir füzyonu yoluyla oluşturulur, sonuç ve ikisinin tamamlayıcı füzyonu, yani derin bilgi ve sığ bilginin tamamlayıcı füzyonu elde edilir. Bu, yalnızca göze çarpan nesnenin doğru lokalizasyonunu sağlamakla ve alıcı alanı artırmakla kalmaz, aynı zamanda görüntü ayrıntı bilgilerini etkili bir şekilde korur ve göze çarpan nesnenin sınırını güçlendirir.

Entegrasyon mekanizması
Kodlayıcı mimarisi, VGG16 modelinin ilk dört maksimum havuzlama katmanıyla ilişkili üç çekirdekten oluşur. Buna karşılık, kod çözücü, karşılık gelen havuzlama katmanlarından toplanan maksimum değerlerden yararlanarak, yukarı örnekleme katmanlarından elde edilen özellik haritalarının çözünürlüğünü aşamalı olarak artırmak için kasıtlı olarak formüle edilmiştir. Daha sonra kod çözücüde 3 x 3 çekirdek, bir toplu normalleştirme katmanı ve değiştirilmiş bir doğrusal birim kullanan evrişimli bir katman kullanılır, ardından W × H boyutlarının göze çarpan bir haritasını oluşturmak için tek kanallı bir evrişimli katman kullanılır. İki derin ağın ağırlıkları, değişen eğitim döngüleri yoluyla öğrenilir. İlk ağın parametreleri sabit tutulurken, ikinci ağın parametreleri toplam elli döngü boyunca eğitime tabi tutuldu. İşlem sırasında, füzyon için kullanılan belirginlik haritasının (S1 ve S2) ağırlıkları rastgele bir gradyan ile güncellenir. Kayıp fonksiyonu11 :

Equation 1 (1)

Verilen ifadede, G sembolü manuel olarak etiketlenmiş değeri temsil ederken, W ağ parametrelerinin tamamını ifade eder. Ağırlık β i, hesaplama sürecinde göze çarpan piksellerin göze çarpmayan piksellere oranını düzenlemek için dengeleyici bir faktör görevi görür.

Görüntü I üç parametre ile karakterize edilir: |I|, |I| ve |I|+, sırasıyla toplam piksel sayısını, göze çarpmayan piksellerin sayısını ve göze çarpan piksellerin sayısını temsil eder. Equation 2

Yukarıdaki iki ağdan elde edilen göze çarpan haritalar komşu piksellerin tutarlılığını dikkate almadığından, uzamsal tutarlılığı geliştirmek için tamamen bağlı piksel düzeyinde belirginlik iyileştirme modeli CRF15 kullanılır. Enerji denklemi11 aşağıdaki gibidir ve ikili piksel etiketleme problemini çözer.

Equation 3 (2)

burada L, tüm piksellere atanan ikili etiketi (göze çarpan değer veya göze çarpmayan değer) belirtir. P(li) değişkeni, belirli bir xipikseline belirli bir li etiketi atanma olasılığını belirtir ve xipikselinin belirginlik olasılığını gösterir. Başlangıçta, P(1) = Sive P(0) = 1 – Si, burada Si, kaynaşmış belirginlik haritası S içindeki xipikselindeki belirginlik değerini gösterir. θi,j(li,l j) aşağıdaki gibi tanımlanan ikili potansiyeldir.

Equation 4 (3)

Bunlar arasında, eğer lilj ise, o zaman μ(li,l j) = 1, aksi takdirde μ(li,l j) = 0. θi,j hesaplaması, ilk çekirdeğin hem piksel konumu P’ye hem de piksel yoğunluğu I’e bağlı olduğu iki çekirdeğin kullanımını içerir. Bu, karşılaştırılabilir belirginlik değerleri sergileyen benzer renklere sahip piksellerin yakınlığı ile sonuçlanır. αve σ β σ iki parametre, renk benzerliği ve uzamsal yakınlığın sonucu ne ölçüde etkilediğini düzenler. İkinci çekirdeğin amacı, izole edilmiş küçük bölgeleri ortadan kaldırmaktır. Enerjinin en aza indirilmesi, Koşullu Rastgele Alan (CRF) dağılımının ortalama alanını hızlandıran yüksek boyutlu filtreleme yoluyla elde edilir. Hesaplama üzerine, Scrf olarak gösterilen göze çarpan harita, tespit edilen göze çarpan nesnelerle ilgili olarak gelişmiş uzamsal tutarlılık ve kontur sergiler.

Deneysel yapılandırmalar
Bu makalede, Python kullanılarak VGG16 sinir ağına dayalı belirgin hedef tespiti için derin bir ağ oluşturulmuştur. Önerilen model, SOD20 ve ECSSD21 veri setleri kullanılarak diğer yöntemlerle karşılaştırılmıştır. SOD görüntü veritabanı, karmaşık ve dağınık arka planları, ön plan ve arka plan arasındaki renk benzerliği ve küçük nesne boyutları ile bilinir. Bu veri kümesindeki her görüntüye hem nicel hem de nitel performans değerlendirmesi için manuel olarak etiketlenmiş bir true değeri atanır. Öte yandan, ECSSD veri kümesi öncelikle İnternet’ten elde edilen görüntülerden oluşur ve görüntü arka planı ile göze çarpan nesneler arasında düşük kontrastlı daha karmaşık ve gerçekçi doğal sahneler içerir.

Bu yazıda modeli karşılaştırmak için kullanılan değerlendirme indeksleri, yaygın olarak kullanılan Kesinlik-Geri Çağırma eğrisini, Fβve EMAE’yi içerir. Tahmin edilen belirginlik haritasını nicel olarak değerlendirmek için, belirginlik haritasını ikili hale getirmek için eşiği 0’dan 255’e değiştirerek Kesinlik-Geri Çağırma (PR) eğrisi22 kullanılır. Fβ, ikilileştirilmiş göze çarpan haritadan ve gerçek bir değer haritasından türetilen kesinlik ve geri çağırma denklemleri ile hesaplanan kapsamlı bir değerlendirme metriğidir.

Equation 5 (4)

burada β, doğruluğu ve geri çağırmayı ayarlamak için ağırlık parametresidir, β2 = 0.3 ayarı. EMAE’ninhesaplanması, takip eden matematiksel ifadeyle tanımlandığı gibi, ortaya çıkan belirginlik haritası ile temel doğruluk haritası arasındaki ortalama mutlak hatanın hesaplanmasına eşdeğerdir:

Equation 6 (5)

Ts(u,v), göze çarpan harita (u,v) piksellerinin çıkarılan değerini göstersin ve TG(u,v), gerçek harita (u,v) piksellerinin karşılık gelen değerini göstersin.

Protocol

1. Deney düzeneği ve prosedürü Önceden eğitilmiş VGG16 modelini yükleyin.NOT: İlk adım, önceden eğitilmiş VGG16 modelini Keras kitaplığından6 yüklemektir.PyTorch gibi popüler derin öğrenme kitaplıklarını kullanarak Python’da önceden eğitilmiş bir VGG16 modeli yüklemek için şu genel adımları izleyin:İthalat meşalesi. torchvision.models’i model olarak içe aktarın….

Representative Results

Bu çalışma, iki tamamlayıcı ağdan oluşan uçtan uca bir derin sinir ağını tanıtmaktadır: piksel düzeyinde çok ölçekli tam evrişimli ağ ve derin kodlayıcı-kod çözücü ağı. İlk ağ, çok ölçekli özellik haritalarından görsel kontrastlar elde etmek için bağlamsal semantikiyi entegre ederek, farklı katmanlardaki derin sinir ağlarındaki sabit alıcı alanların zorluğunu ele alır. İkinci ağ, hedef nesnelerdeki bulanık sınırlar sorununu azaltmak için hem derin hem de sığ görüntü…

Discussion

Makale, karmaşık ortamlarda göze çarpan nesnelerin algılanması için özel olarak tasarlanmış uçtan uca bir derin sinir ağını tanıtmaktadır. Ağ, birbirine bağlı iki bileşenden oluşur: piksel düzeyinde çok ölçekli tam evrişimli ağ (DCL) ve derin kodlayıcı-kod çözücü ağ (DEDN). Bu bileşenler, çok ölçekli özellik haritalarında görsel kontrastlar oluşturmak için bağlamsal anlambilimi birleştirerek sinerjik olarak çalışır. Ek olarak, nesne sınırı tanımlamasının hassasiyetin…

Disclosures

The authors have nothing to disclose.

Acknowledgements

Bu çalışma, 2024 Henan İl Yükseköğretim Kurumları Temel Bilimsel Araştırma Projesi Destekleme Programı Kurulumu (Proje No:24A520053) tarafından desteklenmektedir. Bu çalışma aynı zamanda Henan Eyaletinde Özel Oluşturma ve Entegrasyon Karakteristik Gösteri Kursu İnşaatı tarafından da desteklenmektedir.

Materials

Matlab MathWorks Matlab R2016a MATLAB's programming interface provides development tools for improving code quality maintainability and maximizing performance.
It provides tools for building applications using custom graphical interfaces.
It provides tools for combining MATLAB-based algorithms with external applications and languages
Processor  Intel 11th Gen Intel(R) Core (TM) i5-1135G7 @ 2.40GHz 64-bit Win11 processor 
Pycharm JetBrains PyCharm 3.0 PyCharm is a Python IDE (Integrated Development Environment)
a list of required python:
modulesmatplotlib
skimage
torch
os
time
pydensecrf
opencv
glob
PIL
torchvision
numpy
tkinter
PyTorch  Facebook PyTorch 1.4  PyTorch is an open source Python machine learning library , based on Torch , used for natural language processing and other applications.PyTorch can be viewed both as the addition of GPU support numpy , but also can be viewed as a powerful deep neural network with automatic derivatives .

References

  1. Wang, W. G., Shen, J. B., Ling, H. B. A deep network solution for attention and aesthetics aware photo cropping. IEEE Transactions on Pattern Analysis and Machine Intelligence. 41 (7), 1531-1544 (2018).
  2. Wang, W. G., Sun, G. L., Gool, L. V. Looking beyond single images for weakly supervised semantic segmentation learning. IEEE Transactions on Pattern Analysis and Machine. , (2022).
  3. Mei, H. L., et al. Exploring dense context for salient object detection. IEEE Transactions on Circuits and Systems for Video Technology. 32 (3), 1378-1389 (2021).
  4. Borji, A., Itti, L. State-of-the-art in visual attention modeling. IEEE Transactions on Pattern Analysis and Machine Intelligence. 35 (1), 185-207 (2012).
  5. Long, J., Shelhamer, E., Darrell, T. Fully convolutional networks for semantic segmentation. , 3431-3440 (2015).
  6. Simonyan, K., Zisserman, A. Very deep convolutional networks for large-scale image recognition. arXiv preprint. , 1409-1556 (2014).
  7. He, K., Zhang, X., Ren, S., Sun, J. Deep residual learning for image recognition. , 770-778 (2016).
  8. Liu, N., Han, J. Dhsnet: Deep hierarchical saliency network for salient object detection. , 678-686 (2016).
  9. Zhang, L., Dai, J., Lu, H., He, Y., Wang, G. A bi-directional message passing model for salient object detection. , 1741-1750 (2018).
  10. Wu, R., et al. A mutual learning method for salient object detection with intertwined multi-supervision. , 8150-8159 (2019).
  11. Li, G., Yu, Y. Deep contrast learning for salient object detection. , 478-487 (2019).
  12. Ren, Q., Hu, R. Multi-scale deep encoder-decoder network for salient object detection. Neurocomputing. 316, 95-104 (2018).
  13. Wang, W. G., et al. Salient object detection in the deep learning era: An in-depth survey. IEEE Transactions on Pattern Analysis and Machine Intelligence. 44 (6), 3239-3259 (2021).
  14. Zhou, T., et al. RGB-D salient object detection: A survey. Computational Visual Media. 7, 37-69 (2021).
  15. Fu, K., et al. Siamese network for RGB-D salient object detection and beyond. IEEE Transactions on Pattern Analysis and Machine Intelligence. 44 (9), 5541-5559 (2021).
  16. Lai, Q., et al. Weakly supervised visual saliency prediction. IEEE Transactions on Image Processing. 31, 3111-3124 (2022).
  17. Zhang, L., Dai, J., Lu, H., He, Y., Wang, G. A bi-directional message passing model for salient object detection. , 1741-1750 (2018).
  18. Wu, R. A mutual learning method for salient object detection with intertwined multi-supervision. , 8150-8159 (2019).
  19. Wang, W., Shen, J., Dong, X., Borji, A., Yang, R. Inferring salient objects from human fixations. IEEE Transactions on Pattern Analysis and Machine Intelligence. 42 (8), 1913-1927 (2019).
  20. Movahedi, V., Elder, J. H. Design and perceptual validation of performance measures for salient object segmentation. , 49-56 (2010).
  21. Shi, J., Yan, Q., Xu, L., Jia, J. Hierarchical image saliency detection on extended CSSD. IEEE Transactions on Pattern Analysis and Machine Intelligence. 38 (4), 717-729 (2015).
  22. Achanta, R., Hemami, S., Estrada, F., Susstrunk, S. Frequency-tuned salient region detection. , 1597-1604 (2009).
  23. Yang, C., Zhang, L., Lu, H., Ruan, X., Yang, M. H. Saliency detection via graph-based manifold ranking. , 3166-3173 (2013).
  24. Wei, Y., et al. Geodesic saliency using background priors. Computer Vision-ECCV 2012. , 29-42 (2012).
  25. Margolin, R., Tal, A., Zelnik-Manor, L. What makes a patch distinct. , 1139-1146 (2013).
  26. Perazzi, F., Krähenbühl, P., Pritch, Y., Hornung, A. Saliency filters: Contrast based filtering for salient region detection. , 733-740 (2012).
  27. Hou, X., Harel, J., Koch, C. Image signature: Highlighting sparse salient regions. IEEE Transactions on Pattern Analysis and Machine Intelligence. 34 (1), 194-201 (2011).
  28. Jiang, H., et al. Salient object detection: A discriminative regional feature integration approach. , 2083-2090 (2013).
  29. Li, G., Yu, Y. Visual saliency based on multiscale deep features. , 5455-5463 (2015).
  30. Lee, G., Tai, Y. W., Kim, J. Deep saliency with encoded low level distance map and high-level features. , 660-668 (2016).
  31. Liu, N., Han, J. Dhsnet: Deep hierarchical saliency network for salient object detection. , 678-686 (2016).

Play Video

Cite This Article
Wang, Y., Wang, Z. End-To-End Deep Neural Network for Salient Object Detection in Complex Environments. J. Vis. Exp. (202), e65554, doi:10.3791/65554 (2023).

View Video