Waiting
로그인 처리 중...

Trial ends in Request Full Access Tell Your Colleague About Jove
Click here for the English version

Engineering

Karmaşık ortamlarda göze çarpan nesne algılama için uçtan uca derin sinir ağı

Published: December 15, 2023 doi: 10.3791/65554

Summary

Mevcut protokol, yeni bir uçtan uca göze çarpan nesne algılama algoritmasını açıklamaktadır. Karmaşık çevresel bağlamlarda göze çarpan nesne algılamanın hassasiyetini artırmak için derin sinir ağlarından yararlanır.

Abstract

Göze çarpan nesne algılama, bilgisayarla görme alanında gelişen bir ilgi alanı olarak ortaya çıkmıştır. Bununla birlikte, hakim algoritmalar, karmaşık ve çok yönlü ortamlarda göze çarpan nesneleri tespit etmekle görevlendirildiğinde azalan hassasiyet sergiler. Bu acil endişenin ışığında, bu makale, karmaşık ortamlarda göze çarpan nesneleri tespit etmeyi amaçlayan uçtan uca bir derin sinir ağı sunmaktadır. Çalışma, karmaşık ortamlarda göze çarpan nesneleri tespit etmeyi amaçlayan uçtan uca bir derin sinir ağı sunuyor. Piksel düzeyinde çok ölçekli tam evrişimli ağ ve derin kodlayıcı-kod çözücü ağı olmak üzere birbiriyle ilişkili iki bileşenden oluşan önerilen ağ, nesne sınırı tanımlamasının doğruluğunu artırmak için derin ve sığ görüntü özellikleri kullanırken, çok ölçekli özellik haritalarında görsel kontrast üretmek için bağlamsal anlambilimi bütünleştirir. Tamamen bağlantılı bir koşullu rastgele alan (CRF) modelinin entegrasyonu, göze çarpan haritaların uzamsal tutarlılığını ve kontur tasvirini daha da geliştirir. Önerilen algoritma, SOD ve ECSSD veritabanlarındaki 10 çağdaş algoritmaya karşı kapsamlı bir şekilde değerlendirilmiştir. Değerlendirme sonuçları, önerilen algoritmanın kesinlik ve doğruluk açısından diğer yaklaşımlardan daha iyi performans gösterdiğini ve böylece karmaşık ortamlarda göze çarpan nesne tespitindeki etkinliğini ortaya koyduğunu göstermektedir.

Introduction

Göze çarpan nesne algılama, arka plan bilgilerini bastırırken önemli görüntü bölgelerini hızla tanımlayarak insanın görsel dikkatini taklit eder. Bu teknik, görüntü kırpma1, anlamsal segmentasyon2 ve görüntü düzenleme3 gibi görevlerde bir ön işleme aracı olarak yaygın olarak kullanılmaktadır. Arka plan değiştirme ve ön plan çıkarma gibi görevleri kolaylaştırarak düzenleme verimliliğini ve hassasiyetini artırır. Ek olarak, hedef yerelleştirmeyi geliştirerek anlamsal segmentasyona yardımcı olur. Hesaplama verimliliğini artırmak ve belleği korumak için göze çarpan nesne algılama potansiyeli, önemli araştırma ve uygulama beklentilerinin altını çiziyor.

Yıllar geçtikçe, göze çarpan nesne algılama, ilk geleneksel algoritmalardan derin öğrenme algoritmalarının dahil edilmesine doğru gelişti. Bu ilerlemelerin amacı, göze çarpan nesne algılama ile insan görsel mekanizmaları arasındaki boşluğu daraltmak olmuştur. Bu, göze çarpan nesne algılama çalışması için derin evrişimli ağ modellerinin benimsenmesine yol açmıştır. Borji ve ark.4 , görüntünün altında yatan özelliklere dayanan klasik geleneksel algoritmaların çoğunu özetledi ve genelleştirdi. Algılama doğruluğundaki bazı gelişmelere rağmen, manuel deneyim ve biliş, karmaşık ortamlarda göze çarpan nesne algılaması için zorluklar oluşturmaya devam ediyor.

Evrişimli Sinir Ağlarının (CNN'ler) kullanımı, göze çarpan nesne algılama alanında yaygındır. Bu bağlamda, otonom öğrenme yoluyla ağırlık güncellemeleri için derin evrişimli sinir ağları kullanılmaktadır. Evrişimli sinir ağları, basamaklı evrişimli ve havuzlama katmanları kullanılarak görüntülerden bağlamsal anlambilim çıkarmak için kullanılmıştır ve farklı ortamlarda göze çarpan nesne algılama için daha yüksek ayrımcılık ve karakterizasyon yeteneğine sahip karmaşık görüntü özelliklerinin daha yüksek seviyelerde öğrenilmesini sağlar.

2016 yılında, tamamen evrişimli sinir ağları5 , araştırmacıların piksel düzeyinde göze çarpan nesne algılamaya başladığı belirgin nesne tespiti için popüler bir yaklaşım olarak önemli bir çekiş kazandı. Birçok model genellikle görüntü temsilini geliştirmeyi ve kenar algılamanın etkisini güçlendirmeyi amaçlayan mevcut ağlar (örneğin, VGG166, ResNet7) üzerine kuruludur.

Liu ve ark.8 , görüntüyü küresel olarak hesaplamak için çerçeve olarak önceden eğitilmiş bir sinir ağı kullandı ve ardından hiyerarşik bir ağ kullanarak nesne sınırını geliştirdi. İki ağın birleşimi, son derin belirginlik ağını oluşturur. Bu, daha önce edinilen göze çarpan haritanın tekrarlayan bir şekilde ön bilgi olarak ağa beslenmesiyle gerçekleştirildi. Zhang ve ark.9 , sırasıyla sığdan derine ve derinden sığ katmanlara çift yönlü bilgi aktarımı ile derin ağları kullanarak görüntü anlamsal ve uzamsal bilgileri etkili bir şekilde kaynaştırdı. Karşılıklı öğrenme derin modeli kullanılarak göze çarpan nesnelerin tespiti Wu ve ark.10 tarafından ortaya konmuştur. Model, algılama sürecini kolaylaştırmak için evrişimli bir sinir ağı içindeki ön plan ve kenar bilgilerini kullanır. Li ve ark.11 , göze çarpan nesne algılama bağlamında derin sinir ağlarındaki çeşitli katmanların alıcı alanlarını sabitleme zorluğunu ele almak için sinir ağlarının 'delik algoritmasını' kullandı. Bununla birlikte, nesne kenarı elde etmek için süper piksel segmentasyonu kullanılır ve bu da hesaplama çabasını ve hesaplama süresini büyük ölçüde artırır. Ren ve ark.12 , göze çarpan nesneleri tespit etmek için çok ölçekli bir kodlayıcı-kod çözücü ağı tasarladı ve derin ve sığ özellikleri etkili bir şekilde birleştirmek için evrişimli sinir ağlarını kullandı. Nesne algılamada sınır bulanıklığı sorunu bu yaklaşımla çözülse de, bilginin çok ölçekli birleşimi kaçınılmaz olarak artan hesaplama talepleriyle sonuçlanır.

Literatür taraması13 , geleneksel yöntemlerden derin öğrenme yöntemlerine kadar belirginlik tespitinin özetlendiğini ve belirginlik hedef tespitinin kökenlerinden derin öğrenme çağına evriminin çok net bir şekilde görülebileceğini öne sürmektedir. Literatürde iyi performansa sahip çeşitli RGB-D tabanlı göze çarpan nesne algılama modelleri önerilmiştir14. Yukarıdaki literatür, belirginlik nesnesi tespiti için çeşitli algoritma türlerini gözden geçirmekte ve sınıflandırmakta ve uygulama senaryolarını, kullanılan veritabanlarını ve değerlendirme ölçümlerini açıklamaktadır. Bu makale ayrıca, önerilen veritabanları ve değerlendirme ölçütleri ile ilgili olarak önerilen algoritmaların nitel ve nicel bir analizini sağlar.

Yukarıdaki algoritmaların tümü, karmaşık ortamlarda göze çarpan nesne tespiti için bir temel sağlayarak, halka açık veritabanlarında dikkate değer sonuçlar elde etmiştir. Bu alanda hem yurt içinde hem de yurt dışında çok sayıda araştırma başarısı elde edilmiş olmasına rağmen, hala ele alınması gereken bazı konular var. (1) Geleneksel derin olmayan öğrenme algoritmaları, öznel deneyim ve algıdan kolayca etkilenebilen renk, doku ve frekans gibi manuel olarak etiketlenmiş özelliklere güvenmeleri nedeniyle düşük doğruluğa sahip olma eğilimindedir. Sonuç olarak, göze çarpan nesne algılama yeteneklerinin hassasiyeti azalır. Geleneksel derin olmayan öğrenme algoritmalarını kullanarak karmaşık ortamlarda göze çarpan nesneleri tespit etmek, karmaşık senaryoları işlemedeki zorlukları nedeniyle zordur. (2) Göze çarpan nesne tespiti için geleneksel yöntemler, renk, doku ve frekans gibi manuel olarak etiketlenmiş özelliklere bağlı olmaları nedeniyle sınırlı doğruluk sergiler. Ek olarak, bölge düzeyinde algılama, genellikle uzamsal tutarlılığı göz ardı ederek hesaplama açısından pahalı olabilir ve nesne sınırlarını zayıf bir şekilde algılama eğilimindedir. Göze çarpan nesne algılamanın hassasiyetini artırmak için bu sorunların ele alınması gerekir. (3) Karmaşık ortamlarda göze çarpan nesne algılama, çoğu algoritma için bir zorluk teşkil eder. Göze çarpan nesne algılama algoritmalarının çoğu, değişken arka planlara (benzer arka plan ve ön plan renkleri, karmaşık arka plan dokuları vb.) sahip giderek daha karmaşık hale gelen göze çarpan nesne algılama ortamı, tutarsız algılama nesnesi boyutları ve ön plan ve arka plan kenarlarının belirsiz tanımı gibi birçok belirsizlik nedeniyle ciddi zorluklarla karşı karşıyadır.

Mevcut algoritmaların çoğu, benzer arka plan ve ön plan renklerine, karmaşık arka plan dokularına ve bulanık kenarlara sahip karmaşık ortamlarda göze çarpan nesneleri algılamada düşük doğruluk sergiler. Mevcut derin öğrenme tabanlı göze çarpan nesne algoritmaları, geleneksel algılama yöntemlerinden daha yüksek doğruluk gösterse de, kullandıkları temel görüntü özellikleri, anlamsal özellikleri etkili bir şekilde karakterize etmede hala yetersiz kalıyor ve performanslarında iyileştirme için yer bırakıyor.

Özetle, bu çalışma, karmaşık ortamlarda göze çarpan nesne algılamanın doğruluğunu artırmayı, hedef kenarları iyileştirmeyi ve anlamsal özellikleri daha iyi karakterize etmeyi amaçlayan, göze çarpan bir nesne algılama algoritması için uçtan uca bir derin sinir ağı önermektedir. Bu makalenin katkıları aşağıdaki gibidir: (1) İlk ağ, temel ağ olarak VGG16'yı kullanır ve 'delik algoritmasını'11 kullanarak beş havuzlama katmanını değiştirir. Piksel düzeyinde çok ölçekli, tamamen evrişimli sinir ağı, farklı uzamsal ölçeklerden görüntü özelliklerini öğrenerek, derin sinir ağlarının çeşitli katmanlarındaki statik alıcı alanların zorluğunu ele alır ve alandaki önemli odak alanlarında algılama doğruluğunu artırır. (2) Göze çarpan nesne algılamanın doğruluğunu artırmaya yönelik son çabalar, hem kodlayıcı ağından derinlik özelliklerini hem de kod çözücü ağından sığ özellikleri çıkarmak için VGG16 gibi daha derin sinir ağlarından yararlanmaya odaklanmıştır. Bu yaklaşım, nesne sınırlarının algılama doğruluğunu etkili bir şekilde artırır ve özellikle değişken arka planlara, tutarsız nesne boyutlarına ve ön plan ile arka plan arasında belirsiz sınırlara sahip karmaşık ortamlarda anlamsal bilgileri geliştirir. (3) Göze çarpan nesne algılamanın hassasiyetini artırmaya yönelik son çabalar, kodlayıcı ağından derin özellikleri ve kod çözücü ağından sığ özellikleri çıkarmak için VGG16 dahil olmak üzere daha derin ağların kullanımını vurgulamıştır. Bu yaklaşım, özellikle farklı arka planlara, nesne boyutlarına ve ön plan ile arka plan arasındaki belirsiz sınırlara sahip karmaşık ortamlarda, nesne sınırlarının ve daha büyük anlamsal bilgilerin daha iyi algılandığını göstermiştir. Ek olarak, göze çarpan haritaların uzamsal tutarlılığını ve kontur hassasiyetini artırmak için tam bağlantılı bir koşullu rastgele alan (CRF) modelinin entegrasyonu uygulanmıştır. Bu yaklaşımın etkinliği, karmaşık arka plana sahip SOD ve ECSSD veri setleri üzerinde değerlendirilmiş ve istatistiksel olarak anlamlı bulunmuştur.

İlgili çalışma
Fu ve ark.15 , göze çarpan nesne tespiti için RGB ve derin öğrenmeyi kullanan ortak bir yaklaşım önerdi. Lai ve ark.16 , belirgin nesne tespiti için zayıf denetimli bir model tanıttı, ek açıklamalardan belirginliği öğrendi, öncelikle açıklama süresinden tasarruf etmek için karalama etiketlerini kullandı. Bu algoritmalar, belirginlik nesnesi algılaması için iki tamamlayıcı ağın bir birleşimini sunarken, karmaşık senaryolar altında belirginlik algılamaya yönelik derinlemesine araştırmadan yoksundurlar. Wang ve ark.17 , hem aşağıdan yukarıya hem de yukarıdan aşağıya olmak üzere sinir ağı özelliklerinin iki modlu yinelemeli bir füzyonunu tasarladı ve önceki yinelemenin sonuçlarını yakınsamaya kadar aşamalı olarak optimize etti. Zhang ve ark.18 , sırasıyla sığdan derine ve derinden sığ katmanlara çift yönlü bilgi aktarımı ile derin ağları kullanarak görüntü anlamsal ve uzamsal bilgileri etkili bir şekilde kaynaştırdı. Karşılıklı öğrenme derin modeli kullanılarak göze çarpan nesnelerin tespiti Wu ve ark.19 tarafından önerilmiştir. Model, algılama sürecini kolaylaştırmak için evrişimli bir sinir ağı içindeki ön plan ve kenar bilgilerini kullanır. Bu derin sinir ağı tabanlı göze çarpan nesne algılama modelleri, halka açık veri kümelerinde dikkate değer bir performans elde ederek karmaşık doğal sahnelerde göze çarpan nesne algılamayı mümkün kılmıştır. Bununla birlikte, daha da üstün modeller tasarlamak bu araştırma alanında önemli bir hedef olmaya devam etmekte ve bu çalışma için birincil motivasyon olarak hizmet etmektedir.

Genel çerçeve
Önerilen modelin şematik gösterimi, Şekil 1'de gösterildiği gibi, öncelikle hem piksel düzeyinde çok ölçekli tam evrişimli sinir ağı (DCL) hem de derin kodlayıcı-kod çözücü ağı (DEDN) içeren VGG16 mimarisinden türetilmiştir. Model, VGG16'nın tüm son havuzlama ve tam bağlı katmanlarını ortadan kaldırırken, G × Y giriş görüntü boyutlarını barındırır. Operasyonel mekanizma, giriş görüntüsünün DCL aracılığıyla ilk işlenmesini içerir ve derin özelliklerin çıkarılmasını kolaylaştırırken, sığ özellikler DEDN ağlarından elde edilir. Bu özelliklerin birleşimi daha sonra, üretilen belirginlik haritalarının uzamsal tutarlılığını ve kontur doğruluğunu artıran, tamamen bağlantılı bir koşullu rastgele alan (CRF) modeline tabi tutulur.

Modelin etkinliğini belirlemek için, karmaşık arka planlara sahip SOD20 ve ECSSD21 veri kümeleri üzerinde test ve doğrulamaya tabi tutuldu. Giriş görüntüsü DCL'den geçtikten sonra, çeşitli alıcı alanlara sahip farklı ölçekli özellik haritaları elde edilir ve boyutlar arası tutarlılığa sahip bir W × H göze çarpan haritası üretmek için bağlamsal anlambilim birleştirilir. DCL, orijinal VGG16 ağının son havuzlama katmanını değiştirmek için 7 x 7 çekirdeğe sahip bir çift evrişimli katman kullanır ve özellik haritalarındaki uzamsal bilgilerin korunmasını artırır. Bu, bağlamsal anlambilimle birleştiğinde, boyutlar arası tutarlılığa sahip bir W × H göze çarpan haritası üretir. Benzer şekilde, Derin Kodlayıcı-Kod Çözücü Ağı (DEDN), kod çözücülerde 3 x 3 çekirdekli evrişimli katmanlar ve son kod çözme modülünden sonra tek bir evrişimli katman kullanır. Görüntünün derin ve sığ özelliklerinden yararlanarak, belirsiz nesne sınırlarının zorluğunu ele alarak W × H uzamsal boyutuna sahip göze çarpan bir harita oluşturmak mümkündür. Çalışma, DCL ve DEDN modellerini birleşik bir ağda birleştiren göze çarpan nesne tespiti için öncü bir tekniği açıklamaktadır. Bu iki derin ağın ağırlıkları bir eğitim süreciyle öğrenilir ve ortaya çıkan belirginlik haritaları birleştirilir ve ardından tamamen bağlantılı bir Koşullu Rastgele Alan (CRF) kullanılarak iyileştirilir. Bu iyileştirmenin birincil amacı, uzamsal tutarlılığı ve kontur lokalizasyonunu iyileştirmektir.

Piksel düzeyinde çok ölçekli, tamamen evrişimli sinir ağı
VGG16 mimarisi başlangıçta her biri 2 adımlı beş havuzlama katmanından oluşuyordu. Her havuzlama katmanı, kanal sayısını artırmak ve daha bağlamsal bilgi elde etmek için görüntü boyutunu sıkıştırır. DCL modeli, literatür13'ten esinlenmiştir ve VGG16'nın çerçevesi üzerinde bir gelişmedir. Bu makalede, derin bir evrişimli sinir ağı olan VGG16 mimarisi içinde Şekil 2'de gösterildiği gibi piksel düzeyinde bir DCL modeli11 kullanılmıştır. İlk dört maksimum havuzlama katmanı, üç çekirdekle birbirine bağlıdır. İlk çekirdek 3 × 3 × 128'dir; ikinci çekirdek 1 × 1 × 128'dir; ve üçüncü çekirdek 1 × 1 × 1'dir. Üç çekirdeğe bağlı ilk dört havuzlama katmanından sonra, her biri orijinal görüntünün sekizde birine eşit olan tek tip bir özellik eşlemesi boyutu elde etmek için, bu en büyük dört havuzlama katmanına bağlı ilk çekirdeğin adım boyutu sırasıyla 4, 2, 1 ve 1 olarak ayarlanır.

Farklı çekirdeklerdeki orijinal alıcı alanı korumak için, literatür11'de önerilen "delik algoritması", sıfırlar ekleyerek çekirdeğin boyutunu genişletmek ve böylece çekirdeğin bütünlüğünü korumak için kullanılır. Bu dört özellik eşlemesi, farklı adım boyutlarına sahip ilk çekirdeğe bağlanır. Sonuç olarak, son aşamada üretilen özellik haritaları aynı boyutlara sahiptir. Dört özellik haritası, her biri farklı boyutlardaki alıcı alanları temsil eden farklı ölçeklerden elde edilen bir dizi çok ölçekli özellik oluşturur. Dört ara katmandan elde edilen sonuç özellik haritaları, VGG16'dan türetilen nihai özellik haritası ile birleştirilir ve böylece 5 kanallı bir çıktı oluşturulur. Takip eden çıktı daha sonra sigmoid aktivasyon işlevine sahip 1 × 1 × 1 çekirdeğe tabi tutulur ve sonuçta göze çarpan harita üretilir (orijinal görüntünün sekizde biri çözünürlükle). Görüntü, çift doğrusal enterpolasyon kullanılarak yukarı örneklenir ve büyütülür, böylece belirginlik haritası olarak adlandırılan ortaya çıkan görüntünün ilk görüntüyle aynı çözünürlüğü koruması sağlanır.

Derin kodlayıcı-kod çözücü ağı
Benzer şekilde, VGG16 ağı omurga ağı olarak kullanılır. VGG16, az sayıda sığ özellik haritası kanalı, ancak yüksek çözünürlük ve çok sayıda derin özellik kanalı ancak düşük çözünürlük ile karakterize edilir. Havuzlama katmanları ve aşağı örnekleme, özellik haritası çözünürlüğünü azaltma pahasına derin ağın hesaplama hızını artırır. Bu sorunu çözmek için, literatür14'teki analizi takiben, kodlayıcı ağı, orijinal VGG16'daki son havuzlama katmanının tam bağlantısını değiştirmek için kullanılır. Bu modifikasyon, onu 7 × 7 çekirdekli iki evrişimli katmanla değiştirmeyi içerir (daha büyük evrişimli çekirdekler alıcı alanı artırır). Her iki evrişim çekirdeği de bir normalleştirme (BN) işlemi ve değiştirilmiş bir doğrusal birim (ReLU) ile donatılmıştır. Bu ayarlama, görüntü alanı bilgilerini daha iyi koruyan bir kodlayıcı çıktı özelliği eşlemesi ile sonuçlanır.

Kodlayıcı, göze çarpan nesnelerin küresel lokalizasyonu için üst düzey görüntü semantiğini geliştirirken, göze çarpan nesnesinin sınır bulanıklığı sorunu etkili bir şekilde iyileştirilmez. Bu sorunun üstesinden gelmek için, derin özellikler, Şekil 3'te gösterildiği gibi kodlayıcı-kod çözücü ağ modelini (DEDN) öneren kenar algılama çalışması12'den esinlenerek sığ özelliklerle birleştirilir. Kodlayıcı mimarisi, ilk dördü ile birbirine bağlı üç çekirdekten oluşurken, kod çözücü, maksimum havuzlama katmanlarından alınan maksimum değerleri kullanarak özellik haritası çözünürlüğünü sistematik olarak geliştirir.

Göze çarpan nesne algılamaya yönelik bu yenilikçi metodolojide, kod çözücü aşamasında, bir toplu normalleştirme katmanı ve uyarlanmış bir doğrusal birim ile birlikte 3 × 3 çekirdeğe sahip evrişimli bir katman kullanılır. Kod çözücü mimarisi içindeki son kod çözme modülünün sonunda, W × H uzamsal boyutlarının göze çarpan bir haritasını elde etmek için tek kanallı bir evrişimli katman kullanılır. Göze çarpan harita, kodlayıcı-kod çözücü modelinin işbirlikçi bir füzyonu yoluyla oluşturulur, sonuç ve ikisinin tamamlayıcı füzyonu, yani derin bilgi ve sığ bilginin tamamlayıcı füzyonu elde edilir. Bu, yalnızca göze çarpan nesnenin doğru lokalizasyonunu sağlamakla ve alıcı alanı artırmakla kalmaz, aynı zamanda görüntü ayrıntı bilgilerini etkili bir şekilde korur ve göze çarpan nesnenin sınırını güçlendirir.

Entegrasyon mekanizması
Kodlayıcı mimarisi, VGG16 modelinin ilk dört maksimum havuzlama katmanıyla ilişkili üç çekirdekten oluşur. Buna karşılık, kod çözücü, karşılık gelen havuzlama katmanlarından toplanan maksimum değerlerden yararlanarak, yukarı örnekleme katmanlarından elde edilen özellik haritalarının çözünürlüğünü aşamalı olarak artırmak için kasıtlı olarak formüle edilmiştir. Daha sonra kod çözücüde 3 x 3 çekirdek, bir toplu normalleştirme katmanı ve değiştirilmiş bir doğrusal birim kullanan evrişimli bir katman kullanılır, ardından W × H boyutlarının göze çarpan bir haritasını oluşturmak için tek kanallı bir evrişimli katman kullanılır. İki derin ağın ağırlıkları, değişen eğitim döngüleri yoluyla öğrenilir. İlk ağın parametreleri sabit tutulurken, ikinci ağın parametreleri toplam elli döngü boyunca eğitime tabi tutuldu. İşlem sırasında, füzyon için kullanılan belirginlik haritasının (S1 ve S2) ağırlıkları rastgele bir gradyan ile güncellenir. Kayıp fonksiyonu11 :

Equation 1 (1)

Verilen ifadede, G sembolü manuel olarak etiketlenmiş değeri temsil ederken, W ağ parametrelerinin tamamını ifade eder. Ağırlık β i, hesaplama sürecinde göze çarpan piksellerin göze çarpmayan piksellere oranını düzenlemek için dengeleyici bir faktör görevi görür.

Görüntü I üç parametre ile karakterize edilir: |I|, |I|- ve |I|+, sırasıyla toplam piksel sayısını, göze çarpmayan piksellerin sayısını ve göze çarpan piksellerin sayısını temsil eder. Equation 2

Yukarıdaki iki ağdan elde edilen göze çarpan haritalar komşu piksellerin tutarlılığını dikkate almadığından, uzamsal tutarlılığı geliştirmek için tamamen bağlı piksel düzeyinde belirginlik iyileştirme modeli CRF15 kullanılır. Enerji denklemi11 aşağıdaki gibidir ve ikili piksel etiketleme problemini çözer.

Equation 3 (2)

burada L, tüm piksellere atanan ikili etiketi (göze çarpan değer veya göze çarpmayan değer) belirtir. P(li) değişkeni, belirli bir xipikseline belirli bir li etiketi atanma olasılığını belirtir ve xipikselinin belirginlik olasılığını gösterir. Başlangıçta, P(1) = Sive P(0) = 1 - Si, burada Si, kaynaşmış belirginlik haritası S içindeki xipikselindeki belirginlik değerini gösterir. θi,j(li,l j) aşağıdaki gibi tanımlanan ikili potansiyeldir.

Equation 4 (3)

Bunlar arasında, eğer lilj ise, o zaman μ(li,l j) = 1, aksi takdirde μ(li,l j) = 0. θi,j hesaplaması, ilk çekirdeğin hem piksel konumu P'ye hem de piksel yoğunluğu I'e bağlı olduğu iki çekirdeğin kullanımını içerir. Bu, karşılaştırılabilir belirginlik değerleri sergileyen benzer renklere sahip piksellerin yakınlığı ile sonuçlanır. αve σ β σ iki parametre, renk benzerliği ve uzamsal yakınlığın sonucu ne ölçüde etkilediğini düzenler. İkinci çekirdeğin amacı, izole edilmiş küçük bölgeleri ortadan kaldırmaktır. Enerjinin en aza indirilmesi, Koşullu Rastgele Alan (CRF) dağılımının ortalama alanını hızlandıran yüksek boyutlu filtreleme yoluyla elde edilir. Hesaplama üzerine, Scrf olarak gösterilen göze çarpan harita, tespit edilen göze çarpan nesnelerle ilgili olarak gelişmiş uzamsal tutarlılık ve kontur sergiler.

Deneysel yapılandırmalar
Bu makalede, Python kullanılarak VGG16 sinir ağına dayalı belirgin hedef tespiti için derin bir ağ oluşturulmuştur. Önerilen model, SOD20 ve ECSSD21 veri setleri kullanılarak diğer yöntemlerle karşılaştırılmıştır. SOD görüntü veritabanı, karmaşık ve dağınık arka planları, ön plan ve arka plan arasındaki renk benzerliği ve küçük nesne boyutları ile bilinir. Bu veri kümesindeki her görüntüye hem nicel hem de nitel performans değerlendirmesi için manuel olarak etiketlenmiş bir true değeri atanır. Öte yandan, ECSSD veri kümesi öncelikle İnternet'ten elde edilen görüntülerden oluşur ve görüntü arka planı ile göze çarpan nesneler arasında düşük kontrastlı daha karmaşık ve gerçekçi doğal sahneler içerir.

Bu yazıda modeli karşılaştırmak için kullanılan değerlendirme indeksleri, yaygın olarak kullanılan Kesinlik-Geri Çağırma eğrisini, Fβve EMAE'yi içerir. Tahmin edilen belirginlik haritasını nicel olarak değerlendirmek için, belirginlik haritasını ikili hale getirmek için eşiği 0'dan 255'e değiştirerek Kesinlik-Geri Çağırma (PR) eğrisi22 kullanılır. Fβ, ikilileştirilmiş göze çarpan haritadan ve gerçek bir değer haritasından türetilen kesinlik ve geri çağırma denklemleri ile hesaplanan kapsamlı bir değerlendirme metriğidir.

Equation 5 (4)

burada β, doğruluğu ve geri çağırmayı ayarlamak için ağırlık parametresidir, β2 = 0.3 ayarı. EMAE'ninhesaplanması, takip eden matematiksel ifadeyle tanımlandığı gibi, ortaya çıkan belirginlik haritası ile temel doğruluk haritası arasındaki ortalama mutlak hatanın hesaplanmasına eşdeğerdir:

Equation 6 (5)

Ts(u,v), göze çarpan harita (u,v) piksellerinin çıkarılan değerini göstersin ve TG(u,v), gerçek harita (u,v) piksellerinin karşılık gelen değerini göstersin.

Subscription Required. Please recommend JoVE to your librarian.

Protocol

1. Deney düzeneği ve prosedürü

  1. Önceden eğitilmiş VGG16 modelini yükleyin.
    NOT: İlk adım, önceden eğitilmiş VGG16 modelini Keras kitaplığından6 yüklemektir.
    1. PyTorch gibi popüler derin öğrenme kitaplıklarını kullanarak Python'da önceden eğitilmiş bir VGG16 modeli yüklemek için şu genel adımları izleyin:
      1. İthalat meşalesi. torchvision.models'i model olarak içe aktarın.
      2. Önceden eğitilmiş VGG16 modelini yükleyin. vgg16_model = models.vgg16(önceden eğitilmiş=Doğru).
      3. VGG16 modelinin özetinin "print(vgg16_model)" olduğundan emin olun.
  2. DCL ve DEDN modellerini tanımlayın.
    1. DCL algoritmasının sözde kodu için Giriş: Görüntü veri kümesi SOD'si ve Çıkış: Eğitilmiş DCL modeli sağlayın.
      1. DCL modelini VGG16 omurga ağıyla başlatın.
      2. Görüntü veri kümesi D'yi önceden işleyin (örneğin, yeniden boyutlandırma, normalleştirme).
      3. Veri kümesini eğitim ve doğrulama kümelerine bölün.
      4. DCL modelini eğitmek için kayıp fonksiyonunu tanımlayın (örneğin, ikili çapraz entropi).
      5. Eğitim için hiperparametreleri ayarlayın: Öğrenme oranı (0.0001), Ayarlanan eğitim dönemi sayısı (50), Parti boyutu (8), Optimize Edici (Adam).
      6. DCL modelini eğitin: Tanımlanan dönem sayısındaki her dönem için, eğitim kümesindeki her toplu iş için yapın. Aşağıdakileri girin:
        1. İleri geçiş: Toplu görüntüleri DCL modeline besleyin. Tahmin edilen belirginlik haritalarını ve temel doğruluk haritalarını kullanarak kaybı hesaplayın.
        2. Geri geçiş: Degrade iniş sonunu kullanarak model parametrelerini güncelleyin. Doğrulama kümesi ucundaki doğrulama kaybını ve diğer değerlendirme ölçümlerini hesaplayın.
      7. Eğitilen DCL modelini kaydedin.
      8. Eğitilen DCL modelini döndürün.
    2. DEDN algoritması için sözde kod için şunu girin: Görüntü veri kümesi (X), Temel doğruluk belirginlik haritaları (Y), Eğitim yineleme sayısı (N).
      1. Kodlayıcı Ağı için, kodlayıcının değişikliklerle VGG16 iskeletini temel aldığından emin olun (aşağıda belirtildiği gibi).
        NOT: encoder_input = Giriş (şekil = input_shape)
        encoder_conv1 = Conv2D(64, (3, 3), activation='relu', padding='same')(encoder_input)
        encoder_pool1 = MaxPooling2D((2, 2))(encoder_conv1)
        encoder_conv2 = Conv2D(128, (3, 3), aktivasyon='relu', padding='aynı')(encoder_pool1)
        encoder_pool2 = MaxPooling2D((2, 2))(encoder_conv2)
        encoder_conv3 = Conv2D(256, (3, 3), aktivasyon='relu', padding='aynı')(encoder_pool2)
        encoder_pool3 = MaxPooling2D((2, 2))(encoder_conv3)
      2. Kod Çözücü Ağı için, kod çözücünün değişikliklerle VGG16 iskeletini temel aldığından emin olun (aşağıda belirtildiği gibi).
        NOT: decoder_conv1 = Conv2D(256, (3, 3), activation='relu', padding='same')(encoder_pool3)
        decoder_upsample1 = UpSampling2D((2, 2))(decoder_conv1)
        decoder_conv2 = Conv2D(128, (3, 3), aktivasyon='relu', padding='aynı')(decoder_upsample1)
        decoder_upsample2 = UpSampling2D((2, 2))(decoder_conv2)
        decoder_conv3 = Conv2D(64, (3, 3), activation='relu', padding='same')(decoder_upsample2)
        decoder_upsample3 = UpSampling2D((2, 2))(decoder_conv3)
        decoder_output = Conv2D(1, (1, 1), aktivasyon='sigmoid', padding='aynı')(decoder_upsample3)
    3. DEDN modelini tanımlayın. model = Model (girişler = encoder_input, çıkışlar = decoder_output).
    4. Modeli derleyin. model.compile (optimize edici = adam, kayıp = binary_crossentropy).
    5. Eğitim döngüsünü seçin.
      NOT: Aralık(N) içindeki yineleme için: # Rastgele bir grup görüntü ve temel doğruluk haritası seçin; batch_X, batch_Y = randomly_select_batch(X, Y, batch_size).
      1. Modeli toplu iş üzerinde eğitin. kayıp = model.train_on_batch(batch_X, batch_Y). İzleme için kaybı yazdırın.
    6. Eğitilen modeli kaydedin. model.save ('dedn_model.h5').
  3. Birleşmek.
    1. DCL ve DEDN ağlarının çıkışlarını birleştirin ve tam bağlantılı bir koşullu rastgele alan (CRF) modeli kullanarak belirginlik haritasını iyileştirin.

2. Görüntü işleme

  1. GUI arayüzünü açmak için kodu çalıştır'a tıklayın (Şekil 4).
  2. Yolu ve dolayısıyla algılanacak görüntüyü seçmek için resmi aç'a tıklayın.
  3. Algılama için seçilen görüntüyü görüntülemek için ekran görüntüsüne tıklayın.
  4. Seçilen görüntüyü algılamak için algılamayı başlat'a tıklayın.
    NOT: Algılama sonucu, algılanan görüntüyle, yani göze çarpan nesnenin sonucuyla birlikte görünecektir (Şekil 5).
  5. Göze çarpan nesne algılamanın görüntü sonuçlarını kaydetmek için kaydetme yolunu seçmeye tıklayın.

Subscription Required. Please recommend JoVE to your librarian.

Representative Results

Bu çalışma, iki tamamlayıcı ağdan oluşan uçtan uca bir derin sinir ağını tanıtmaktadır: piksel düzeyinde çok ölçekli tam evrişimli ağ ve derin kodlayıcı-kod çözücü ağı. İlk ağ, çok ölçekli özellik haritalarından görsel kontrastlar elde etmek için bağlamsal semantikiyi entegre ederek, farklı katmanlardaki derin sinir ağlarındaki sabit alıcı alanların zorluğunu ele alır. İkinci ağ, hedef nesnelerdeki bulanık sınırlar sorununu azaltmak için hem derin hem de sığ görüntü özelliklerini kullanır. Son olarak, belirginlik haritasının uzamsal tutarlılığını ve konturlarını iyileştirmek için tam bağlantılı bir koşullu rastgele alan (CRF) modeli uygulanır.

Çalışma, önerilen algoritma ile alanda mevcut on algoritma arasında nitel ve nicel bir karşılaştırma yapmaktadır. Deneysel sonuçlar, önerilen algoritmanın önemli nesne algılamanın doğruluğunu artırmadaki etkinliğini göstermektedir. Dahası, algoritma, akıllı güç şebekeleri alanındaki çeşitli karmaşık ortamlarda umut verici beklentiler sunarak, güç görsel görevlerinde potansiyel uygulanabilirlik gösterir.

Ablasyon deneyleri
Mevcut araştırma, algoritmanın etkinliğini değerlendirmek için SOD veritabanında bir dizi ablasyon deneyi gerçekleştirdi. Söz konusu deneylerin sonuçları Tablo 1'de detaylandırılmıştır. (1) Modeli karşılaştırmak için kullanılan değerlendirme ölçütleri, Kesinlik-Geri Çağırma eğrisi22, Fβve EMAE'dir. Tablo 1 (No. 1) sonuçları, DCL modelinin algoritmadan çıkarılmasının Fβdeğerinde bir azalmaya ve EMAEdeğerinde bir artışa neden olduğunu göstermektedir. Yukarıda bahsedilen gözlem, Dinamik Evrişimli Katmanların (DCL), dinamik alıcı alanları çeşitli katmanlara entegre ederek derin sinir ağlarının etkinliğini artırma kapasitesine sahip olabileceğini ve bunun da çok ölçekli özellik haritalarının görsel kontrastını artırabileceğini düşündürmektedir. (2) Tablo 1'den (No.2), bu makaledeki algoritmanın yalnızca DEDN yapısını sildiğini, Tablo 1'deki (No.3) tam modülle karşılaştırıldığında, Tablo 1'deki (No.2) F_β değerinin azaldığını ve E_MAE değerinin arttığını görebiliriz, bu da DEDN'nin belirginliği etkili ve doğru bir şekilde bulabildiğini, alıcı alanı artırabildiğini gösterir, ve belirginliğin sınırlarını güçlendirirken görüntünün ayrıntılı bilgilerini koruyun.

Şekil 6 , ablasyon deneyinin görselleştirme sonuçlarını göstermektedir. Görüntüler soldan sağa doğru düzenlenir ve orijinal görüntüyü, DCL algoritma sonucunu, DEDN algoritma sonucunu, bu makalede önerilen algoritmayı ve karşılık gelen yer-gerçek görüntüsünü sergiler. Şekil 6'nın daha yakından incelenmesi üzerine, DCL algoritmasının SOD veritabanındaki görüntüleri tespit ederken hedef sınırı tanımlama eğiliminde olduğu, ancak arka planı etkili bir şekilde filtrelemekte zorlandığı açıktır. Öte yandan DEDN algoritması, hedef sınırı güçlendirir, ancak arka plan artıklık bilgilerini bastırmada zorluklarla karşılaşır. Buna karşılık, bu yazıda önerilen algoritma, bu iki algoritmanın güçlü yönlerini tamamlayıcı bir şekilde birleştirerek, karmaşık arka planlardan gelen artıklık bilgilerini bastırırken hedefi etkili bir şekilde vurgular. Bu makalenin sonuçları, her iki algoritmanın da tek başına elde ettiği sonuçları aşmaktadır.

Diğer gelişmiş algoritmalarla karşılaştırma
Önerilen algoritmanın performansını değerlendirmek için, GMR23, GS24, SF25, PD26, SS27, DRFI28, MDF29, ELD30, DHS31 ve DCL11 olmak üzere on bir belirgin belirgin nesne algılama yöntemi ile karşılaştırmalı bir analiz yapılmıştır. Bunlar arasında, GMR23, GS24, SF25, PD26, SS27 ve DRFI28 , birçok derin belirginlik modeli tarafından yaygın olarak kıyaslama olarak kullanılan iyi performans gösteren geleneksel denetimsiz belirginlik algılama yöntemleridir. Kalan dört yöntem, derin evrişimli sinir ağlarından yararlanır ve ilgili araştırma literatüründe üstün performans göstermiştir. Bu çalışma için kullanılan değerlendirme ölçütleri arasında PR eğrileri, maksimum F-ölçüm değerleri ve ortalama mutlak hata (MAE) yer almaktadır. Seçilen test veri kümeleri, SOD ve ECSSD veri kümelerinden oluşur.

Kantitatif karşılaştırma
Şekil 7 , bu çalışmada önerilen algoritmayı, SOD ve ECSSD halka açık görüntü veri kümelerinde öne çıkan diğer 10 göze çarpan nesne algılama yöntemiyle karşılaştıran kesinlik-geri çağırma (PR) eğrilerini göstermektedir. Eğriler, bu çalışmada önerilen algoritmanın diğer 10 algoritmadan daha iyi performans gösterdiğini ve böylece bu yazıda sunulan yöntemin üstün algılama performansını doğruladığını açıkça göstermektedir. Bu algoritmanın, geri çağırma 1'e yaklaşırken bile yüksek hassasiyeti sürdürme yeteneği, görsel olarak göze çarpan nesnelerin bütünlüklerini sağlarken doğru segmentasyonunu gösterir. Tablo 2 , SOD ve ECSSD test veri kümelerindeki yöntemlerin nicel bir karşılaştırmasını sunarak, algoritmamızın maksimum F-ölçüsü (Fβ) ve ortalama mutlak hata (EMAE) açısından daha iyi performans elde ettiğini ortaya koymaktadır.

Niteliksel karşılaştırma
Ayrıca, Şekil 8'de gösterildiği gibi, analiz edilen tekniklerin görsel sonuçlarını yan yana getirmek için nitel bir değerlendirme yapılmıştır. Bu şekiller, orijinal görüntülerden başlayarak soldan sağa doğru düzenlenmiş bir dizi görüntüyü gösterir, ardından GMR23, GS24, SF25, PD26, SS27, DRFI28, MDF29, ELD30, DHS31 ve DCL11, bu makalede önerilen algoritma ve Yer-gerçek haritası.

Şekil 8A'da, SOD veri setinde nitel bir karşılaştırma sunulmaktadır. Sütun 1'deki orijinal görüntünün, arka plan ve ön plan öğeleri arasında nispeten benzer bir renk dağılımı sergilediği açıktır. Ek olarak, birinci ve üçüncü belirginlik haritaları, göze çarpan nesnenin algılanmasını potansiyel olarak engelleyen daha karmaşık bir arka plan dokusu sunar. Bu çalışmada özetlenen algoritma, karmaşık ortamlarda göze çarpan nesnelerin algılanmasında önemli bir gelişme olduğunu ve diğer mevcut algoritmaların performansını aştığını göstermektedir. Sütun 1'deki ilk görüntü, özellikle ikinci görüntü, ön plandaki hayvanla iç içe geçmiş arka plan dalları içerir ve bu da ön plandaki nesnenin doğru değerlendirilmesi için bir zorluk oluşturur. Bu çalışmada ortaya konan algoritma, arka plan paraziti sorununu başarılı bir şekilde ele almakta ve ön plan nesne bölgesini etkili bir şekilde vurgulamaktadır. Deney, önerilen algoritmanın karmaşık arka planlara sahip görüntülerle başa çıkmada yüksek doğruluk ve hassasiyet sağladığını göstermektedir.

Şekil 8B'de, çeşitli göze çarpan nesne algılama yöntemlerinin görsel kontrast sonuçlarını sergileyen ECSSD veri seti içinde nitel bir karşılaştırma sunulmaktadır. Bulgular, önerilen algoritmanın çeşitli ve karmaşık doğal sahnelerde üstün algılama performansı elde ettiğini göstermektedir. Bu doğal sahne görüntüleri, birinci ve ikinci görüntülerde görüntü sınırlarıyla temas halinde olan göze çarpan nesneler ve üçüncü görüntüde ön plan ile arka plan arasındaki düşük kontrast ve renk benzerliği gibi senaryoları kapsar. Bu görselleştirilmiş sonuçlar sayesinde, burada önerilen algoritma, net nesne sınırları sağlarken tüm göze çarpan nesneleri etkili bir şekilde vurgular. Göze çarpan nesnelerin ölçeği ne olursa olsun, ister büyük ister küçük olsun, algoritma sürekli olarak yüksek segmentasyon doğruluğu sergileyerek etkinliğini doğrular. Ayrıca, diğer yöntemlerle karşılaştırıldığında, bu çalışmada sunulan algoritma, belirginlik bölgelerinde (veya arka plan bölgelerinde) yanlış algılamaları azaltarak daha yüksek sağlamlık göstermektedir.

Figure 1
Şekil 1: Genel yapı çerçevesi. Önerilen modelin şematik gösterimi. Bu rakamın daha büyük bir sürümünü görüntülemek için lütfen buraya tıklayın.

Figure 2
Şekil 2: Piksel düzeyinde DCL modeli. Derin bir evrişimli sinir ağı olan VGG16'nın mimarisinde piksel düzeyinde bir DCL modeli kullanılır. İlk dört maksimum havuzlama katmanı, üç çekirdekle birbirine bağlıdır. Bu rakamın daha büyük bir sürümünü görüntülemek için lütfen buraya tıklayın.

Figure 3
Şekil 3: Kodlama-kod çözme ağ modeli (DEDN). Derin özellikler, uç algılama çalışmasından ilham alan sığ özelliklerle birleştirilerek kodlayıcı-kod çözücü ağ modeli (DEDN) önerilmiştir. Bu rakamın daha büyük bir sürümünü görüntülemek için lütfen buraya tıklayın.

Figure 4
Şekil 4: GUI arayüzü. Kod, kolay kullanım için bir GUI arabirimi oluşturmak üzere çalıştırılır. Bu rakamın daha büyük bir sürümünü görüntülemek için lütfen buraya tıklayın.

Figure 5
Şekil 5: GUI arayüzü demosu. Test görüntüsü sonuçlarının kolay karşılaştırılması için GUI arayüz sunumu. Bu rakamın daha büyük bir sürümünü görüntülemek için lütfen buraya tıklayın.

Figure 6
Şekil 6: Ablasyon deneyinin görselleştirme sonuçları. (A) Orijinal görüntü, (B) DCL algoritması, (C) DEDN algoritması, (D) mevcut çalışmada kullanılan algoritma ve (E) karşılık gelen temel-gerçek görüntü soldan sağa doğru gösterilir. Şekil 6'dan görülebileceği gibi, (B) DCL algoritması görüntüleri algılarken yalnızca hedef sınırı tanımlayabilir ve arka planın filtrelenmesi zordur. (C) DEDN algoritması, hedef sınırı güçlendirme etkisine sahiptir, ancak arka plan artıklık bilgilerini bastırmak da aynı derecede zordur; (D) ise bu makaledeki algoritma, bu iki algoritmayı tamamlayıcı bir şekilde birleştirerek, karmaşık arka planın artıklık bilgisini bastırırken hedefi vurgular. Bu rakamın daha büyük bir sürümünü görüntülemek için lütfen buraya tıklayın.

Figure 7
Şekil 7: P-R eğrisi. (A) P-R eğrileri sırasıyla SOD veritabanlarında ve (B) P-R eğrileri ECSSD veritabanlarındadır. Bu çalışmanın algoritmasının hem (A) hem de (B)'deki P-R eğrileri diğer 10 algoritmanınkinden daha yüksektir, bu da bu makaledeki algoritmanın bu 10 algoritmaya göre yüksek doğruluğa sahip olduğu kanıtlanmıştır. Bu rakamın daha büyük bir sürümünü görüntülemek için lütfen buraya tıklayın.

Figure 8
Şekil 8: Niteliksel karşılaştırma. Sırasıyla SOD veritabanlarında (A) ve ECSSD veritabanlarında (B) farklı göze çarpan nesne algılama algoritmalarının nitel karşılaştırması. Orijinal giriş görüntüleri soldan sağa, GMR, GS, SF, PD, SS, DRFI, MDF, ELD, DHS ve DCL, bu çalışmada önerilen algoritma ve Ground-truth haritası sunulmaktadır. (A)'da görüldüğü gibi, özetlenen algoritma, karmaşık ortamlarda göze çarpan nesnelerin algılanmasında önemli bir gelişme sağlayarak diğer mevcut algoritmaların performansını aşmaktadır. (B)'de görülebileceği gibi, bu çalışmada önerilen algoritma, göze çarpan (veya arka plan) bölgelerin yanlış tespitini azalttığı için diğer yöntemlere kıyasla daha yüksek sağlamlığa sahiptir. Bu rakamın daha büyük bir sürümünü görüntülemek için lütfen buraya tıklayın.

Hayır. Modül ayarı Fβ EMAE
NO.1 Yalnızca DCL'yi kaldırma 0.835 0.117
NO.2 Yalnızca DEDN'yi kaldırma 0.832 0.126
NO.3 Komple Modül 0.854 0.110

Tablo 1: Ablasyon deneylerinin sonuçları.

Model SOD ECSSD (ECSSD)
Fβ EMAE Fβ EMAE
GMR (Genel Müdür) 0.740 0.148 0.476 0.189
GS 0.677 0.188 0.355 0.344
SF 0.779 0.150 0.309 0.230
PD 0.720 0.162 0.358 0.248
SS 0.574 0.225 0.268 0.344
DRFI (Türkçe) 0.801 0.127 0.516 0.166
MDF 0.709 0.150 0.832 0.105
YAŞLILIK 0.737 0.154 0.869 0.078
DHS (DHS) 0.812 0.127 0.907 0.059
DCL 0.786 0.131 0.901 0.068
Bu çalışma 0.854 0.110 0.938 0.044

Tablo 2: İki görüntü veri kümesindeki çeşitli algoritmaların maksimum F-ölçüm değerleri (Fβ) ve MAE (Ortalama Mutlak Hata) değerleri.

Subscription Required. Please recommend JoVE to your librarian.

Discussion

Makale, karmaşık ortamlarda göze çarpan nesnelerin algılanması için özel olarak tasarlanmış uçtan uca bir derin sinir ağını tanıtmaktadır. Ağ, birbirine bağlı iki bileşenden oluşur: piksel düzeyinde çok ölçekli tam evrişimli ağ (DCL) ve derin kodlayıcı-kod çözücü ağ (DEDN). Bu bileşenler, çok ölçekli özellik haritalarında görsel kontrastlar oluşturmak için bağlamsal anlambilimi birleştirerek sinerjik olarak çalışır. Ek olarak, nesne sınırı tanımlamasının hassasiyetini artırmak için hem derin hem de sığ görüntü özelliklerinden yararlanırlar. Tamamen bağlantılı bir Koşullu Rastgele Alan (CRF) modelinin entegrasyonu, belirginlik haritalarının ve kontur tanımlamasının uzamsal tutarlılığını daha da geliştirir.

Bu amaca ulaşmak için, VGG16 mimarisine dayalı olarak Derin Bağlam Öğrenme (DCL) ağı ve Derin Kodlayıcı-Kod Çözücü Ağı (DEDN) olmak üzere iki derin ağ oluşturulmuştur. Operasyonel adım 1.2'de açıklandığı gibi, DCL verimi aracılığıyla işlenen girdi görüntüleri, farklı alıcı alanlarla karakterize edilen çeşitli ölçeklerde haritalara sahiptir. Bu haritalar daha sonra bağlamsal anlambilimle birleştirilir ve sonuçta boyutlar arası tutarlılığa sahip W × H boyutlarında belirginlik haritaları oluşturulur. Spesifik olarak, DCL11, orijinal VGG16 ağının son havuzlama katmanını değiştirmek için her biri 7 x 7 çekirdekle donatılmış bir çift evrişimli katman kullanır. Bu değişiklik, özellik haritalarındaki uzamsal bilgilerin korunmasında çok önemlidir. Bağlamsal anlambilim ile işbirliği içinde, boyutlar arası tutarlılığa sahip belirginlik haritaları ile sonuçlanır.

Aynı zamanda, Derin Kodlayıcı-Kod Çözücü Ağı (DEDN)14 , kod çözücü bölümünde 3 x 3 çekirdek evrişimli katman kullanır ve ardından son kod çözme modülünden sonra tek bir evrişimli katman kullanır. Derin ve sığ seviyeli özelliklerin DEDN tarafından bu entegrasyonu, belirsiz nesne sınırlarıyla ilgili zorlukları ele alarak, W × H uzamsal boyutlarına sahip belirginlik haritalarının oluşturulmasını kolaylaştırır. Bu makalede sunulan araştırma, operasyonel adım 1.3'te açıklandığı gibi, göze çarpan nesne tespiti için öncü bir teknik sunmaktadır. DCL ve DEDN modellerini, bu iki derin ağın ağırlıklarını öğrenen ve ardından elde edilen belirginlik haritalarını birleştiren bir eğitim süreci aracılığıyla birleşik bir ağ çerçevesinde birleştirir. Koşullu Rastgele Alanlar (CRF) tamamen bağlantılı bir şekilde uygulanarak daha fazla ayrıntılandırma elde edilir. Bu iyileştirmenin birincil amacı, uzamsal tutarlılığı ve kontur lokalizasyonunu geliştirmektir.

Her iki ağ da sinir ağı omurgası olarak VGG16 mimarisi kullanılarak geliştirildi ve sonuçta Koşullu Rastgele Alanlar (CRF) aracılığıyla kaynaştırıldı. Önerilen algoritma, karmaşık ortamlarda hedef tespiti alanında önemli bir potansiyel gösterirken, gelecekteki araştırma girişimleri, hesaplama verimliliğini artırmaya yönelik olacaktır. Amaç, algılama performansından ödün vermeden üstün işlem hızı elde etmektir.

Önerilen algoritma, SOD20 ve ECSSD21 veritabanlarındaki 10 çağdaş algoritmaya karşı kapsamlı bir değerlendirmeye tabi tutulmuştur. Değerlendirme sonuçları, önerilen algoritmanın kesinlik ve doğruluk açısından diğer yaklaşımlardan daha iyi performans gösterdiğini ve karmaşık ortamlarda göze çarpan nesne algılamadaki etkinliğini ortaya koyduğunu göstermektedir. Ayrıca, algoritma, elektrik güç sistemleri alanındaki görsel görevlere aktarılabilirlik için umut vaat ediyor. İzolatörlerin segmentasyonu ve akıllı elektrik şebekeleri içindeki karmaşık ortamlarda yangın tehlikelerinin erken tespiti gibi uygulamalar için önemli bir potansiyele sahiptir.

Subscription Required. Please recommend JoVE to your librarian.

Disclosures

Yazarların açıklayacak hiçbir şeyi yok.

Acknowledgments

Bu çalışma, 2024 Henan İl Yükseköğretim Kurumları Temel Bilimsel Araştırma Projesi Destekleme Programı Kurulumu (Proje No:24A520053) tarafından desteklenmektedir. Bu çalışma aynı zamanda Henan Eyaletinde Özel Oluşturma ve Entegrasyon Karakteristik Gösteri Kursu İnşaatı tarafından da desteklenmektedir.

Materials

Name Company Catalog Number Comments
Matlab MathWorks Matlab R2016a MATLAB's programming interface provides development tools for improving code quality maintainability and maximizing performance.
It provides tools for building applications using custom graphical interfaces.
It provides tools for combining MATLAB-based algorithms with external applications and languages
Processor  Intel 11th Gen Intel(R) Core (TM) i5-1135G7 @ 2.40GHz 64-bit Win11 processor 
Pycharm JetBrains PyCharm 3.0 PyCharm is a Python IDE (Integrated Development Environment)
a list of required python:
modulesmatplotlib
skimage
torch
os
time
pydensecrf
opencv
glob
PIL
torchvision
numpy
tkinter
PyTorch  Facebook PyTorch 1.4  PyTorch is an open source Python machine learning library , based on Torch , used for natural language processing and other applications.PyTorch can be viewed both as the addition of GPU support numpy , but also can be viewed as a powerful deep neural network with automatic derivatives .

DOWNLOAD MATERIALS LIST

References

  1. Wang, W. G., Shen, J. B., Ling, H. B. A deep network solution for attention and aesthetics aware photo cropping. IEEE Transactions on Pattern Analysis and Machine Intelligence. 41 (7), 1531-1544 (2018).
  2. Wang, W. G., Sun, G. L., Gool, L. V. Looking beyond single images for weakly supervised semantic segmentation learning. IEEE Transactions on Pattern Analysis and Machine. , (2022).
  3. Mei, H. L., et al. Exploring dense context for salient object detection. IEEE Transactions on Circuits and Systems for Video Technology. 32 (3), 1378-1389 (2021).
  4. Borji, A., Itti, L. State-of-the-art in visual attention modeling. IEEE Transactions on Pattern Analysis and Machine Intelligence. 35 (1), 185-207 (2012).
  5. Fully convolutional networks for semantic segmentation. Long, J., Shelhamer, E., Darrell, T. Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, , 3431-3440 (2015).
  6. Simonyan, K., Zisserman, A. Very deep convolutional networks for large-scale image recognition. arXiv preprint. , 1409-1556 (2014).
  7. Deep residual learning for image recognition. He, K., Zhang, X., Ren, S., Sun, J. Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, , 770-778 (2016).
  8. Dhsnet: Deep hierarchical saliency network for salient object detection. Liu, N., Han, J. Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, , 678-686 (2016).
  9. A bi-directional message passing model for salient object detection. Zhang, L., Dai, J., Lu, H., He, Y., Wang, G. Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, , 1741-1750 (2018).
  10. Wu, R., et al. A mutual learning method for salient object detection with intertwined multi-supervision. Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, , 8150-8159 (2019).
  11. Deep contrast learning for salient object detection. Li, G., Yu, Y. Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, , 478-487 (2019).
  12. Ren, Q., Hu, R. Multi-scale deep encoder-decoder network for salient object detection. Neurocomputing. 316, 95-104 (2018).
  13. Wang, W. G., et al. Salient object detection in the deep learning era: An in-depth survey. IEEE Transactions on Pattern Analysis and Machine Intelligence. 44 (6), 3239-3259 (2021).
  14. Zhou, T., et al. RGB-D salient object detection: A survey. Computational Visual Media. 7, 37-69 (2021).
  15. Fu, K., et al. Siamese network for RGB-D salient object detection and beyond. IEEE Transactions on Pattern Analysis and Machine Intelligence. 44 (9), 5541-5559 (2021).
  16. Lai, Q., et al. Weakly supervised visual saliency prediction. IEEE Transactions on Image Processing. 31, 3111-3124 (2022).
  17. A bi-directional message passing model for salient object detection. Zhang, L., Dai, J., Lu, H., He, Y., Wang, G. Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, , 1741-1750 (2018).
  18. A mutual learning method for salient object detection with intertwined multi-supervision. Wu, R. Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, , 8150-8159 (2019).
  19. Wang, W., Shen, J., Dong, X., Borji, A., Yang, R. Inferring salient objects from human fixations. IEEE Transactions on Pattern Analysis and Machine Intelligence. 42 (8), 1913-1927 (2019).
  20. Design and perceptual validation of performance measures for salient object segmentation. Movahedi, V., Elder, J. H. 2010 IEEE Computer Society Conference on Computer Vision and Pattern Recognition-Workshops, , 49-56 (2010).
  21. Shi, J., Yan, Q., Xu, L., Jia, J. Hierarchical image saliency detection on extended CSSD. IEEE Transactions on Pattern Analysis and Machine Intelligence. 38 (4), 717-729 (2015).
  22. Frequency-tuned salient region detection. Achanta, R., Hemami, S., Estrada, F., Susstrunk, S. 2009 IEEE Conference on Computer Vision and Pattern Recognition, , 1597-1604 (2009).
  23. Saliency detection via graph-based manifold ranking. Yang, C., Zhang, L., Lu, H., Ruan, X., Yang, M. H. Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, , 3166-3173 (2013).
  24. Wei, Y., et al. Geodesic saliency using background priors. Computer Vision-ECCV 2012. , Springer. Berlin Heidelberg. 29-42 (2012).
  25. What makes a patch distinct. Margolin, R., Tal, A., Zelnik-Manor, L. Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, , 1139-1146 (2013).
  26. Saliency filters: Contrast based filtering for salient region detection. Perazzi, F., Krähenbühl, P., Pritch, Y., Hornung, A. 2012 IEEE Conference on Computer Vision and Pattern Recognition, , 733-740 (2012).
  27. Hou, X., Harel, J., Koch, C. Image signature: Highlighting sparse salient regions. IEEE Transactions on Pattern Analysis and Machine Intelligence. 34 (1), 194-201 (2011).
  28. Salient object detection: A discriminative regional feature integration approach. Jiang, H., et al. Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, , 2083-2090 (2013).
  29. Visual saliency based on multiscale deep features. Li, G., Yu, Y. Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, , 5455-5463 (2015).
  30. Deep saliency with encoded low level distance map and high-level features. Lee, G., Tai, Y. W., Kim, J. Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, , 660-668 (2016).
  31. Dhsnet: Deep hierarchical saliency network for salient object detection. Liu, N., Han, J. Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, , 678-686 (2016).

Tags

Mühendislik Sayı 202 karmaşık ortamlar uçtan uca derin sinir ağları göze çarpan nesne algılama
Karmaşık ortamlarda göze çarpan nesne algılama için uçtan uca derin sinir ağı
Play Video
PDF DOI DOWNLOAD MATERIALS LIST

Cite this Article

Wang, Y., Wang, Z. End-To-End DeepMore

Wang, Y., Wang, Z. End-To-End Deep Neural Network for Salient Object Detection in Complex Environments. J. Vis. Exp. (202), e65554, doi:10.3791/65554 (2023).

Less
Copy Citation Download Citation Reprints and Permissions
View Video

Get cutting-edge science videos from JoVE sent straight to your inbox every month.

Waiting X
Simple Hit Counter