本プロトコルは、新しいエンドツーエンドの突出物検出アルゴリズムを記述する。ディープニューラルネットワークを活用して、複雑な環境コンテキスト内で顕著な物体の検出精度を高めます。
顕著な物体の検出は、コンピュータビジョンの領域で急成長している関心分野として浮上しています。しかし、一般的なアルゴリズムは、複雑で多面的な環境の中で顕著な物体を検出する場合、精度が低下します。この差し迫った懸念に照らして、この記事では、複雑な環境内の顕著なオブジェクトを検出することを目的としたエンドツーエンドのディープニューラルネットワークを紹介します。この研究では、複雑な環境内の顕著な物体を検出することを目的としたエンドツーエンドのディープニューラルネットワークが導入されています。提案されたネットワークは、ピクセルレベルのマルチスケール全畳み込みネットワークと深層符号化器デコーダーネットワークという2つの相互に関連するコンポーネントで構成されており、コンテキストセマンティクスを統合してマルチスケール特徴マップ間の視覚的なコントラストを生成すると同時に、深層および浅い画像特徴を採用してオブジェクト境界識別の精度を向上させます。全結合条件付き確率場(CRF)モデルの統合により、突出マップの空間的一貫性と等高線描写がさらに強化されます。提案されたアルゴリズムは、SODおよびECSSDデータベース上の10の最新のアルゴリズムに対して広範囲に評価されています。評価結果は、提案アルゴリズムが精度と精度の点で他のアプローチを凌駕していることを示しており、複雑な環境下での顕著な物体検出における有効性を確立しています。
顕著な物体検出は、人間の視覚的注意を模倣し、背景情報を抑制しながら重要な画像領域を迅速に識別します。この手法は、画像トリミング1、セマンティックセグメンテーション2、画像編集3などのタスクの前処理ツールとして広く採用されています。背景の置換や前景の抽出などのタスクを合理化し、編集の効率と精度を向上させます。さらに、ターゲットのローカリゼーションを強化することで、セマンティックセグメンテーションを支援します。顕著な物体検出が計算効率を高め、メモリを節約する可能性は、その重要な研究と応用の見通しを強調しています。
何年にもわたって、顕著な物体検出は、初期の従来のアルゴリズムからディープラーニングアルゴリズムの組み込みへと進化してきました。これらの進歩の目的は、顕著な物体検出と人間の視覚メカニズムの間のギャップを狭めることでした。これにより、顕著な物体検出の研究に深層畳み込みネットワークモデルが採用されました。Borji et al.4 は、画像の根本的な特徴に依存する古典的な従来のアルゴリズムのほとんどを要約し、一般化しました。検出精度はいくらか向上したものの、複雑な環境で顕著な物体を検出するには、手作業による経験と認知が引き続き課題となっています。
畳み込みニューラルネットワーク(CNN)の使用は、顕著な物体検出の分野で普及しています。これに関連して、深層畳み込みニューラルネットワークは、自律学習による重みの更新に利用されます。畳み込みニューラルネットワークは、カスケード畳み込み層とプーリング層を使用して画像から文脈的意味を抽出するために採用されており、複雑な画像特徴をより高いレベルで学習することを可能にし、異なる環境で顕著な物体を検出するためのより高い識別能力と特性評価能力を備えています。
2016年、完全畳み込みニューラルネットワーク5 は、突出物検出の一般的なアプローチとして大きな牽引力を獲得し、研究者はこれに基づいてピクセルレベルの突出物検出を開始しました。多くのモデルは通常、既存のネットワーク(VGG166、ResNet7など)上に構築されており、画像表現を強化し、エッジ検出の効果を強化することを目的としています。
Liuら8は、学習済みのニューラルネットワークをフレームワークとして使用して画像をグローバルに計算し、階層ネットワークを使用してオブジェクトの境界を精緻化しました。2つのネットワークの組み合わせは、最終的な深層顕著性ネットワークを形成します。これは、以前に取得した突出マップを事前知識としてネットワークに繰り返し入力することで実現されました。Zhang et al.9 は、浅層から深層へ、深層から浅層への双方向情報伝達を伴うディープネットワークを用いて、画像の意味情報と空間情報を効果的に融合させました。相互学習深層モデルを用いた突出物体の検出は、Wuらによって提唱された10。このモデルは、畳み込みニューラル ネットワーク内のフォアグラウンドとエッジの情報を利用して、検出プロセスを容易にします。Li et al.11は、ニューラルネットワークの「ホールアルゴリズム」を採用して、顕著な物体検出のコンテキストでディープニューラルネットワークの多様な層の受容野を修正するという課題に取り組みました。ただし、オブジェクトエッジの取得にはスーパーピクセルセグメンテーションが使用されるため、計算労力と計算時間が大幅に増加します。Ren et al.12は、顕著な物体を検出するためのマルチスケールエンコーダ・デコーダネットワークを考案し、畳み込みニューラルネットワークを利用して深い特徴と浅い特徴を効果的に組み合わせました。物体検出における境界の曖昧さという課題は、このアプローチによって解決されますが、情報のマルチスケール融合により、必然的に計算要求が高まります。
文献レビュー13 では、顕著性検出を従来の手法から深層学習の手法までまとめ、その起源から深層学習の時代までの顕著性ターゲット検出の進化を非常に明確に見ることができると提案しています。文献14において、良好な性能を有する様々なRGB−Dベースの突出物検出モデルが提案されている。上記の文献では、顕著性オブジェクト検出のためのさまざまなタイプのアルゴリズムをレビューおよび分類し、それらのアプリケーションシナリオ、使用されるデータベース、および評価メトリックについて説明します。また、本稿では、提案されたアルゴリズムの定性的および定量的分析を、提案されたデータベースと評価指標に関して提供します。
上記のすべてのアルゴリズムは、公共のデータベースで目覚ましい結果を得ており、複雑な環境で顕著な物体を検出するための基盤を提供しています。この分野では、国内外で多くの研究成果が挙げられていますが、まだ課題があります。(1)従来の非深層学習アルゴリズムは、色、質感、周波数などの手作業でラベル付けされた特徴に依存しているため、精度が低くなる傾向があり、主観的な経験や知覚の影響を受けやすい。その結果、顕著な物体検出機能の精度が低下します。従来の非ディープラーニングアルゴリズムを使用して複雑な環境で顕著なオブジェクトを検出することは、複雑なシナリオを処理するのが難しいため困難です。(2)従来の突出物体検出法は、色、質感、頻度などの手作業でラベル付けされた特徴に依存しているため、精度に限界がありました。さらに、領域レベルの検出は計算コストが高く、多くの場合、空間的な一貫性が無視され、オブジェクトの境界の検出が不十分になる傾向があります。これらの問題に対処するには、顕著な物体の検出精度を高める必要があります。(3)複雑な環境での顕著な物体の検出は、ほとんどのアルゴリズムにとって課題となります。ほとんどの顕著な物体検出アルゴリズムは、可変的な背景(類似した背景色と前景色、複雑な背景テクスチャなど)を持つますます複雑化する突出物体検出環境、一貫性のない検出物体サイズ、前景と背景のエッジの不明確な定義などの多くの不確実性により、深刻な課題に直面しています。
現在のアルゴリズムのほとんどは、背景色と前景色が類似している複雑な環境、複雑な背景テクスチャ、ぼやけたエッジなど、顕著なオブジェクトの検出精度が低くなっています。現在の深層学習ベースの突出物アルゴリズムは、従来の検出方法よりも高い精度を示していますが、それらが利用する基礎となる画像特徴は、セマンティック特徴を効果的に特徴付けるにはまだ不十分であり、パフォーマンスに改善の余地があります。
要約すると、この研究は、複雑な環境での突出物検出の精度を高め、ターゲットエッジを改善し、セマンティック特徴をよりよく特徴付けることを目的として、顕著な物体検出アルゴリズム用のエンドツーエンドのディープニューラルネットワークを提案します。(1)第1のネットワークは、VGG16をベースネットワークとし、その5つのプーリング層を「ホールアルゴリズム」11を用いて修正する。ピクセルレベルのマルチスケール完全畳み込みニューラルネットワークは、さまざまな空間スケールから画像の特徴を学習し、ディープニューラルネットワークのさまざまな層にわたる静的受容野の課題に対処し、フィールド内の重要な焦点領域での検出精度を向上させます。(2)突出した物体の検出精度を向上させるための最近の取り組みは、VGG16などのより深いニューラルネットワークを活用して、エンコーダネットワークから深度特徴量を抽出し、デコーダネットワークから浅い特徴量の両方を抽出することに焦点を当てています。このアプローチは、特に背景が可変で、オブジェクトのサイズが一定でなく、前景と背景の境界が不明瞭な複雑な環境において、オブジェクト境界の検出精度を効果的に向上させ、セマンティック情報を改善します。(3)近年、突出物体検出の精度向上に向けた取り組みでは、符号化器ネットワークから深層特徴量を抽出し、デコーダネットワークから浅い特徴量を抽出するために、VGG16を含む深層ネットワークの使用が強調されている。このアプローチは、特に背景、オブジェクトのサイズが異なり、前景と背景の境界が不明瞭な複雑な環境において、オブジェクト境界の検出が向上し、セマンティック情報が増えることを実証しています。さらに、全結合条件付き確率場 (CRF) モデルの統合が実装され、突出マップの空間的一貫性と等高線精度が強化されています。このアプローチの有効性は、複雑な背景を持つSODおよびECSSDデータセットで評価され、統計的に有意であることがわかりました。
関連作品
Fu et al.15 は、顕著な物体の検出に RGB と深層学習を使用した共同アプローチを提案しました。Lai et al.16 は、顕著な物体検出のための弱教師ありモデルを導入し、注釈から顕著性を学習し、主に落書きラベルを利用して注釈時間を節約しました。これらのアルゴリズムは、顕著性オブジェクト検出のための2つの相補的なネットワークの融合を提示しましたが、複雑なシナリオ下での顕著性検出に関する詳細な調査が欠けています。Wang et al.17 は、ニューラル ネットワークの特徴をボトムアップとトップダウンの両方で 2 モード反復融合し、収束するまで前の反復の結果を段階的に最適化するように設計しました。Zhang et al.18 は、浅い層から深い層へ、深い層から浅い層への双方向の情報伝達を伴うディープネットワークを用いて、画像の意味情報と空間情報を効果的に融合させました。相互学習深層モデルを用いた突出物体の検出は、Wuらによって提唱された19。このモデルは、畳み込みニューラル ネットワーク内のフォアグラウンドとエッジの情報を利用して、検出プロセスを容易にします。これらのディープニューラルネットワークベースの突出物検出モデルは、公開されているデータセットで目覚ましい性能を達成し、複雑な自然シーンでの突出物検出を可能にしています。それにもかかわらず、さらに優れたモデルを設計することは、この研究分野における重要な目的であり、この研究の主な動機として機能します。
全体の枠組み
図1に示すように、提案されたモデルの概略表現は、主にVGG16アーキテクチャから派生したもので、ピクセルレベルのマルチスケール完全畳み込みニューラルネットワーク(DCL)と深層符号化器デコーダネットワーク(DEDN)の両方が組み込まれています。このモデルでは、VGG16 の最終プーリング層と全結合層がすべて除去され、入力イメージの次元 W × H が調整されます。操作メカニズムには、DCLを介した入力画像の初期処理が含まれ、深い特徴の抽出が容易になり、浅い特徴はDEDNネットワークから取得されます。これらの特性の融合は、その後、完全に接続された条件付きランダム場(CRF)モデルにかけられ、生成された顕著性マップの空間的一貫性と等高線精度を増強します。
モデルの有効性を確認するために、複雑な背景を持つSOD20およびECSSD21データセットでテストと検証を受けました。入力画像がDCLを通過した後、さまざまな受容野を持つさまざまなスケールの特徴マップが得られ、コンテキストセマンティクスが組み合わされて、次元間コヒーレンスを持つW×Hの顕著なマップが生成されます。DCL は、7 x 7 カーネルの畳み込み層のペアを使用して、元の VGG16 ネットワークの最終プーリング層を置き換え、特徴マップ内の空間情報の保存を強化します。これは、文脈的セマンティクスと組み合わされて、次元間コヒーレンスを持つW×Hの顕著な写像を生成します。同様に、Deep Encoder-Decoder Network (DEDN) は、デコーダーに 3 x 3 カーネルを持つ畳み込み層を利用し、最後の復号化モジュールの後に 1 つの畳み込み層を利用します。画像の深い特徴と浅い特徴を利用して、W×Hの空間次元を持つ顕著なマップを生成することができ、不明瞭なオブジェクトの境界の課題に対処します。この研究では、DCLモデルとDEDNモデルを統合ネットワークに統合する顕著な物体検出の先駆的な手法が説明されています。これら 2 つの深層ネットワークの重みは、トレーニング プロセスを通じて学習され、結果の顕著性マップがマージされ、全結合条件付きランダム場 (CRF) を使用して調整されます。このリファインメントの主な目的は、空間の一貫性と等高線の位置を特定することです。
ピクセルレベルのマルチスケール完全畳み込みニューラルネットワーク
VGG16 アーキテクチャは当初、5 つのプーリング層で構成されており、各層のストライドは 2 でした。各プーリング層は、画像サイズを圧縮してチャネル数を増やし、より多くのコンテキスト情報を取得します。DCLモデルは文献13に触発され、VGG16のフレームワークを改良したものである。本稿では、図2に示すように、深層畳み込みニューラルネットワークであるVGG16のアーキテクチャ内で、ピクセルレベルのDCLモデル11を使用します。最初の 4 つの最大プーリング層は、3 つのカーネルで相互接続されています。最初のカーネルは 3 × 3 × 128 です。2 番目のカーネルは 1 × 1 × 128 です。3 番目のカーネルは 1 × 1 × 1 です。3つのカーネルに接続された最初の4つのプーリング層(各サイズは元の画像の8分の1に等しい)の後に特徴マップのサイズを均一にするために、これら4つの最大のプーリング層に接続された最初のカーネルのステップサイズをそれぞれ4、2、1、および1に設定します。
異なるカーネルにおける元の受容野を保持するために、文献11 で提案されている「ホールアルゴリズム」を使用して、ゼロを追加することによってカーネルのサイズを拡張し、したがってカーネルの完全性を維持する。これら 4 つの特徴マップは、異なるステップ サイズで最初のカーネルに接続されています。その結果、最終段階で生成されるフィーチャマップは、同じ寸法を持ちます。4つの特徴マップは、それぞれがさまざまなサイズの受容野を表す、異なるスケールから得られたマルチスケール特徴のセットを構成します。4つの中間層から得られた特徴マップは、VGG16から得られた究極の特徴マップと連結され、5チャンネルの出力が生成されます。その後の出力は、シグモイド活性化関数を持つ1 × 1 × 1カーネルにさらされ、最終的に突出マップ(元の画像の8分の1の解像度)を生成します。画像は、バイリニア補間を使用してアップサンプリングおよび拡大され、顕著性マップと呼ばれる結果の画像が初期画像と同じ解像度を維持するようにします。
深層エンコーダ/デコーダネットワーク
同様に、VGG16ネットワークはバックボーンネットワークとして採用されています。VGG16は、浅い特徴マップチャネルの数が少ないが高解像度であり、深い特徴チャネルの数が多いが解像度が低いという特徴があります。層のプーリングとダウンサンプリングにより、深層ネットワークの計算速度は向上しますが、特徴マップの解像度は低下します。この問題に対処するために、文献14の分析に続いて、エンコーダネットワークを使用して、元のVGG16の最後のプーリング層の完全な接続性を変更します。この変更には、7 × 7 個のカーネルを持つ 2 つの畳み込み層への置き換えが含まれます (畳み込みカーネルが大きいほど受容野が増加します)。両方の畳み込みカーネルには、正規化 (BN) 演算と修正線形ユニット (ReLU) が装備されています。この調整により、画像空間情報をより適切に保持するエンコーダー出力特徴マップが得られます。
エンコーダーは、突出したオブジェクトのグローバルな位置推定のための高レベルのイメージ セマンティクスを改善しますが、その顕著なオブジェクトの境界ぼやけの問題は効果的に改善されません。この問題に取り組むために、エッジ検出作業12に触発された深い特徴と浅い特徴を融合し、 図3に示すような符号化器-復号器ネットワークモデル(DEDN)を提案します。エンコーダー アーキテクチャは、最初の 4 つのカーネルと相互接続された 3 つのカーネルで構成され、デコーダーは、最大プーリング層から取得した最大値を使用して特徴マップの解像度を体系的に強化します。
突出した物体を検出するためのこの革新的な方法論では、デコーダーフェーズ中に、3 × 3カーネルの畳み込み層がバッチ正規化層および適合線形ユニットと組み合わせて利用されます。デコーダアーキテクチャ内の最終的な復号モジュールの結論として、孤立チャネル畳み込み層が採用され、空間次元W×Hの顕著なマップが調達される。顕著なマップは、エンコーダとデコーダのモデルが協調的に融合して結果を生成し、2つの補完的な融合、つまり深い情報と浅い情報の相補的な融合によって生成されます。これにより、突出対象物の正確な位置特定を実現し、受容野を増大させるだけでなく、画像の詳細情報を効果的に保持し、突出対象物の境界を強化します。
統合メカニズム
エンコーダ アーキテクチャは 3 つのカーネルで構成されており、これらは VGG16 モデルの最初の 4 つの最大プーリング層に関連付けられています。対照的に、デコーダーは、対応するプーリング層から収集された最大値を利用することにより、アップサンプリング層から取得された特徴マップの解像度を漸進的に増強するように意図的に定式化されています。次に、3 x 3カーネルを利用した畳み込み層、バッチ正規化層、および修正された線形ユニットがデコーダーで利用され、続いてシングルチャネル畳み込み層が続き、次元W×Hの顕著なマップが生成されます。2 つの深層ネットワークの重みは、交互の学習サイクルを通じて学習されます。最初のネットワークのパラメータは固定され、2番目のネットワークのパラメータは合計50サイクルのトレーニングを受けました。プロセス中、融合に使用される顕著性マップ(S1および S2)の重みは、ランダムな勾配を介して更新されます。損失関数11 は、
(1)
指定された式では、記号 G は手動でラベル付けされた値を表し、 W はネットワークパラメータの完全なセットを示します。重みβiは、計算プロセスにおける突出画素と非突出画素の比率を調節するバランス係数として機能する。
画像 I は、次の 3 つのパラメーターによって特徴付けられます。 |私|、|私は|– と |私は|+ は、それぞれピクセルの総数、突出していないピクセルの数、および突出したピクセルの数を表します。
上記2つのネットワークから得られた顕著マップは、隣接する画素のコヒーレンスを考慮していないため、空間的コヒーレンスを改善するために、全結合画素レベルの顕著性精緻化モデルCRF15 を用いる。エネルギー方程式11 は、以下の通りであり、バイナリ画素のラベリング問題を解く。
(2)
ここで、L は、すべてのピクセルに割り当てられたバイナリ ラベル (突出値または非突出値) を示します。変数P(li)は、所与の画素xiに特定のラベルliが割り当てられる可能性を示し、画素xiが顕著性である可能性を示す。初めに、P(1)=SiおよびP(0)= 1 – Siであり、ここで、Siは、融合顕著性マップS内の画素xiにおける顕著性値を示す。θi,j(li,l j) は、次のように定義されるペアワイズポテンシャルです。
(3)
その中で、li≠ljであれば、μ(l i,l j)=1であり、そうでなければμ(li,l j)=0である。θi,j の計算には 2 つのカーネルの利用が含まれ、初期カーネルは画素位置 P と画素強度 I の両方に依存します。これにより、類似した色のピクセルが近接し、同等の顕著性値を示すようになります。α と σβ σ の 2 つのパラメーターは、色の類似性と空間的近接性が結果にどの程度影響するかを制御します。2 番目のカーネルの目的は、孤立した小さな領域を排除することです。エネルギーの最小化は、条件付きランダム場(CRF)分布の平均場を迅速化する高次元フィルタリングによって達成されます。計算時に、Scrfとして示される突出マップは、検出された突出物に関して強化された空間的一貫性と等高線を示します。
実験構成
本稿では、VGG16ニューラルネットワークに基づく顕著なターゲット検出のためのディープネットワークをPythonを用いて構築します。提案されたモデルは、SOD20 および ECSSD21 データセットを使用して他の方法と比較されます。SOD画像データベースは、複雑で雑然とした背景、前景と背景の色の類似性、および小さなオブジェクトサイズで知られています。このデータセットの各画像には、定量的および定性的なパフォーマンス評価のために、手動でラベル付けされた真の値が割り当てられます。一方、ECSSDデータセットは、主にインターネットから提供された画像で構成されており、画像の背景と目立つ物体のコントラストが低い、より複雑でリアルな自然のシーンを特徴としています。
この論文でモデルを比較するために使用した評価指標には、一般的に使用される適合率-再現率曲線、 Fβ、および EMAE が含まれます。予測された顕著性マップを定量的に評価するために、顕著性マップを二値化するための閾値を0から255に変更することによって、精度−再現率(P−R)曲線22 が採用される。 Fβは、二値化突出マップと真値マップから導出された精度と再現率の式で計算された包括的な評価指標です。
(4)
ここで、β は精度と再現率を調整するための重みパラメータで、β2 = 0.3 に設定します。 EMAEの計算は、後続の数式で定義されるように、結果の顕著性マップとグラウンド トゥルース マップの間の平均絶対誤差を計算することと同等です。
(5)
Ts(u,v) は突出写像 (u,v) ピクセルの抽出された値を表し、TG(u,v) は真の写像 (u,v) ピクセルの対応する値を表します。
この記事では、複雑な環境で顕著な物体を検出するために特別に設計されたエンドツーエンドのディープニューラルネットワークを紹介します。このネットワークは、ピクセル レベルのマルチスケール完全畳み込みネットワーク (DCL) と深層符号化器デコーダー ネットワーク (DEDN) という 2 つの相互接続されたコンポーネントで構成されています。これらのコンポーネントは相乗的に機能し?…
The authors have nothing to disclose.
この研究は、2024 Henan Provincial Higher Education Institutions Key Scientific Research Project Funding Program Establishment (プロジェクト番号:24A520053) の支援を受けています。この研究は、河南省の専門創造および統合特性実証コース建設によってもサポートされています。
Matlab | MathWorks | Matlab R2016a | MATLAB's programming interface provides development tools for improving code quality maintainability and maximizing performance. It provides tools for building applications using custom graphical interfaces. It provides tools for combining MATLAB-based algorithms with external applications and languages |
Processor | Intel | 11th Gen Intel(R) Core (TM) i5-1135G7 @ 2.40GHz | 64-bit Win11 processor |
Pycharm | JetBrains | PyCharm 3.0 | PyCharm is a Python IDE (Integrated Development Environment) a list of required python: modulesmatplotlib skimage torch os time pydensecrf opencv glob PIL torchvision numpy tkinter |
PyTorch | PyTorch 1.4 | PyTorch is an open source Python machine learning library , based on Torch , used for natural language processing and other applications.PyTorch can be viewed both as the addition of GPU support numpy , but also can be viewed as a powerful deep neural network with automatic derivatives . |