動画像コンテンツにおける注視点マップと顕著性マップとの関係性に関する考察(上向, 2009)
概要
本論文は、動画コンテンツにおける視線マップと顕著性マップの一致度を分析し、顕著性マップの精度向上を目的とした研究である。視線計測実験で得られた視線データ(注視点マップ)と、画像の物理的特徴から計算される顕著性マップを比較し、一致度を指標に、顕著性マップ算出時の視覚属性(色、明度など)の重みパラメータの影響を調査している。特に、方位属性の高い一致度と運動属性の低い一致度が示され、今後の研究では、時間軸の考慮や画像認識技術の活用による、より精度の高い顕著性マップ作成を目指している。
Q: 本研究ではどのような仮説をもとに、どのような実験を行いましたか。その結果どのような結論を得られましたか?
A:
本研究では、動画像コンテンツにおける注視点マップと顕著性マップの関係性を分析し、顕著性マップの算出における視覚属性の重みパラメータの最適化を目指しました。以下に、その仮説、実験方法、および結論について説明します。
仮説
- 仮説: 動画像コンテンツに対する人間の視線(注視点)は、コンテンツの物理的な特徴(ボトムアップ要因)だけでなく、視聴者の嗜好や経験(トップダウン要因)にも影響される。しかし、短時間の動画像コンテンツを使用することで、トップダウン要因の影響を抑制し、視覚的な特徴に基づいた注視点の動きを捉えることができる。さらに、顕著性マップの算出時に、各視覚属性(色、明度、方位、コントラスト、点滅、運動)に適切な重みパラメータを設定することで、実際の注視点分布をより正確に予測できる。
実験方法
-
視線計測実験:
- 被験者: 80名の被験者に対して実験を実施。
- 動画像コンテンツ: 実際に放送された番組から抽出した5秒の音声なしクリップ動画像100種類を使用。
-
実験手順:
- 各被験者に10個のクリップ動画像と、その前後に5秒のインターバル画像を挟んだ試行動画像を提示。
- 各クリップ動画像の画像フレームごとに、被験者の注視点の座標を計測。
- 視線計測には、瞳孔角膜反射法を使用。
- 目的: 短時間の動画像コンテンツを用いることで、トップダウン要因の影響を抑制し、視覚的な特徴に基づく注視点の動きを捉える。
-
注視点マップの作成:
- 視力分布の概念を導入し、計測された注視点の位置を空間的な広がりを持つデータとして表現。
- 各注視点からの距離に応じて視力が低下するモデルを適用し、画像フレーム全体の注視点の集中度を数値化。
- 被験者ごとの注視点マップを算出し、それらを線形和することで、全体の注視点マップを作成。
-
顕著性マップの作成:
- 画像データから、6つの視覚属性(色、明度、方位、コントラスト、点滅、運動)の特徴マップを生成。
- 各特徴マップを線形和する際に、重みパラメータを付与。
- 顕著性マップの算出には、"Graph-Based Visual Saliency"アルゴリズムを利用。
-
注視点マップと顕著性マップの一致度評価:
- 注視点マップと顕著性マップの要素ごとの差を計算し、その差が閾値以下である要素の割合を一致度として算出。
- 一致度の評価には、差分値の絶対値が閾値Th(0.6)よりも小さい要素の数をカウントし、全要素数で割った値(F値)を使用。
実験結果
-
視覚属性ごとの一致度の違い:
- 方位の視覚属性が、多くの場合で最も高い一致度を示した。
- 運動の視覚属性は、一致度が最も低い傾向があった。
- コンテンツの種類によって、各視覚属性の重みパラメータに対する一致度の変化が異なった。
-
一致度の変動:
- 視覚属性の重みパラメータの設定パターンに応じて、注視点マップと顕著性マップの一致度が変化。
- 特に、方位の視覚属性の重みパラメータを変化させると、一致度が大きく変動した。
- 異なる動画像コンテンツにおいても、注視点マップと顕著性マップの一致度の特性が類似していることが示された。
-
コンテンツによる影響:
- 線画の多い映像では、方位の視覚属性が広範囲に高い顕著性を示した。
- 動きの少ない映像では、運動属性の一致度が低くなった。
結論
- 視覚属性の重みパラメータは、注視点マップと顕著性マップの一致度に大きな影響を与える。
- 特に、方位の視覚属性が一致度に大きく影響する。
- 短時間の動画像コンテンツを使用することで、トップダウン要因の影響をある程度抑制できる可能性が高い。
- 視覚属性の重みパラメータの最適化により、顕著性マップの精度を向上させる可能性がある。
今後の課題
- 注視点の時間的な動き(スキャンパス)の考慮:時間経過に伴う注視点の動きや順番を考慮した注視点マップの作成。
- 画像認識結果の利用:画像内のオブジェクト(人物の顔など)を認識し、顕著性マップの算出に反映させる。
- 時間遅延の考慮:画像フレーム提示から注視までの時間の遅れを考慮した一致度算出方法の検討。
- 一致度算出指標の検討:DOHやROCなどの他の指標を用いて、より適切な一致度評価を行う。
- 視覚属性の重みパラメータの最適化:6つの視覚属性に対する最適な重みパラメータの算出方法を検討。
Q: 顕著性マップの算出方法を説明してください。
A:
顕著性マップの算出方法について、以下の通り説明します。
1. 顕著性マップの概念
- 顕著性マップとは、画像に対する注意の向けられやすさ(顕著性)の分布を数値化したものです。
- これは、人間の被験者を必要とせず、画像の物理的な特徴を解析するだけで、注意が向けられやすい位置を推定できます。
- 顕著性マップは、動画像コンテンツの制作者が視聴者の注意を誘導するのに役立ち、また、広告などの挿入箇所を決定する際にも利用できます。
2. 顕著性マップの算出過程
顕著性マップは、主に2つのステップで算出されます。
* 特徴マップ生成: 画像データに対して、複数の視覚属性それぞれに関する画像解析を行います。
* 視覚属性には、色(Color)、明度(Intensity)、方位(Orientation)、コントラスト(Contrast)、点滅(Flicker)、運動(Motion)の6つがあります。
* 特徴マップ合成: 各視覚属性に対して生成した特徴マップを線形和し、顕著性マップを算出します。
* この際、各特徴マップには、重みパラメータを付与することができ、同じ動画像データでも、これらの重みパラメータを変化させることで、最終的な顕著性が変わります。
* 注意の特性に応じた最適な重みの配分があると考えられていますが、これについては十分な検討がなされていません。
3. 顕著性マップの算出に利用されるアルゴリズム
- この研究では、顕著性マップの算出に**"Graph-Based Visual Saliency"**というアルゴリズムが利用されています。
4. 顕著性マップの出力形式
- 顕著性マップは、画像フレーム上の全画素に対して、顕著性の程度を数値化したものであり、行列データとして算出されます。
- 例えば、ある画像フレームfにおける顕著性マップをSM(f)とすると、SM(f)は行数H、列数Wの行列データとして表現されます。
5. 重みパラメータの調整
- 顕著性マップを算出する際に、各視覚属性に付与する重みパラメータを調整することで、顕著性マップの分布を変化させることができます。
- この研究では、重みパラメータを最適化するために、様々な重み付けパターンを試しています。
- 例えば、ある視覚属性の重みのみを1.0にし、他の視覚属性の重みを0にするパターンや、すべての視覚属性の重みを1.0にするパターンなどが用いられています。
6. 注意点
- 顕著性マップは、画像の物理的な特徴から注意の向けられやすい領域を推定できますが、実際に人間が注意を向ける場所とは必ずしも一致しない場合があります。
- 人間の注意は、画像の物理的な特徴(ボトムアップ要因)だけでなく、視聴者の嗜好、興味、経験、知識、文脈理解(トップダウン要因)にも影響されるためです。
- そのため、顕著性マップの精度を向上させるためには、重みパラメータの最適化だけでなく、トップダウン要因の影響を考慮したモデルを構築することも重要です。
この研究では、視覚属性の重みパラメータの最適化に焦点を当て、注視点マップとの一致度を指標として、最適なパラメータを探索しています。
Q: 注視点マップ作成に用いられた概念を述べよ。
A:
注視点マップの作成に用いられた概念について、ソースに基づいて説明します。
-
視力分布の概念: 注視点マップを作成する際、視線計測実験で得られた注視点の位置を、単なる点としてではなく、視力分布という空間的な概念を導入して数値化しています。
- これは、人間の網膜の中心窩(視力が最も高い部分)からの偏心度(中心からのずれ)に応じて視力が低下するという生理学的特性に基づいています。
- 具体的には、中心窩からの距離が大きくなるにつれて、視力が指数関数的に低下するという関係が考慮されています。
- この概念を適用することで、少数の被験者から得られた注視点データからでも、画像フレーム全体の注視点の集中度を推定することができます。
-
数式モデル: 視力分布の概念を数式で表現するために、以下の式が用いられています:
V = Vf * (1 + (Es * E) / Vf)
ここで、
- V は偏心度Eでの視力
- Vf は中心窩での視力
- Es は定数
- E は偏心度(視線の向きからのずれ)を示します。
この式は、視線の向き(注視点)を中心としたときに、ある偏心度Eの方向での視力の相対値を示しています。
-
注視点の集中度の算出:
- 視線計測実験で計測された注視点の位置が中心窩であると仮定し、注視点における視線の集中度をVfとします。
- 注視点(GX, GY)から距離Rの位置にある任意の点(X, Y)における視線の集中度をVとして、上記の式に当てはめることで、各点における注視の集中度を算出します。
- 注視点からの距離が遠くなるほど、視線の集中度は指数関数的に低下します。
-
偏心度の算出: 偏心度Eは、被験者の眼球位置とディスプレイ間の距離L、および注視点と任意の点(X,Y)との距離Rから計算されます。
- 眼球位置と表示ディスプレイ間の視線は常に垂直であると近似しています。
- 画像フレームの解像度を幅W、高さHとすると、距離Rは以下の式で算出されます:
R = sqrt((X - GX)^2 + (Y - GY)^2)
-
注視点マップの作成:
- 各画像フレームに対して、被験者ごとの注視点マップを上記の方法で求め、さらに全被験者の注視点マップを線形和することで、各画像フレームに対する注視点マップを作成します。
- 注視点の集中度が高い領域は赤色で、低い領域は青色で表示されます。
- 結果として、注視点マップは、行数H、列数Wの行列データとして算出されます。
-
時間軸の考慮の課題:
- 本研究では、注視点の時間的な動き(スキャンパス)は考慮されていません。
- 注視点の順番や時間経過に伴う注視点の変化は考慮されておらず、今後の課題としています。
- 今後の研究では、注視点のスキャンパス上の順番や時間を考慮し、前後のつながりがある注視点マップを作成することを検討しています。
これらの概念と手法を用いることで、視線計測で得られた注視点のデータを、画像フレーム全体に対する注視の集中度として可視化し、顕著性マップとの比較を可能にしています。
Q: 一致度算出に用いられた指標と閾値を説明せよ。
A:
一致度算出に用いられた指標と閾値について、ソースに基づいて説明します。
一致度の指標
-
一致度(F値):注視点マップと顕著性マップの重なり具合を評価するために、両マップの要素間の差の絶対値が、設定された閾値以下である要素の割合を算出する指標としてF値が用いられました。
- 具体的には、注視点マップ行列(GM)と顕著性マップ行列(SM)の各要素の差(CM)を求め、その絶対値が閾値(Th)以下である要素の数をカウントします。
- このカウント数を、全要素数で割ることで、一致度Fが算出されます。
- F値が大きいほど、注視点マップと顕著性マップの重なり度合いが高いことを意味します。
-
差分値(CM):注視点マップ行列(GM)と顕著性マップ行列(SM)の各要素の差を計算したものです。
- 具体的には、i列j行(1≦i≦W, 1≦j≦H)の要素同士の差を
CM[i,j] = GM[i,j] - SM[i,j]
として求めます。
- 具体的には、i列j行(1≦i≦W, 1≦j≦H)の要素同士の差を
-
要素の比較:
- 差分値CMの絶対値が閾値Th以下である要素の組数をカウントします。
-
|CM[i,j]| ≦ Th
の場合、カウントを1増やします。 -
|CM[i,j]| > Th
の場合、カウントはそのままです。 - このカウント結果を基に、一致度Fが計算されます。
閾値(Th)の設定
-
正規化: 一致度を計算する前に、注視点マップ(GM)と顕著性マップ(SM)の行列データを正規化しています。
- 具体的には、各行列の全要素において、最大値を1、最小値を0となるように調整します。これにより、異なるスケールのマップ間での比較が容易になります。
-
閾値(Th)の設定: 差分値CMも、全要素において最大値を1、最小値を0となるように正規化した上で、閾値Thを0.6に設定して、F値を算出しています。
- この閾値は、注視点マップと顕著性マップの差がどの程度まで許容できるかを決定する重要なパラメータです。
一致度の計算式
一致度Fは、以下の式で求められます:
一致度 F = (閾値Th以下の差分値CMの要素数) / (全要素数)
* 具体的には、`F = count / (W * H)`で計算されます。
* Wは行列の幅、Hは行列の高さを示します。
注意点
- この研究では、一致度を評価する際に、差分に基づく指標を使用しましたが、既存研究ではDOH(Difference of Histogram)やROC(Receiver Operating Characteristic)などの指標も利用されています。今後、顕著性マップの重みパラメータ最適化に適した指標についても検討する必要があると述べています。
これらの指標と閾値を用いることで、注視点マップと顕著性マップの類似度を定量的に評価し、顕著性マップのパラメータ最適化に役立てています。
Q: 注視点マップと顕著性マップの比較における最適な指標と手法は何ですか?
A:
注視点マップと顕著性マップの比較における最適な指標と手法について、ソースに基づいて説明します。
注視点マップと顕著性マップの比較指標
- 一致度 (F値): 注視点マップと顕著性マップの各要素の差の絶対値が閾値以下である要素の割合を求めることで、2つのマップの重なり度合いを評価する。具体的には、注視点マップ行列(GM)と顕著性マップ行列(SM)において、各要素の差(CM)の絶対値が閾値(Th)より小さい組の数を数え、それを全要素数で割ることで算出される。
- DOH (Difference of Histogram): これは既存研究で利用されている指標の一つ。
- ROC (Receiver Operating Characteristic): これも既存研究で使用されている指標であり、注視点マップと顕著性マップの比較に用いられる。
注視点マップと顕著性マップの比較手法
- 視力分布の概念の導入: 視線計測で得られた注視点を、網膜偏心度と視力の関係に基づき、中心窩からの距離に応じて視力の低下を考慮して、注視点の集中度を数値化する。これにより、少数の被験者から得られた注視点でも、画像フレーム上の全画素に対する注視点の集中度を推定できる。具体的には、注視点の位置を中心とした視力分布を考慮し、注視点からの距離が離れるほど視力が低下するモデルを使用する。
- 重みパラメータの最適化: 顕著性マップを算出する際に、各視覚属性(色、明度、方位、コントラスト、点滅、運動)に対して重みパラメータを付与する。これらの重みパラメータを調整することで、顕著性マップと注視点マップの一致度を最大化することが目指される。
- 時間軸の考慮: 注視点の時間的な動き(スキャンパス)を考慮し、注視点の順序や時間を反映した注視点マップを作成する。また、画像フレーム提示から注視までの時間遅れを考慮した一致度の算出方法も検討される。具体的には、画像を見た後、視線が動くまでの時間差を考慮し、時間的に後方の注視点データを使用する。
- サッカードの考慮: サッカード(急速な眼球運動)が発生する直前の画像フレームと、サッカードで遷移した注視点の関係に注目する。連続サッカードに注目し、時間経過とともにボトムアップ要因の影響が減少することも考慮する。
- 画像認識結果の利用: 画像内のオブジェクト(特に人物の顔)の検出・認識結果を考慮し、顕著性マップを補正する。これにより、トップダウン要因による影響を低減し、注視点マップとの一致度を高めることが期待される。
- 動画像コンテンツの一部区間の一致度: 動画像コンテンツ全体での一致度ではなく、一部区間に限定した一致度の推移を評価する。
その他
- 視覚属性の重み付け: 実験の結果、方位の視覚属性が最も一致度が高く、運動の視覚属性が最も低いことが示された。
- トップダウン要因の抑制: 短時間の動画像コンテンツを使用し、被験者に考える時間を与えないようにすることで、トップダウン要因の影響を抑制しようと試みている。
これらの指標と手法を組み合わせることで、注視点マップと顕著性マップのより正確な比較が可能になり、顕著性マップの重みパラメータの最適化に繋がると考えられます。
Q: 顕著性マップと注視点マップの一致度を左右する要因は何ですか?
A:
顕著性マップと注視点マップの一致度を左右する要因について、以下のように説明します。
- 視覚属性の重みパラメータ: 顕著性マップは、色、明度、方位、コントラスト、点滅、運動といった複数の視覚属性の特徴マップを合成して算出されますが、それぞれの属性に重みパラメータを付与できます。これらの重みパラメータの設定によって、最終的な顕著性が変化し、注視点マップとの一致度も変動します。研究では、方位の視覚属性が最も一致度が高いことが示されていますが、これはコンテンツの内容によって異なり、例えば、線画が多い映像では方位が、色の変化が少ない映像では動物の領域が顕著性が高くなる傾向があります。
- トップダウン要因: 人間の注意は、画像の物理的な特徴(ボトムアップ要因)だけでなく、視聴者の嗜好、興味、経験、知識、文脈理解(トップダウン要因)にも影響されます。例えば、キャスターの顔に注視が集まる場合でも、顕著性マップではキャスターの頭部や背景のセットに高い顕著性が示されることがあります。実験では、短時間の動画像を使用することでトップダウン要因を抑制しようと試みられていますが、完全に排除することは難しいです。
- 注視点の時間的な変化: 注視点は、時間経過に伴って動き(スキャンパス)、同じ位置に停留したり、大きく変位したりを繰り返します。注視した順番が早い注視点の方が優先度が高いと考えられ、注視点の動きを考慮することで、より正確な注視点マップを作成する必要があります。
- 視線計測のタイミング: 視線は画像を見た後、その物理的特徴に刺激されて動くと考えられます。そのため、ある画像フレームに対する顕著性マップと比較すべき注視点データは、時間的に後方で計測されたものを使用することが有効と考えられます。
- サッカードの影響: サッカード(急速な眼球運動)中も注視点としてカウントされるため、画像フレームごとの一致度に大きな変動をもたらす可能性があります。サッカードが発生する直前の画像フレームと、サッカードで遷移した注視点との関係に注目することが重要です。
- 一致度算出方法: 研究では、注視点マップと顕著性マップの差に基づく一致度を指標として利用しましたが、他の指標(DOHやROCなど)も存在します。どの指標が顕著性マップにおける重みパラメータの最適値算出に適しているか検証が必要です。
- 画像認識: 近年の画像処理技術により、画像内のオブジェクトを認識することが可能になっており、特に人物の顔検出・認識技術は高精度です。顕著性マップの算出において、視覚属性の重みパラメータで計算された顕著性マップを、画像認識結果に基づいて補正することで、一致度を高めることができると考えられます。
これらの要因を考慮することで、顕著性マップと注視点マップの一致度をより高めることが可能になると考えられます。
Q: 視覚的特徴と人間の注意の関連性を高精度に予測するにはどうすれば良いか?
A:
視覚的特徴と人間の注意の関連性を高精度に予測するためには、以下の要素を考慮する必要があると考えられます。
-
顕著性マップの重みパラメータの最適化:
- 顕著性マップは、画像の物理的な特徴(色、明度、方位、コントラスト、点滅、運動)を解析して算出されます。
- 各特徴マップを合成する際に、各視覚属性に重みパラメータを付与できますが、その重みは人間の注意の特性に応じて最適化する必要があります。
- 本研究では、視線計測実験の結果から得られた注視点マップと顕著性マップの一致度を指標として、重みパラメータの影響を調べました。
- 異なる動画像コンテンツにおいても、注視点マップと顕著性マップの一致度の特性が類似していることから、トップダウン要因の影響を抑制できている可能性が高いと考えられます。
- 各視覚属性の重みパラメータの中で、方位の一致度が最も高いことがわかりました。
-
時間軸を考慮した注視点マップの作成:
- 注視点の動き(スキャンパス)は被験者ごとに異なり、同じ位置に停留したり、大きく変位したりを繰り返します。
- 注視点の順番は重要であり、スキャンパス上の順番と時間を考慮して、前後のつながりを考慮した注視点マップを作成する必要があります。
-
画像フレーム提示から注視までの時間の遅れを考慮した一致度の算出:
- 人間の視線は、画像を見た後、その物理的特徴に刺激されて動くと考えられます。
- したがって、ある画像フレームに対する顕著性マップと比較すべき注視点データは、時間的に後方で計測されたものを使用することが有効です。
-
サッカード(急速な眼球運動)の影響を考慮した一致度の算出:
- 画像フレームの一致度の推移は大きく、これはサッカードも注視点としてカウントされることが原因の一つと考えられます。
- サッカードが発生する直前の画像フレームと、サッカードで遷移した注視点の関係に注目することが有効です。
-
画像認識結果に基づく顕著性マップの補正:
- 顕著性マップは物理的特徴のみに基づいて算出されますが、人間の注意はトップダウン要因(経験や知識など)にも影響されます。
- 特に、動画像中に現れる人物の顔やテロップなどの文字に視線が集中することが確認されています。
- 画像認識技術(特に顔検出・認識技術)を応用し、顕著性マップを画像認識結果に基づいて補正することで、予測精度が向上する可能性があります。
これらの要素を考慮することで、視覚的特徴と人間の注意の関連性をより高精度に予測することが可能になると考えられます。特に、視覚属性の重みパラメータの最適化、時間軸を考慮した注視点マップの作成、画像認識結果に基づく顕著性マップの補正が重要であると考えられます。