はじめに
これは論文について簡単にまとめたものである.
画像に対する美的評価における論文の主張として,特徴量生成の工夫,モデル構造の工夫,特徴量の扱いに工夫の3つに対してどこを重視するかに分けられる.この論文は,特徴量生成の工夫にあたる.
既存手法の問題点
- 既存手法において美的評価を行う際に,画像のテーマ(ボヤけ,厳しい環境等)や,ラベル(風景,犬,夜景),美的属性(光,balanced, unfocused)のような,情報をモデルに明示的に与えることで,予測性能が向上するということは,先行研究で明らかである.
- しかし,これらの問題点として,似たような意味的な背景間の画像に対して,そのスコア別の相対的な特徴の違いを明示的に学習していないため,モデルは同じ意味文脈の中で,美的区別を効果的に識別し,知覚することができない可能性がある.(以下の画像のように,sematicがbridgeだった場合,その中でも,美的属性の違いと,美的スコアの違いがあるが,既存研究ではこれを明示的に相対的な学習を行っていない)
提案手法
- そこで,本研究ではsemantics-awareなtag matching と contrastive rankingを用いた美的評価モデルを提案する.これは,意味的背景で画像をクラスタリングしたとに,その中での美的属性と美的レベルの違いを考慮した美的評価モデルである.
- 事前に作成したsemantic library と attribute libraryから入力画像に対するtag mathchingを行う.その後,ClIPにより,特徴量ベクトル化を行い,画像特徴量とtag特徴量に対してcos類似度をとる.
- contrastive rankingについては,CLIPにより得られたsemantics空間ないで,美的スコア別にtrabersalな相対学習を行う.これにより,似たsemantics内での相対的な美的評価を可能にする.
結果
結果としては,SOTA手法よりも上回った.