はじめに
本当に突然ですが、次の絵を少しだけ鑑賞してみてください.
David Hockney My Parents 1977
何か見つけたり感じたりしたことはありましたでしょうか?
もちろん絵の鑑賞に正解も不正解もないのですが、例として個人的には次のようなことを感じました.
- おばあさんは真っ直ぐなのに対しておじいさんは斜めを向いて歪んでいる
- 花瓶の色合いや形がおばあさんを象徴しているように見える
- 横の鏡のフレームの色や歪み具合がおじいさんを象徴しているように見える
一つの対象物だけではなく、色々な物体を見てその関係性を考えてみたりすると意外な発見があったりして面白いと感じています.
他にも絵画鑑賞する際の素人の視点の動きとプロの視点の動きを比較した研究もあったりします.
素人は目立つものにばっかり注目するのに対し(中央)、プロは周りの他の物体や構図など、広い視点で鑑賞する傾向があるそうです(右).
図.一般人と芸術家の視点の比較(元論文)
このようなことを本や論文で知る過程で、絵に対するこういった人間の反応を定量的に分析してみたいと思い、記事としてまとめてみました.
(※絵に詳しい人から見たらこのような枠に当てはめて絵画を評価することはけしからぬことだとは思いますが、あくまで一つの視点からの意見ということでご容赦いただきたいです)
どうやるのか
Saliency Mapについて
Computer Visionの1つの分野にSaliency Map(顕著性マップ)に関するものがあります.
Saliency Mapを意訳すると、『画像が与えられてときに人間がどの部分にたくさん注目するかというものを可視化したMap』になります.
Saliency Mapのデータに関してはeye trackerやマウスのクリックなどを利用してクラウドソーシング的に集められたオープンデータがいくつかあり、今回はそのうちの一つであるSALICON datasetを使いました.
例として元画像(左)とそれに対応するSaliency Map(右)を示します.
この画像を人間が見たときに注目されるであろう顔や後ろのテント・車といった物体に視点がたくさん集まっていて、直感とも一致します.
近年はこれらのオープンデータを活用して、画像を入力するとそれに対応するSaliency Mapが出力されるモデルがいくつも開発されています.
今回はこれを絵画に応用することを考えます.
Saliency Mapはつまり、人間が統計的に多く見るであろう場所を可視化できると考えることができます.
画像-Saliency Mapのペアで教師あり学習したモデルに対して絵画の画像を入力すると、人間がその絵画を見た時に着目するであろうポイントを表したMapが出力されるのではないかと考えました.
Mapの予測モデルについて
予測モデルとしてはSalGANという、敵対的学習を活用して予測精度をあげたモデルを利用しました.
図.SalGanの構造(元論文より引用)
実装のコードや詳しい構造については前記事の、
Saliency MapをGANで生成するSalGANを実装してみた
GitHub - KerasでSalGANの実装
を参照していただければと思います.
絵画に対する予測結果
今回は以下の画家のいくつかの作品を対象に分析を行いました.([]内は今回使用した作品の数)
- ヨハネス・フェルメール(1632~1675) [34]
- クロード・モネ(1840~1926) [18]
- フィンセント・ファン・ゴッホ(1853~1890) [21]
- パブロ・ピカソ(1881~1973) [22]
次にこれらの作品を入力として予測されたSaliency Mapの例をいくつか示します.
フェルメール
機械学習のモデルの入力のサイズが規定されているため、縦横の比率の歪みはご容赦ください.
中央に写っている人物や、光度が高く描かれている部分で大きな値となっていて納得できる結果です.
クロード・モネ
風景画が中心でシャープではない(画像と大きく条件が異なる)モネの作品に対してもうまく反応しているようです.
2枚目の絵でちゃんと花や葉が浮かんでいる部分に反応していたのはかなり感動しました.
フィンセント・ファン・ゴッホ
2枚目の夜のカフェテラスについては明るいカフェの部分にもっと着目していてもよかったか.
パブロ・ピカソ
Saliency Mapの分析
次に絵画に対して得られたSaliency Mapを画家ごとに分析してみたいと思います.
特徴を表すための指標を3つ導入したのでそれぞれ簡単に説明します.
- Intensity (注目度)
- Composition Similarity (構図の類似度)
- Disperity (注目箇所の分散度合い)
Intensity
これは非常にシンプルです.
Saliency Mapは視点の滞在時間の密度を表したものなので、各絵画につきSaliency Mapの値の絶対値を計算しすることで絵ごとにどれくらいの注目を集めるのかを計算することができます.
値が高いほど注目される量が高いことを表しています.
結果は次のようになりました.
作品ごとの分散がかなり大きいので有意ではありませんが、ゴッホやピカソの作品はより鮮やかな色を使ったものが多くこのような結果になったのではと考察できます.
Composition Similarity
これは画家ごとに構図にどれだけばらつきがあるのかを表そうとした指標です.
計算方法は、
- 対象画家の全作品のSaliency Mapの平均Mapを計算
- 各作品のSaliency Mapと平均Mapの積を計算
- 積で得られたMapのmeanを計算
(平均と似た構図の場合は積で強調されるという考え)
高いほど構図が似ていることを表しています.
結果は次のようになりました.
フェルメールは構図が似ている場合が多いという結果になっています.
確かにフェルメールの作品はSaliency Mapの値が大きくなりがちな人物が中央に描かれている次のような構図のものも多く、ある程度納得できる結果です.
Disperity
これは絵の中に注目を受けている箇所がいくつあるといったことを表す指標です.
フェルメールの『牛乳を注ぐ女』とそのSaliency Mapを見てみてください.
人間の目で見ると4箇所のピークがありそうなことがわかります.
このピークの個数を定量的に評価しようとしてのがこの指標になります.
上のフェルメールの絵画のsaliency Mapを使って指標のイメージを説明します.
Saliency Mapは0~255の間の値をとるようになっています.
そこで0~255の間を10個のbinに等分して、binの値より大きい部分を1、小さい部分を0としたbinaryのMapを生成します.
そうすると次の画像のように、threshold(bin)の値に応じて異なるbinaryのMapが得られることがわかります.
これらの違う階層で切られたbinaryのMapに対して深さ優先探索で1の部分がまとまりとしていくつあるかを数え上げると処理を行います.
これをそれぞれのbinに対して行った結果を次に示します.
上の例からもわかるとおり、binが一番低い時は全てが一つのまとまりとして数えられます.
binの値が上がるとそれぞれのピークが別々にカウントされるようになりまとまりの個数は多くなります.
そしてbinがSaliency Mapの最大値を超えると1のpixelがなくなるので個数は0に落ち着きます.
このbinをx軸、まとまりの個数をy軸に取った曲線の積分値をdisperityとして定義しました.
disperityの値が大きいほど、ピークがたくさんあることを示しています.
画家ごとにdisperityの指標を計算した結果を次に示します.
モネの値が少し低いことがわかります.
室内で物が色々なところに配置されている絵よりも、モネの風景画の方が目立つものが少なくまとまっているといったことを表しているのでしょうか.
まとめ
絵画の鑑賞という未知なものに対して、オープンデータもあるSaliency Mapというタスクを応用して少し強引に分析してみました。
時系列的な分析
- ピカソの作品はどのように移り変わったか
- ある時代の作品はどういう特徴があるか
をしてみても面白そうだと思いました.
もちろん絵画の鑑賞はこんな表面的な分析ではわからないとても複雑なプロセスではあるのですが、納得のできそうな結果もいくつかの指標を使って出すことができ、この分析を通して新しい視点を提供できれば嬉しいです.
個人的には画像で学習させたモデルを絵画にこんなにうまく適用できることに驚くとともに、人間の統計的な注目ポイントを定量的に評価できるSaliency Mapの応用可能性が大きいなと思いました.
(例えば広告のABテストとかUIデザインとか?)