#原典
See, Hear, and Read: Deep Aligned Representations
arxiv-vanity.com/papers/1706.00932/
#どんな論文?
画像とキャプションのペアを学習させた。
それによって、未知の画像に対しても、定量的にいい感じの音とテキストの関係も学習できていたことがわかった。
テキスト、サウンド、イメージについてCNNを施す。
下位の層は重みを共有しないが、上位の層でのみ重みを共有するという面白さ。
#どうやって学習させているのか?
ペアになっている画像と音、あるいは画像とテキストの2つについて、それらが同じグループに属するように学習をさせた(KLダイバージェンス)
#どんなもの?
音声とテキストと画像データを食べさせた。学習については、画像+テキスト、画像+音声の2ペアである。しかしながら結果として音声とテキストのペアも学習することができた。(画像をブリッジとすることでペアを学習していると言っても良いよねというスタンス)
#先行研究と比べてどこがすごい?
画像と音楽とテキストの3つのマルチモーダルなものにまたがる認識を機会に学習させるという点。非常に人間らしい知覚を習得する点。
これほど大規模でかつ3つの感覚・モーダルへのアプローチは初めてだと考える。
結果として音とテキストのペアは学習させていないが、画像をブリッジとしてしようすることで可能となる。
つまり 英語→あらゆる言語へ翻訳するときに、ブリッジ言語を通すみたいなやつ(鉄壁英単語的なアプローチ)
英語→画像 画像→フランス語
英語が音orテキスト。 フランス語がテキストor音
技術や手法の肝はどこ?
音声と画像とテキストに関して全てのCNNをおこなった。その上層レイヤをすべて結合する新たなネットワークを作成している点。
#どうやって有効だと検証した?
クロスモーダル検索のスコアを比較した。
クロスモーダル検索とは、例えばイメージしたモーダル(テキストか画像か音)のデータが欲しいときに、別のモーダルからのクエリ検索で、目的のデータが手に入るかを試す。
#メモ書き
音と言語
音声検索とか。割とよくある。
確率モデル
言語と視覚
画像→テキスト・キャプション自動生成とは違う。この実験では、画像と音声orテキストとの関係性のみを学習させている。
また、テキストに対してRNNを使わずに、CNNを使っている店も新しい。