Arda Senocak, Tae-Hyun Oh, Junsik Kim, Ming-Hsuan Yang, In So Kweon, CVPR 2018
arxiv, pdf
#1.どんなもの?
画像と音声から,その音声が画像中のどこで発生しているかを予測する.
#2.先行研究と比べてどこがすごいの?
教師なし学習で画像中から音の発生源を予測できる.
#3.技術や手法のキモはどこにあるか?
音声と画像を処理するためにTwo-streamアーキテクチャを使っている.
ネットワークはサウンドネットワーク、ビジュアルネットワーク、アテンションモデルの3つの主要モジュールから構成されている.
##サウンドネットワーク
10層で構成される.
最初の8層はSoundNetを参考にした畳み込み層で,そこに時間軸方法に平均値プーリングを施して特徴fsを得る.
8層目からの出力は入力サイズに関わらず1000次元ベクトルとなる.
9,10層はReLUで活性化を行うFC層である.FC層からの出力は512次元となる特徴h.
##ビジュアルネットワーク
画像特徴抽出器および位置特定モジュールから構成される.
VGG16の畳み込み層と同じネットワークを使い特徴を抽出する.
活性化によって出力をH'×W'×D(D=512)にしたvを得る.
これを位置特定モジュールで音声から抽出された特徴hと関連づけられてzを得る.
このzからFC層を通し,fvを得る.
##ローカリゼーションネットワーク
抽出された資格と音声の特徴から音の発生している位置を生成する.
##半教師付き学習
提案ネットワークでは間違った結果を出してしまう場合は半教師付き学習をすることで改善する.
#6.次に読むべき論文はあるか?