Long, Xiang and Gan, Chuang and de Melo, Gerard and Wu, Jiajun and Liu, Xiao and Wen, Shilei"Attention Clusters: Purely Attention Based Local Feature Integration for Video Classification", in CVPR2018, pp.7834-7843, 2018Online PDF at CVF

1.どんなもの？

Attention構造とシフト操作，クラスターサイズを分析し，マルチモーダル統合のための注目クラスターの組み合わせを調査
長期的なパターンが必要出ないことを示し，それを考慮した上で新しいモデルを提案

2.先行研究と比べて何がすごいか？

動画像認識における既存手法はCNNとRNNを組み合わせたものがほとんど
本論文では長期パターンにおける特徴が必要不可欠なものなのかを検証している

1.フレーム間でローカル特徴が高度の類似性を有することが多い

短い動画像ではRGBフレーム間の変化が小さい傾向にある
ゴルフのような動画ではゴルフクラブが動くだけでフレーム毎の変化はほとんどない
→分類のためには細部の変化を無視して全体的な特徴を取り出すだけで十分できる

2．ローカル特徴だけで識別できる可能性がある

人は動画像の数フレーム，時に１フレームだけで分類することができる
歯を磨く動画では、最初のフレームだけを観察してクラス分類することができる
→単独で網羅的な分類情報を持っている可能性があり，最も有益なフレームを割り出すことが分類において重要

3.ローカル特徴が順序付けられていないとみなされる可能性がある

分類の問題について，順序が重要ではないかもしれないと推測している
棒高跳びの動画で，最初に着地→ジャンプ→走行の順に表示したとしても分類することができる
→局所特徴の順序は必ずしも保持する必要はない

よって複数のアテンション機構を実装し，分類に重要だと思われるキーフレームに重みをかけることで精度向上をもたらした

3.技術や手法の肝はどこにあるか？

単一のアテンションユニットはビデオの1つの側面のみに焦点を当てていると見なすことができる
→かなりの量の情報を破棄する
Ex) 棒高跳びであれば，「走る・跳ぶ・着地」の3つの要素がある方が有用な情報であるからアテンションユニット一つでは不十分
複数のアテンションユニットを使用して、ビデオのグローバル表現を構成するアテンションクラスタを構築することを提案する

ビデオからマルチモーダル情報を得るために、外観（RGB）、モーション（フロー）、オーディオ信号の3つの異なるローカル特徴集合を抽出する

ローカル特徴

ローカル特徴集合は、ビデオの異なる部分に対応する順序付けられていないローカル特徴集合として定義されている
ローカル特徴集合を以下とする．Xの長さはそれぞれの動画で違うものである

L・・・局所特徴の数
X・・・一つの動画におけるローカル特徴集合

Attention

時系列を考慮せず，グローバルな情報を獲得するためにAttention機構を使う
aは、重み付け関数によって決定される次元Lの重みベクトルである

この重み付け関数の選択が重要である
この論文では3つ紹介されている

平均をとる

全体に一律で同じ重みを付ける方法

全結合層を使う

全結合層を用いてランダムな重みからどんどん学習して重みを更新していく

2回全結合層を使う

Sift操作

異なるローカル特徴に焦点を当てることができると考えているが、Attentionユニットが同じローカル特徴に焦点を当てる傾向がある
→異なるローカル特徴に焦点を当てられるようにシフト操作を提案
線形変換と正則化を組み合わせることでスケール不変性を保証．異なるローカル特徴を選択するようになる

4.分析と可視化

Dataset

ビデオ分類データセットはさまざまなバリエーションを組み合わせているため、分析，視覚化することは容易ではない
→Attention機構がうまく働いているか確認することが困難
Attention機構が機能しているか可視化するためにFlash-MNISTを提案

MNISTデータセットを動画に拡張
背景のノイズを持つ25フレームで構成され、さまざまなMNIST数字が短時間点滅する動画になっている
1024のカテゴリの分類問題になっている(2の10乗個)

分析

上記にあげた重みつけ関数のうち，平均をとる操作は全く機能していないことがわかる
全結合層2層と全結合層1層の場合では比較的1層だけの方が良い結果を出力していることがわかる

重みつけ関数を全結合1層と定義して，シフト操作とクラスター内のAttentionユニットがどれだけ分類精度に影響しているかを表している
当然のように感じるが，Attentionをかけるフレームが多くなる方が良い結果を出している

8つのAttentionユニットがどの数字にAttentionをかけているかを可視化している
シフト操作を行った方が異なる数字にAttentionをかけていることがわかる