2
1

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?

More than 5 years have passed since last update.

Less Is More: Picking Informative Frames for Video Captioningを読んだ

Last updated at Posted at 2018-10-30

Yangyu Chen, Shuhui Wang, Weigang Zhang, Qingming Huang, "Less Is More: Picking Informative Frames for Video Captioning", in ECCV 2018, 2018, arXiv:1803.01457

1. どんなものか?

ビデオキャプションにおいて有益なフレームをピックアップする__PickNet__を提案する.
標準的なEncoder-Decoderフレームワークに基づいて強化学習ベースの手法を行う.
各フレームのピッキングアクションの報酬を,視覚的多様性を最大化し,テキストの差を最小化するように決定される.

2. 先行研究との違いは何か?

先行研究におけるビデオキャプションのタスクでは,ビデオを等間隔にフレームサンプリングする方法が一般的である.しかしながら,本論文の提案手法は,__PickNet__と呼ぶ強化学習モデルを用いて,少ないフレーム数で効果的なキャプションを行う.

3. 技術や手法のキモはなにか?

本論文の提案モデルは2つのパートによって構成される.

  • Encoder-Decoderベースのセンテンス生成器
  • PickNet

Encoder-Decoder

スクリーンショット 2018-10-29 13.22.26.png

PickNet

__PickNet__はすべてのフレーム情報を知ることなく,現在のフレームと過去のフレームの履歴のみを考慮してフレーム選択を行う.
ビデオから抽出されたフレーム画像シーケンスが与えられた場合に,エージェントはビデオコンテンツを可能な限り保持するために,特定のポリシーにしたがってそのビデオのサブセットを選択するという強化学習タスクとして考える.

まず,__PickNet__のプロトタイプとして単縦な2層のフィードフォワードニューラルネットを使用する.
スクリーンショット 2018-10-29 13.31.46.png
ネットワークには現在注目しているフレームを選択または削除する確率を示す2つの出力がある.
最初に,各入力フレーム$z_t$を最初にグレースケール画像に変換し,小さくリサイズした画像$g_t$を得る.
次に,最後に選択されたフレームのリサイズ画像$\tilde{g}$と現在のフレームの$g_t$との差分画像$d_t$を平坦化したベクトルを得る.
このベルトルを__PickNet__に入力する.

s_t = W_2 \cdot (\max (W_1 \cdot vec(d_t)+ b_1, 0)) + b_2 \\
p_{\theta}(a_t|z_t, \tilde{g}) \sim \text{softmax} (s_t)

トレーニング中は確率的方針を用いてアクションが上式で選択される.
現在のフレームが選択されると予めトレーニングされたCNNによってフレーム特徴が抽出され,Encoderに渡される.
また,

\tilde{g} \leftarrow g_t

となる.
スクリーンショット 2018-10-29 14.18.16.png

Rewards

有益なビデオフレームを選択するために,__言語の報酬(Language reward)__と__視覚的な多様性の報酬(Visual diversity reward)__の2つの報酬を考慮する.

Language reward

生成された文章の評価スコアを報酬として使用する.評価にはCIDErを用いる.
ビデオ$v_i$と人間が生成した参照文$S_i={s_{ij}}$とモデルが出力した文章を$c_i$とすると,次のように言語報酬$r_l$が書ける.

r_l(v_i,S_i) = CIDEr(c_i,S_i)

Visual diversity reward

言語報酬のみを使用すると,重要な視覚情報が失われる可能性があるため,視覚的多様性報酬$r_v$を導入する.
全ての選択された特徴ベクトル{$x_i \in \mathbb{R}^D$}に対して,視覚的多様性報酬として特徴ベクトルの標準偏差を使用する.

r_v (v_i) = \sum_{j=1}^{D} \sqrt{\frac{1}{N_p}\sum_{i=1}^{N_p}(x_i^{(j)}-\mu^{(j)})^2}

$N_p$:選択されたフレームの総数
$x_i^{(j)}$:$i$番目のビジュアル特徴の$j$番目の値

total reward

r(v_i) = \begin{cases}\lambda_vr_v(v_i)\qquad \text{if} \quad N_{min} \le N_p \le N_{max}
\\ R^- \qquad \text{otherwise}\end{cases}

Training

トレーニング手順は3つの段階に分割される.
第1段階はエンコーダ・デコーダの事前トレーニングで,_supervision stage_と呼ぶ.
第2段階は強化学習によってPickNetをトレーニングすることで,_reinforcement stage_と呼ぶ.
第3段階はエンコーダ・デコーダの共同トレーニングで,_adaptation stage_と呼ぶ.

エンコーダ・デコーダをトレーニングするために標準的なバックプロパゲーションを使用し,PickNetをトレーニングするためにREINFORCEを用いる.

supervision stage

\mathcal{L}_X(\omega) = -\sum_{t=1}^m \log(p_\omega(y_t|y_{t-1},y_{t-2},\cdots,v))

reinforcement stage

下式を最小化するのが目的である.

\mathcal{L}_R(\theta) = - \mathbb{E}_{a^s \sim p_\theta}[r(a^s)]

ここで,$a_s=(a_1^s,\dots, a_n^s)$で,$a_t^s$は時間ステップ$t$で学習された方針からサンプリングされた行動である.
勾配は次式のように計算する.

\Delta_\theta\mathcal{L}_R(\theta) = \mathbb{E}_{a^s \sim p_\theta}[r(a^s)\Delta_\theta\log p_\theta(a^s)]

チェインルールを用いて次のように計算できる.

\Delta_\theta\mathcal{L}_R(\theta) = \sum_{t=1}^n \frac{\partial\mathcal{L}_R(\theta)}{\partial s_t}\frac{\partial \theta}{\partial s_t} \\
= \sum_{t=1}^n \mathbb{E}_{a^s \sim p_\theta}r(a^s)(p_\theta(a_t^s)-1_{a_t^s})\frac{\partial s_t}{\partial \theta}

ここで,$s_t$はソフトマックス関数の入力である.
実際には勾配は,$p_\theta$から単一のモンテカルロサンプルから求めることができる.

\Delta_\theta\mathcal{L}_R(\theta) \approx -\sum_{t=1}^{n} r(a^s)(p_\theta(a_t^s)-1_{a_t^s})\frac{\partial s_t}{\partial \theta}

adaptation stage

エンコーダ・デコーダと__PickNet__は事前にトレーニングされているが,エンコーダ・デコーダは入力としてビデオのすべてのフレームを受け取って学習しているので,そのギャップを埋めるために共同にトレーニングさせる.

4. どのように有効性を検証したか?

MSVDデータセットとMSR-VTTデータセットを用いて検証する.

  • PickNetの動作例

Screenshot from 2018-10-29 19-29-41.png

  • MSVDデータセットでの従来手法との比較

スクリーンショット 2018-10-29 23.32.57.png
実行時間は,フレーム数と視覚的特徴抽出器から算定している.
すべての評価指標で高いスコアが出ており,実行時間も短い.

  • MSR-VTTデータセットでの従来手法との比較

スクリーンショット 2018-10-29 23.47.58.png
上と同様の結果が出ている.

  • __PickNet__の分析

スクリーンショット 2018-10-30 0.11.47.png
ほとんどのビデオで,10未満の数のフレームが選択されている.これはキャプションにおいてビデオ中の33パーセントくらいの数があれば十分であることが示されている.
また,右の図をみると,ビデオの時間経過とともにフレームを選ぶ確率が減少していることがわかる.ほとんどのビデオはシングルショットであり、前方のフレームはビデオ全体を表現するのに十分であることが示されている.

  • 提案モデルの生成例

スクリーンショット 2018-10-30 0.23.35.png
スクリーンショット 2018-10-30 0.23.53.png
スクリーンショット 2018-10-30 0.24.03.png

5. 次に読むべき論文

2
1
0

Register as a new user and use Qiita more conveniently

  1. You get articles that match your needs
  2. You can efficiently read back useful information
  3. You can use dark theme
What you can do with signing up
2
1

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?