1. どんなものか?
目的: ビデオ内のすべてのイベントを識別し、それらを自然言語で記述したい。
->ビデオで発生する複数のイベントの一連の説明を生成し、それら時間にローカライズする(イベント時間と一致、させる)というタスを解く
本論文では
2. 先行研究との違いは何か?
3. 技術や手法のキモは何か?
1.提案手法: Dense-Captioning Events model
2.新データセット:ActivityNet caption dataset
1.Dense-Captioning Events model
モデル構造
エンコーダー:Event proposal module
入力値:ビデオフレームシーケンス
出力値:ビデオ中の推定イベントの隠れ特徴とビデオ内での対応時間
・C3D (3次元畳み込み)
*ビデオをnフレームに分割し、各ビデオフレームから意味情報を捉え低次元化した特徴テンソルを出力
・DAPS(Deep Action Propsal)
LSTMは
*長い、短いに関係なくイベントを抽出できる。
*1走査で異なる時間スケールのイベントを抽出できる
しきい値よりも高いスコアを持つすべての提案は言語モデルに転送される。
デコーダー Captioning module (with context)
単純なキャプションアプローチでは、各説明を独立に扱って、それぞれを説明するためにLSTMネットワークを使う。
ビデオ内のほとんどのイベントは相互関係があるため、キャプションモジュールを設計して隣接するイベントからの「コンテキスト」を取り入れる。
・コンテキストを組み込む
参照イベントの他のすべての隣接イベントからコンテキストを取得するためにすべてのイベントを"2つのバケット"に分類する。
2つのコンテキストバケット
・すでに発生した(過去の)イベント
・イベントが終了した後(未来の)に発生するイベント
提案モジュール与えられたビデオイベントに対して、過去と未来のコンテキスト表現を以下のように計算する。
wjは、イベントjとイベントiの関連性を判断するために使用される重み、Zは正規化
aiは学習された重みwaとバイアスbaから計算された"アテンション"ベクトル
wjを計算するために、aiとhjの内積を使用する。
(hipasti、hi、hifuture)の連なりは、その後イベントを説明するLSTMへの入力として用いる。
コンテクストの組込により、各LSTMはまた起こった、または起こる予定のイベントについての知識を持っておりそれに応じてキャプションを調整することができる
2.ActivityNet Captions dataset
ビデオ内で起こったイベントについて説明文をつけたデータセット。
特徴
・ビデオの固有のセグメントを網羅している
・ビデオ内で発生する複数のイベントを説明している
・イベントの発生時間はバラバラ、
・イベントは同時に発生する可能性がある
統計
・ビデオは20kあり、各ビデオには平均しての3.65の時間的にローカライズされた文があり合計100kの文がある
・平均してビデオ全体の内94.6%でパラグラフがついており、主要なイベントをカバーしている
・説明文の10%が重複していることがわかり、同時イベントをカバーしている
・ビデオ時間が増加するにつれて、文の数も増加する
・(データセット作成時点で)動詞と行動によく言及したデータセット。
Visual Genomeすると.....
構成する動詞の割合が大幅に高くなっているため、オブジェクト中心型からビデオ内のアクション中心型
より多くの代名詞が存在するため、文ラベルは以前の文で見つかった要素をより頻繁に参照する
説明文と時間の合意
2人のワーカーから異なるアノテーションを収集し、アノテーションの各ペアが時間的に70.2%一致している事を確認した(既存と同程度)
4. どのように有効性を検証したか?
1.ビデオ内の複数のイベントを検出してそれらを説明文を作成することによって、モデルを評価
2.ビデオのすべてのイベントを適切にローカライズする能力をテスト
3.ビデオのすべてのイベントを適切に検索する能力をテスト
1.ビデオ内の複数のイベントを検出してそれらを説明文を作成することによって、モデルを評価
ActivityNet Captionsデータセットに既存手法と様々な形の提案手法を適用し結果を(よくあるやり方で)評価
・LSTM-YT [49]
・S2VT [50]
・H-RNN [64]
・no context 過去と未来の文脈を利用しないモデル
・online 過去のみの文脈を利用するモデル
・full 全ての文脈を利用するモデル
-atte : 特徴を連結するためのアテンションを利用せず平均プーリングを使用したモデル。式(5)においてwj = 1を設定する。
左は手法ごとに評価をまとめたもの。ただし既存手法は動画全体のアノテーションを作成するもので、提案手法はイベントごとに作成しているのでこれについての評価を右でしている。
(a)では、no contextモデルの最後のキャプションはトピックから外れてるが、full modelはコンテキストを利用してより合理的なコンテキストを生成した。
full context modelは、野菜が後でボウルに混ざっているという知識を使って3番目と4番目の文でもボウルに言及することができた。しかし文脈が常に優れたキャプションを生成するのに成功するわけではなかった。
提案されたセグメントが高い重なりを有するときモデルは2つのイベントを区別することができず、それがキャプションを繰り返すことを引き起こした。