忙しくて書ききれず気づいたらほぼ一ヶ月ですが上げて行きますよ〜、初投稿です。
6/28に開催された第17回ステアラボ人工知能セミナーに行ってきました
https://stair.connpass.com/event/88170/
今回の講演者は、ステアラボの主任研究員である吉川友也さんで
講演タイトルは「画像キャプションと動作認識の最前線 〜データセットに注目して〜」でした。
画像・動画に対してキャプション(説明文)を入れるモデルの紹介や、
機械学習では避けては通れないデータセットの作成の四方山話がメインになっています。
レジェメは以下の通り
https://drive.google.com/file/d/1-bQImMyGds3ZFPKkdwQuLpC8w8Usscbn/view
以下のメモはレジェメの補助程度の内容となります。
前半:画像キャプションのデータセット紹介
様々なモデルやデータセット
基本的に画像キャプションを行うモデルはNIC[Vinyals+ 2015]の
ように
cnnエンコード -> dence -> LSTMデコード
の流れでシーケンシャルに組まれたモデルが一般的である
モデルの表現力の精度はどちらかというとデータセットの構成が肝
各種データセットの特徴
特徴的だったもののメモ
- 30k entities
キャプション中の名詞句と画像中の範囲の紐付けができている
物体検出の要素も含んでおり物体の位置関係もキャプションする際の特徴とすることができる。 - visual Genome
リージョングラフでオブジェクト間の関係性を見る
単語同士の紐付けは非常に大事 - 一つの画像に対するキャプションの数が5個など複数である理由
複数キャプションをつける理由は人によって感じ方・表現が異なる場合があるため
データセットの作成
クラウドソーシングする場合はガイドラインの策定が大事
それでもぼちぼちガイドラインに沿わないアノテーションがついたりする
Q. データ収集の際に怒られないようにするためには
A. クリエイティブコモンズ
元の画像Flickerなどクリアじゃない
やはり自分たちで集めた方が権利関係はクリア
stair captions
http://captions.stair.center
日本語用!
2100人クラウドワーカー・バイトで半年間で完成
英語でキャプションをつけてから機械翻訳して和訳よりも
やっぱり日本語そのままのキャプションの方が精度が良いらしい
後半:動画の人物動作認識のデータセット紹介
動作に対してキャプションを付ける
動画が入力
ocrのようにやはりタスクの分割が重要
(動作をしている対象の検出・動作をしている時間のレンジ・動作の内容)
データセットを使う上で
-
利用規約の確認
activity net はリサーチ目的ならok youtube は未確認
企業が作ったデーター>営利目的で10万とか -
精度を上げるには
youtube からとる場合様々な動画からとった方がいいため一つの動画につき1クリップなどの制約があった方がいい
AVA 精度の上げ方
流行りのデータセットの中身を深く考察されずに使われている傾向があったりする
検証大事
データセットを作る上で
STAIR Actions
https://stair-lab-cit.github.io/STAIR-actions-web/
二年以上かけて作ってる
-
家庭内の動作に限定した理由
家庭用ロボットが増える将来に対して実装するため -
wikitionaryを使って動作ラベルを選定
-> ただこの辞書も丸呑みすべきではない可能がある
(台所:手を洗う->野菜を洗う可能性もあるのではないか) -
「stair lab」 と書かれた紙を動画中に入れてもらう
すでにアップロードされたyoutubeの動画などを流用できないようにするため -
一人のワーカーだけのアノテーションだと信用できない
複数人にキャプションつけてもらい、和集合で集約後、別のワーカーに最もらしいキャプションを選択する検証作業でカバー -
ワーカーひとり単位の信頼度
やはり穴は見つかる
のでactionsを作成時には検品作業を挟んだ
上の検証含め、画像のキャプションでも必要であると思われる
Q&A
Q.action => 誰が、は入ってない
A.フレーム単位で判定できるので、他の画像認識器で補う。
Q.データセットがよければ前処理いらない?
A.ペーパーを作るときと実用化するときでは、汎化性能の高さと提案手法の数値の高さとで目指す方向が異なる
そういう意味では目的にあった前処理がいる
今後の方向性
画像関連の問題(フレーム単位で判別できる問題)はあらかた解かれた感じがする
これからは動画の流れになりそう?
おまけに続く