本日(日本時間3月9日)GoogleがVideo Intelligence API
をプライベートベータで公開しました。
ニュース記事
Google、ビデオ中の対象を認識する機械学習API公開―Cloud Next 2017 | TechCrunch Japan
[速報]Google、動画になにが映っているかを自動的に判断する「Video Intelligence API」発表。Google Cloud Next'17 | Publickey
公式Blog
Announcing Google Cloud Video Intelligence API, and more Cloud Machine Learning updates
Video Intelligence API
はプライベートベータのため使うには申請が必要ですが、誰でもすぐに試せるデモが用意されています。
本記事の内容はデモの解説と使ってみた所感です。
デモを使ってみる
デモページにアクセス
Cloud Video Ibtelligenceのページにアクセスします。
※スマホでもOKです。
TRY THE API
画面を下にいくとTRY THE API
というところがあります。
動画の選択
いくつかの動画がデモ用に用意されています。
好きなものを選択しましょう。
例として、ここではAnimalsを選択します。
画面の構成
動画を選択すると動画の読み込みが発生すると同時にAPIが走り結果を待ちます。
Labels
, Shots
, API
のタブを切り替えることができ、以下のような情報が表示されます。
-
Labels
: 動画全体で何が映っているか -
Shots
: Shotという単位に動画を分割、Shotに何が映っているか -
API
: APIのリクエスト・レスポンス
少し放置
少し放置しておくとAPIの実行が終わり結果がそれぞれ表示されます。
Labels
Shots
API
Shotsを詳しく見てみる
面白いのがShots
です。
Shots
のタブを表示したまま動画を再生します。
右下のShot Labels
が切り替わっているのがわかるかと思います。
これがそのShotに出ている動画の内容になります。
APIの実行が早い
動画を選択すると自動で動画が再生され始めますが、APIの結果は動画の終わりを待たずに表示されています。
個人的にですが、「これは結構早いな」と感じました。
※動画の解析結果をキャッシュしているならばもっと早く表示されるはずです。
Shotに出てくる単語はShotの画像だけで判別しているわけではなさそう
たとえば以下のトラが出ているシーンですがAnimal
,Tiger
,Cat
などトラに関するものが出てきます。
このシーンを画像で切り出してGoogleの画像解析APIであるGoogle Cloud Vision APIに入れるとこうなります。
Nature
やJungle
などのトラではない単語が出てきました。
先程の動画はAnimal
に関する動画なのでVideo Intelligence API
では、Nature
やJungle
は動画の主要なコンテンツでないと判断して除外しているのではないでしょうか。
そうであるならば、Animal
がVideo Intelligence API
の結果に出てくるのも頷けます。
動きのあるものを認識するのはまだ難しい?
選択できる動画の一番下にあるVolleyball Court
なんかが顕著です。
出てくるのはTourism
,Tree
,Fence
などでバレーボールは出てきません。