はじめまして日本情報通信の片山と申します。
今回、GoogleCloud(GCP)の動画分析API(Video Intelligence API)を使ったサンプルアプリを作成してみました。
まずGCPが提供する動画分析AIとは?
GCPの動画分析AIは、Video AIと呼ばれ、大きく分けて以下の二つの機能があります。
①AutoML Video Intelligence
②Video Intelligence API
それでは、二つの違いについて説明していきます。
「AutoML Video Intelligence」と「Video Intelligence API」の違いについて
まず「Video Intelligence API」ですが、これはGCPが事前に用意したモデルをもとにラベルを生成してくれます。
例えば、指定した動画に、子供が映っているとか、芝生の上にいるなど、動画コンテンツ情報のラベリングを行ってくれるものになります。
一方で「AutoML Video Intelligence」は、自らがカスタムラベルを作成し、それをもとにラベルを生成することができます。
事前に自らが学習用の動画を用意し、学習させ、その動画からラベル生成し、モデルを作成する必要があります。
例えば、子供が「踊っている」動画を用意し、学習させることで事前に「踊っている」のラベルを作成し、そのラベルをもとに動画を分析させるようなものになります。
つまり「Video Intelligence API」はGCPが作成したAIを利用し、「AutoML Video Intelligence」は自分で独自のAIを作成することができるものになります。
操作・機能について
操作に関しては、「AutoML Video Intelligence」はAPIだけでなくGUIも用意されていますが、「Video Intelligence API」の方は名前の通りで、APIのみでの操作となります。
次に機能に関してになります。
「AutoML Video Intelligence」と「Video Intelligence API」の共通で提供されている機能としましては、
保存された動画分析はもちろん、ベータ版としてストリーミング動画の分析があります。
その他には、「オブジェクトの検出とトラッキング」の機能があり、これは物体検知をすることができる機能となります。
例えば、動画のどこにボールがあるか等を検知することが可能です。
以下は、「AutoML Video Intelligence」でのみ使用できる機能となります。
一つ目は、「テキスト検出と OCR による抽出」です。
こちらは動画内に映っている書類の文字であるとか、Tシャツの文字などを検出してくれるものとなります。
次に「不適切コンテンツ検出」に関しては、アダルトコンテンツやバイオレンスなものを検出、「ロゴ検出」は、ブランド等のロゴを検出することが可能となります。
「クローズド キャプションと字幕の自動化」は、音声認識をして文字化する機能、「Celebrity recognition(アクセス制限)」として、有名人を検出する機能もあります。
またベータ版ではあるものの「顔検出」や、「姿勢推定機能付き人感センサー」と呼ばれる骨格検知機能も提供されています。
まとめ
GoogleCloud(GCP)が提供する動画分析AIには、GCPが用意したAIと、個人が独自で学習・作成するAIの「Video Intelligence API」の2種類があり、
GCPが用意したAIの「AutoML Video Intelligence」には、文字や人物、ロゴなどを検出する機能が予め用意されています。
以上、GCPが提供する動画分析AIの概要の取り纏めとなります。
次回以降は、「AutoML Video Intelligence」について、深堀していく予定となります。