GCP動画分析AI（Video Intelligence API）を使ってみた①

Posted at 2022-12-21

はじめまして日本情報通信の片山と申します。

今回、GoogleCloud(GCP)の動画分析API（Video Intelligence API）を使ったサンプルアプリを作成してみました。

まずGCPが提供する動画分析AIとは？

GCPの動画分析AIは、Video AIと呼ばれ、大きく分けて以下の二つの機能があります。

①AutoML Video Intelligence
②Video Intelligence API

それでは、二つの違いについて説明していきます。

「AutoML Video Intelligence」と「Video Intelligence API」の違いについて

まず「Video Intelligence API」ですが、これはGCPが事前に用意したモデルをもとにラベルを生成してくれます。
例えば、指定した動画に、子供が映っているとか、芝生の上にいるなど、動画コンテンツ情報のラベリングを行ってくれるものになります。

一方で「AutoML Video Intelligence」は、自らがカスタムラベルを作成し、それをもとにラベルを生成することができます。
事前に自らが学習用の動画を用意し、学習させ、その動画からラベル生成し、モデルを作成する必要があります。
例えば、子供が「踊っている」動画を用意し、学習させることで事前に「踊っている」のラベルを作成し、そのラベルをもとに動画を分析させるようなものになります。

つまり「Video Intelligence API」はGCPが作成したAIを利用し、「AutoML Video Intelligence」は自分で独自のAIを作成することができるものになります。

操作・機能について

操作に関しては、「AutoML Video Intelligence」はAPIだけでなくGUIも用意されていますが、「Video Intelligence API」の方は名前の通りで、APIのみでの操作となります。

次に機能に関してになります。
「AutoML Video Intelligence」と「Video Intelligence API」の共通で提供されている機能としましては、
保存された動画分析はもちろん、ベータ版としてストリーミング動画の分析があります。
その他には、「オブジェクトの検出とトラッキング」の機能があり、これは物体検知をすることができる機能となります。
例えば、動画のどこにボールがあるか等を検知することが可能です。

以下は、「AutoML Video Intelligence」でのみ使用できる機能となります。
一つ目は、「テキスト検出と OCR による抽出」です。
こちらは動画内に映っている書類の文字であるとか、Tシャツの文字などを検出してくれるものとなります。
次に「不適切コンテンツ検出」に関しては、アダルトコンテンツやバイオレンスなものを検出、「ロゴ検出」は、ブランド等のロゴを検出することが可能となります。
「クローズドキャプションと字幕の自動化」は、音声認識をして文字化する機能、「Celebrity recognition（アクセス制限）」として、有名人を検出する機能もあります。
またベータ版ではあるものの「顔検出」や、「姿勢推定機能付き人感センサー」と呼ばれる骨格検知機能も提供されています。

まとめ

GoogleCloud(GCP)が提供する動画分析AIには、GCPが用意したAIと、個人が独自で学習・作成するAIの「Video Intelligence API」の2種類があり、
GCPが用意したAIの「AutoML Video Intelligence」には、文字や人物、ロゴなどを検出する機能が予め用意されています。

以上、GCPが提供する動画分析AIの概要の取り纏めとなります。
次回以降は、「AutoML Video Intelligence」について、深堀していく予定となります。

You get articles that match your needs
You can efficiently read back useful information
You can use dark theme

What you can do with signing up