Google Cloud Video Intelligence APIで取得される形式について

  • 3
    いいね
  • 0
    コメント

Google NEXT '17にて、Google Cloud Video Intelligence APIが発表されました。
MPEG-4などの動画から、学習済MLモデルを利用して、動画の属性情報を返してくれるものになります。

認識方法としては以下3パターンがあります。
ラベル認識、顔認識、シーンの変化点を検知するパターンです。

  • Label Detection
  • Face Detection
  • Shot Change Detection

Label Detection

検知した物体名(この場合はAndroid)、精度、動画の再生位置(マイクロ秒)などが入っています。

{
  'inputUri': '/XXXXXXXXXXX/What_is_Cloud_Vision_API.mp4',
  'labelAnnotations': 
    [
      {
         'languageCode': 'en-us',
         'description': 'Android',
         'locations': 
          [
            {
              'confidence': 0.5163822,
              'segment': 
                  {'endTimeOffset': '24157524', 'startTimeOffset': '17417354'},
               'level': 'SHOT_LEVEL'
            }
         ]
       }
     ]
}

Face Detection

サムネイルが取得することが可能です。サムネイル生成の性かは不明ですが、Face Detectionだけ処理が遅いようです。
サムネイルはMIME Encodeされた文字列になっています。

{
  'faceAnnotations': 
  [
   {
       'segments': 
         [
            {'endTimeOffset': '68568455', 'startTimeOffset': '62696023'}
         ]
         , 'thumbnail': '<MIME Encode>'
         , 'locations': 
           [
                {'boundingBox': {'top': 719, 'right': 1076}, 'timeOffset': '62696023'},
                {'boundingBox': {'top': 719, 'right': 1073}, 'timeOffset': '63697013'},
                {'boundingBox': {'top': 719, 'right': 1076}, 'timeOffset': '64698003'},
                {'boundingBox': {'top': 719, 'right': 1076}, 'timeOffset': '65698993'},
                {'boundingBox': {'top': 719, 'right': 1080}, 'timeOffset': '66699983'}, 
                {'boundingBox': {'top': 719, 'right': 1081}, 'timeOffset': '67700973'}
           ]
     }
  ]
  , 'inputUri': '/XXXXXXXXXXX/What_is_Cloud_Vision_API.mp4'
}

Shot Change Detection

{'shotAnnotations': 
  [
    {'endTimeOffset': '2502475'}, 
    {'endTimeOffset': '17384073', 'startTimeOffset': '2535884'}
  ]
   , 'inputUri': '/XXXXXXXXXXX/What_is_Cloud_Vision_API.mp4'
}

今後β等はリターンされる情報は変更される場合があります。