AWS Summit Tokyo 2018の「AWS Media Serviceと機械学習ソリューションを利用した動画コンテンツの価値向上」のセッションを聴いて、個人的に気になった部分をまとめています。
まだ資料が公開されておらず、個人のメモをベースに書いているため、内容が全て網羅されているレポートではありません。
資料、動画が公開されたら別途ちゃんとしたレポートを書きます(多分)

動画の価値を上げる

動画に内包された情報を抽出、活用する
- 動画のなかから時間とか内容とかを抽出するイメージ
利用するサービス
- Rekognition
- Lambda
- Elemental MEdiaConvert
- Elemental MEdiaLive

Amazon Rekognition

深層学習に基づく画像、動画認識サービス
オブジェクト、シーン
節度判定、有名人検出
一般的な活用方法
- メタ情報抽出
- コンプライアンスのチェック
画像認識、動画認識で利用ファイルの条件はある
動画の取得形式
- ファイルとライブストリーム

AWS Elemental MediaConvert

フルマネージドのトランスコードサービス
サーバーレスの従量課金

AWS Elemental MediaLive

フルマネージドのライブエンコードサービス
ライブチャンネルを数分で展開可能

メディアワークフロー内でのML活用ポイント

Media SErviceでメタデータ作成
DBに保存し、Media Serviceで取り出してコンテンツ抽出

コンテンツ索引とメタデータ作成

JSON形式で情報が出てくる
容量が大きい場合はMediaConvertを使用し、画質を落とさず圧縮してからRekognitionに食わせる
LambdaからRekognitionへの連携もできる
メタデータを利用したコンテンツ抽出

ライブ配信における機械学習の活用

特定のシーン検出、自動クリッピング

Live配信
マルチアングル
見逃し再生
スポーツでシュート/ゴールシーンだけ見たい
- 文字認識で得点板の数値が変わったタイミングを得点シーンと認識し、そそこから直近20秒の映像を流す
ライブ配信をクリッピングする
- そのままライブ配信で流すのに使う
- DynamoDBに保存して、ハイライト機能として後から再生するのに使う
最近だとSky NewsでRoyal weddingの配信でも使われた
- ゲストが来た時に、機会学習で顔を認識して名前を表示したりする

まとめ

マネージドを活用することで
- 簡単に機械学習を組み込める
- アーカイブコンテンツの利用頻度を高める
- ライブ配信をよりインタラクティブに

感想

主にAmazon Rekognitionの話。
ライブ配信での使い方とか具体的な話が聞けたので、使えそうなイメージが湧いて面白かった。
AWSのサービスなので、画像認識してそこをトリガーにLambdaをキックしたり、DynamoDBやS3に保存したりと連携が色々やりやすそうなのも良い。
動画関連はやったことない領域だけど、メディアとかゲームとかエンタメ関連のプロダクトではではなにか使い道がありそうな気がするので、考えてみたい。

AWS Summit Tokyo 2018で気になった内容メモ_AWS Media Serviceと機械学習ソリューションを利用した動画コンテンツの価値向上