AWS Summit Tokyo 2018の「AWS Media Serviceと機械学習ソリューションを利用した動画コンテンツの価値向上」のセッションを聴いて、個人的に気になった部分をまとめています。
まだ資料が公開されておらず、個人のメモをベースに書いているため、内容が全て網羅されているレポートではありません。
資料、動画が公開されたら別途ちゃんとしたレポートを書きます(多分)
動画の価値を上げる
- 動画に内包された情報を抽出、活用する
- 動画のなかから時間とか内容とかを抽出するイメージ
- 利用するサービス
- Rekognition
- Lambda
- Elemental MEdiaConvert
- Elemental MEdiaLive
Amazon Rekognition
- 深層学習に基づく画像、動画認識サービス
- オブジェクト、シーン
- 節度判定、有名人検出
- 一般的な活用方法
- メタ情報抽出
- コンプライアンスのチェック
- 画像認識、動画認識で利用ファイルの条件はある
- 動画の取得形式
- ファイルとライブストリーム
AWS Elemental MediaConvert
- フルマネージドのトランスコードサービス
- サーバーレスの従量課金
AWS Elemental MediaLive
- フルマネージドのライブエンコードサービス
- ライブチャンネルを数分で展開可能
メディアワークフロー内でのML活用ポイント
- Media SErviceでメタデータ作成
- DBに保存し、Media Serviceで取り出してコンテンツ抽出
コンテンツ索引とメタデータ作成
- JSON形式で情報が出てくる
- 容量が大きい場合はMediaConvertを使用し、画質を落とさず圧縮してからRekognitionに食わせる
- LambdaからRekognitionへの連携もできる
- メタデータを利用したコンテンツ抽出
ライブ配信における機械学習の活用
特定のシーン検出、自動クリッピング
- Live配信
- マルチアングル
- 見逃し再生
- スポーツでシュート/ゴールシーンだけ見たい
- 文字認識で得点板の数値が変わったタイミングを得点シーンと認識し、そそこから直近20秒の映像を流す
- ライブ配信をクリッピングする
- そのままライブ配信で流すのに使う
- DynamoDBに保存して、ハイライト機能として後から再生するのに使う
- 最近だとSky NewsでRoyal weddingの配信でも使われた
- ゲストが来た時に、機会学習で顔を認識して名前を表示したりする
まとめ
- マネージドを活用することで
- 簡単に機械学習を組み込める
- アーカイブコンテンツの利用頻度を高める
- ライブ配信をよりインタラクティブに
感想
主にAmazon Rekognitionの話。
ライブ配信での使い方とか具体的な話が聞けたので、使えそうなイメージが湧いて面白かった。
AWSのサービスなので、画像認識してそこをトリガーにLambdaをキックしたり、DynamoDBやS3に保存したりと連携が色々やりやすそうなのも良い。
動画関連はやったことない領域だけど、メディアとかゲームとかエンタメ関連のプロダクトではではなにか使い道がありそうな気がするので、考えてみたい。