はじめに
AWS の AI サービスの中に Amazon Rekognition という画像認識サービスがありますが、さらにその中に Amazon Rekognition Custom Labels という機能があります。これを使うと、画像を用意するだけで、自分独自のシーン認識や物体検知モデルを作ることができます。以前 こちらの記事 で猫を見分けるモデルを作りましたが、今回はちょっとした動作なら Rekognition Custom Labels で認識できることをご紹介するために、猫パンチ動画のなかの猫パンチを認識するモデルを作ってみようと思います。また、Amazon SageMaker Ground Truth の動画ラベリング機能が非常に便利なので、そちらもご紹介します。
ゴールはこの動画を作ることです。元となる動画は こちらのサイト (mixkit) からお借りしました。
大まかな流れはこんな感じです。以降の手順において、すべて同じリージョンでサービスを使用してください。
Amazon SageMaker Ground Truth で動画ラベリング
事前にラベリングワークフォースでプライベートチームの登録が完了していることを前提としています。登録方法はこちらの記事 (builders.flash) をご参照ください。また、ラベリングしたい動画ファイルをあらかじめ Amazon S3 にアップロードしておいてください。
ラベリングジョブの作成
Amazon SageMaker のコンソールを表示し、左側のメニューで「Ground Truth」→「ラベリングジョブ」と選択し、「ラベリングジョブの作成」ボタンをクリックします。
「ジョブの詳細の指定」画面でラベリングジョブをセットアップしていきます。「入力データセットの S3 の場所」のところには S3 に保存されているラベリング対象の動画ファイルを指定します。
その後 IAM ロールを設定したら、「完全なデータセットアップ」ボタンをクリックして数分待ちます。このとき、裏側では動画ファイルがフレーム単位で静止画として切り出されているので、動画の尺が長いほどこの処理に時間がかかります。
データセットアップが完了したら、その下にある「タスクのタイプ」を設定します。「タスクのカテゴリ」は「動画 - オブジェクトの検出」を選択します。
すると「タスクの選択」部分にタスクが表示されるので、その中の「境界ボックス」を選択します。その後「次へ」をクリックします。
「ワーカー」の設定では、あらかじめ作成してあるはずのプライベートチームを選択します。「動画オブジェクトの検出」のエリアでは、猫パンチ状態じゃないことを示す「normal」と猫パンチ状態であることを示す「punch」の2つのラベルを設定します。最後に、「作成」ボタンをクリックします。
数分経つと、作成したラベリングジョブがラベリングポータルに表示されるので、ジョブを選択して「Start working」をクリックしてラベリングを開始します。
動画の物体検知ラベリング
それでは、動画にラベリングしていきましょう。ここがこの記事のハイライトです。
ラベリングを開始すると、このような画面が表示されます。右上にある「Label category」からラベルを選択します。
この画像は猫パンチしているところなので、「punch」を選択して猫の領域を枠で囲みます。
ここで、右下の「Submit」ボタンを押すと次のフレームのラベリングができるようになるのですが、今回はここで「P」キーを押すか、下のツールボックスの左から2番目の「Predict next (P)」をクリックします。
すると、次のフレームの画像に自動的に枠が表示されます。これは SageMaker Ground Truth が、今ラベリングした枠の情報をもとに、次のフレームに自動的に枠をつけてくれたためです。自動なので、多少のズレが発生することもあります。この図でも、枠が猫の耳にかぶっています。そういう場合は、枠をクリックして選択し、枠をドラッグして正しく枠を設定します。枠をクリックしてから、右上の「Label category」で異なるラベルを選択すれば、枠はそのままで異なるラベルに変更することができます。
あとは画像が表示されなくなるまで同じ手順を繰り返してラベリングしていきます。SageMaker Ground Truth の動画ラベリングの便利なところは、前後のフレームを見比べながらラベリングができることと、先ほどご紹介した予測機能です。
manifest ファイルのフォーマット変換
Amazon SageMaker Ground Truth でラベリングを行うと、ラベリング結果が manifest ファイルとして出力されます。この manifest ファイルを使って Amazon Rekognition Custom Labels でモデルを作成したいところなのですが、動画ラベリングによって出力された manifest ファイルのフォーマットのままでは Rekognition Custom Labels に入力することができません。そのため manifest ファイルのフォーマットを変換する必要があります。こちら (GitHub) に変換スクリプトを公開しました。使用方法はスクリプトのヘッダ部に記載されている説明をご参照ください。このスクリプトを実行して出力されたファイルを Amazon S3 にアップロードしてください。このファイルを Rekognition Custom Labels のデータセット登録時に使用します。
Amazon Rekognition Custom Labels で猫パンチ認識モデルを作成
Amazon SageMaker Ground Truth の動画ラベリング機能を使ってラベリングした結果を使って猫パンチ認識モデルを作成します。Amazon Rekognition のコンソールにアクセスし、左側のメニューの一番上にある「カスラムラベルを使用」をクリックして Rekognition Custom Labels のコンソールに移動します。
ここからの手順は こちらの記事 を参照してください。こちらの記事からの変更点は以下の通りです。
- 「データセットの準備」の手順をスキップ
- 「データセットの登録」の手順で「Amazon SageMaker Ground Truth でラベル付けされた画像をインポートする」を選択し(下図参照)、「.manicest ファイルの場所」の部分に前の手順で S3 にアップロードしたファイル(SageMaker Ground Truth の manifest ファイルを変換したファイル)のパスを設定
AWS Cloud9 で推論と動画の作成
AWS Cloud9 のコンソールで「Create environment」をクリックし、すべてデフォルト設定のままで環境を立ち上げます。
画面の下部にターミナルがあるので、そこで以下のコマンドを実行して OpenCV をインストールします。
python3 -m pip install opencv-python boto3
sudo yum install -y mesa-libGL.x86_64
以下の手順で認証情報のセットアップをします。短い動画が対象であればこの手順を飛ばしても良いのですが、このサンプルで使用した 15秒の動画を使用すると推論スクリプトの実行中に認証情報の期限が切れてしまうため、こちらの手順を実施しておくと安心です。
- AWS マネジメントコンソールの左上にあるサービスの検索欄に
IAM
と入力し、IAM サービスを選択
- IAM ダッシュボード画面にて、左のペインにある「ユーザー」をクリック
- 使用している IAM ユーザー名をクリック (IAM アカウントが無い場合は こちら を参考に作成してください)
- ユーザー管理画面から「認証情報」タブを開く
- 「アクセスキーの作成」をクリック(既に作成してある場合はその情報を使っても OK)
- 「アクセスキー ID」と「シークレットアクセスキー」をコピーし、ローカルに保存
- 以下のコマンドを実行(AWS_DEFAULT_REGION は使用するリージョンの情報を入れてください)
export AWS_DEFAULT_REGION=ap-northeast-1
export AWS_ACCESS_KEY_ID={アクセスキー ID}
export AWS_SECRET_ACCESS_KEY={シークレットアクセスキー}
以下のコマンドを実行してスクリプトをダウンロードします。
wget https://raw.githubusercontent.com/ohbuchim/sample-codes-for-aiml/main/amazon-rekognition-image-analysis/predict.py
推論で使用したい動画ファイル(mp4)をスクリプトと同じパスに保存しておいてください。Cloud9 へのファイルのアップロードはドラッグ&ドロップで可能です。
ダウンロードしたスクリプトの以下の部分を自分の環境に合わせて書き換えます。
# set Amazon Rekognition Custom Labels's project ARN
projectVersionArn = "<ARN>"
# set movie's information
videoFile = "cat.mp4" # 推論に使用したい動画ファイル名
frame_rate = 25 # 上記動画のフレームレート
width = 1920 # 上記動画の幅(画素数)
height = 1080 # 上記動画の高さ(画素数)
projectVersionArn には、Rekognition Custom Labels コンソールでモデルの詳細画面を表示し、「モデルを使用」タブを選択して「モデルを使用する」と書かれた部分に表示されている ARN を設定してください。
上記設定が終わったら以下のコマンドを実行します。mp4 ファイルが連番静止画に変換され、各画像に対して推論を実行し、その結果を画像に重畳して最後に mp4 に変換します。result_xxx.mp4 という名前のファイルが出力されているはずなので、そのファイルを右クリックして「Download」を選択し、ファイルをダウンロードします。
python3 predict.py
猫パンチ中は赤い枠、通常時は緑の枠で猫が囲われた動画が再生できましたでしょうか?
さいごに
Amazon SageMaker Ground Truth の動画物体検知ラベリングと Amazon Rekognition Custom Labels を組み合わせて、猫パンチ認識モデルを作ることができました。動画物体検知ラベリングの機能を使うと、単純に連番静止画に分割した画像を静止画としてラベリングするのと比べて、前後のフレームを見比べながら、次フレームのラベル予測機能を活用して効率的にラベリングができます。