Amazon SageMaker Ground Truth を試してみる

Last updated at 2020-04-27Posted at 2018-12-03

Amazon AI by ナレコム Advent Calendar 2018の3日目の記事です。
今日は、AWS re:Invent 2018で発表された Amazon SageMaker Ground Truth [1] について書いていきます。

Amazon SageMaker Ground Truthとは

機械学習や深層学習をする際に様々なデータセットを用いますが、そのデータセットには真値（Ground Truth）が必要です。

物体検出をして矩形（Bounding Box）が得られますが、検出領域が真値のBounding Boxと一致している部分を計算し精度を求めます。そのズレが誤差になるわけです。[2]

このように予測した結果を評価するためには、まず真値が必要です。
世の中には様々なデータセットが用意されていますが、数千枚・数万枚以上の画像を人の手でラベリングしています。

Amazon SageMaker Ground Truthは、データセットの真値の作成をサポートします。以下のようなラベルデータを作成できます。

物体検出[1]やテキスト分類[3]は例があるので、セマンティック・セグメンテーションについてやってみたいと思います。

今回使用したのは、KITTI Vision Benchmarkのセグメンテーション用のデータセットであるdata_semantics.zipです。training->image_02から000000_10.png ~ 000009_10.pngまで10枚の画像をS3にアップロードします。

Amazon SageMakerのGround Truth->ラベリングジョブを選択し、Create labeling jobをクリックします。

S3のパスを指定し、manifestファイルを作成します。

IAM roleを新規作成します。

最終的なJob overviewです。

Task TypeのSemantic Segmentationを選択します。

Workersを作成します。

タスクの内容とラベルを追加します。

ラベリング労働力にあるLabeling portal sign URLから、ラベリングツールへ移動します。
usernameとpasswordはWorkers作成の際に書いたemailアドレスに届きます。
新しいパスワードを入力して、ログインします。

ツールを使って自分でラベリングしていきます。
ラベルを選択して（例えばperson）、人の領域をクリックして線でつないでいきます。

車も同様にラベリングします。

10枚全部行います。大変...

しばらく経つと、ラベリングジョブがCompleteとなります。

実際にこれを真値として使っていく方法は今後調べていきたいと思います。