More than 5 years have passed since last update.

AWS SageMakerのバッチ推論が思っていたのと違った話

Posted at 2020-05-27

背景

機械学習で学習・推論を行うに当たり、AWS SageMakerを利用しています。
今回は独自モデルを利用して バッチ推論を実施する際 にハマったお話で、扱っているデータは画像です。
※本来、学習→推論の流れになりますが、学習を割愛しているため若干記事として読みにくいかもしれません。

作成したモデルを利用して、元となるデータから予測される結果を出力することを「推論」と記載しています。
AWS SageMakerでの推論方法は主に下記の2パターンあります。

リアルタイム推論はイメージしやすいです。

本題です。
自分が元々想像していたのは、以下のような流れでした。

そもそも「バッチジョブ(スクリプト)を定義」の時点で違いました。
やっていることはほとんどリアルタイム推論(上の「推論時のイメージ」)と同様で、違いとしては 「推論実施までの流れ」 と 「コンテナの挙動」 です。

boto3のSageMakerインスタンスを生成し、create_transform_job()で呼び出し
- create_transform_job()は非同期で実行される
(内部的に)指定したモデルを包含したHTTPエンドポイントが起動される　
- docker run image serve でコンテナ起動
- モデルはcreate_transform_job()に渡すjson引数に定義
  - S3上のINPUT/OUTPUTもこの引数内で指定する
  - (どういう風に渡されるのかドキュメントから読み取れない...)
- ECRに登録済みのコンテナを起動し、HTTPエンドポイントを設定
  - /invocationsと/pingを定義しておく
  - /pingは200を返せば良いが、監視としても利用できる
/invocationsにINPUTとして指定したS3パスのファイル群が、一つずつPOSTされる
- 推論結果はHTTPレスポンスとして返却
- 返却内容は、OUTPUTに指定したS3に「INPUTに与えられたファイル名.out」としてupされる
S3のファイル群を処理し終わったらコンテナ停止

個人的にSageMakerのバッチ推論は 「理解し辛いのでは」 、、というのが所感です。

また、下記の「まだ分かっていないところ」も含めて、利用シーンが想定できていません。

通常運用だとjupyter notebookを介して呼び出せない
- リアルタイム推論はエンドポイントが起動したままなので扱いやすい
- バッチ推論はどう呼び出すのが適切？
何度か試している限りコンテナの起動に4分くらいかかる
- 毎回4分かかっていたらさすがに使い勝手が良くない
- 高速化する方法はないものか

もちろん、以下の利点もあります！

その他、自分の理解が追いついてないところも多々あるかもしれません。
調べていく内に、もっと良い利用方法が見つかったら改めて記事にしたいなと思います。