今年のre:inventの機械学習系サービスで、いくつか気になるアップデートがあったので、ご紹介していきたいと思います。
##SageMaker Studio Lab
Google Colabに似た、無料で使えるクラウドのJupyter notebookが登場しました。
Colabは使わないとすぐカーネルがリセットされてしまう感じがあって、そこがすごく使いにくかった。感覚的にはコーヒーを作る5分ほどの休憩でカーネルがリセットしてしまって、泣く泣く最初からセルを動かさないといけないようなことがありましたが、この新しいサービスは使ってみたところかなり安定していて好印象です。
中身はほぼSageMaker Studioで、使用感は悪くないです。
Sage Makerという名前がついていますが、AWSとの連携はゼロです。SageMaker内のJupyter notebookだとデフォルトでboto3やSageMaker SDK、あるいはTensorFlowなどが使えますが、こちらはそういうカーネルの選択肢がないです。
使い方は、まずCPUセッションかGPUセッションを選びます。CPUなら12時間、GPUなら4時間の制限時間があります。いずれにせよ制限時間が終わったらまたセッションを始めればいいのでほぼ無制限に使えると言って良いでしょう。
ただ使うには登録が必要で、以下のURLから申請すると承認のリストに追加され、承認されると登録用のメールが届きます。自分は申請から1日ほどで承認メールが来ました。
https://studiolab.sagemaker.aws/
###まとめ
Google Colabに負けじとAWSもクラウドの無料のJupyterノートサービスを出してきた。Colabみたいにセッションが勝手に中断されないのが嬉しい。AWS用のカーネル、TensorFlow用のカーネルも用意してくれているともっとよかった。使うには登録が必要なので急いで登録しよう!(登録はこちら)
##Serverless Inference
今まではAWS上でモデルをデプロイしてHTTPリクエストで推論可能にすると、推論用のEC2インスタンスの料金がかかっていました。しかも推論用のインスタンスは最低でも1時間30円くらいなので、消し忘れて数日経つと数千円かかってしまって結構辛かった。それがこのアップデートでかなり気楽に、言わばLambda感覚でMLモデルをデプロイできるようになりました。
サーバーレスなので、コールドスタート問題(ずっと使ってないとコンテナがkillされて、久々の起動に数十秒かかってしまう問題)はありますが、これはLambdaと同じく「温め機能」のオプションもあるようです(追加料金は必要)。
なんにせよサーバーレスの流れはもっとどんどん推し進めてもらいたいですね。
###まとめ
AWS上でのMLモデルのデプロイがサーバーレス化。これでAWSにモデルをデプロイするときの推論コストが圧倒的に安くなるはず。
##Ground Truth Plus
SageMaker Ground Truthは画像やテキストデータのラベリングを支援するサービスでしたが、今回これに機能追加がありました。
と言っても大したアップデートではありません。というのも、このサービスは医療用のデータなどラベル付けに専門性が要求される場合に、シアトルにいるAWSのコンサルタントが電話で相談に乗ってくれるサービスだからです。
流れとしては、電話で相談→適切な人員をアサインという流れですが、当然当分は英語のみなので、ほとんどの方には関係のないアップデートでした。
###個人的にはもっとこっちを改善して欲しかった…
個人的にはそれよりGround Truth自体の機能のアップデートを期待していました。具体的には、
#####・学習プロセスに抽象化したAPIを提供して欲しい
オブジェクトひとつにつき8円に見合う、Ground Truthでラベリングをした際のメリットが欲しいです。例えばモデル学習時に、
estimator.fit(..., label_config=GroundTruthConfig(s3_location="s3://..."), ...)
と指定しただけで学習ができたりとか。
#####・全体的な細かいところの改善
初心者殺しの理解しにくく、落とし穴が多いUI。適切なエラーメッセージが出ない等の細かいところの改善が望まれます
#####・ドキュメントの充実
EM法を使った統合ラベルを使うときのワークフローや、自動ラベリング時のワークフローはどうなるの?というのがわかると嬉しい…。
#####・デフォルトで使えるアノテーション用のモデルの充実
例えばCVATのようにデフォルトで人や車をラベリングしてくれるサービスがあってもいいと思います。異常検知用の自動ラベリング等もあると嬉しい。
です。これらに関しては今後のアップデートに期待しましょう。
###まとめ
Ground Truth Plusが発表された。Plusもいいけど本体の機能の充実を望む!
##その他のアップデート
以下は個人的にはあまりピンと来なかったアップデートです。それぞれ2行程度で簡単にご紹介します。
###SageMaker Canvas
データサイエンスの現場でよく聞くDataRobotに似た、GUIでできるデータサイエンスサービスです。もともとデータサイエンス系のMLに力を入れてきたAWSなのでなるほどというアップデートでした。
###新しい機械学習用インスタンスTrainiumの発表
800Gbpsという高いI/O性能や、GPUよりさらに効率が良いASICを搭載したチップを搭載したり、通常のインスタンスよりMLに最適化されたインスタンスが登場しました。昨年のInferentiaに続くML用インスタンスとしては2つ目ですが、Inferentiaを使う場合と同様、コードをNeuron SDKという専用のSDKでコンパイルしてやる必要があります。Inferentiaが推論用、今回のTrainiumが学習用のインスタンスなのでしょう。機械学習の運用コストを下げたい場合に使うことになるかもしれませんね。
##最後に
ML関係だけでもたくさんのアップデートがあって、その中でも一部気になったものだけご紹介しました。最後にAWS re:postという機械学習とは関係ないサービスが登場したので紹介して終わりとします。(URLはこちら)
###掲示板サービスre:post
今までAWSに関係する掲示板的な役割はGit HubのissueかAWS公式のフォーラムくらいしか実質なかったですが、この公式のフォーラムがくせ者で、Greengrass以外はAWSからの回答がほぼゼロ、という状態でした。しかもUIが20年くらい前の古いUIでAWSを使う際の小さなストレスのひとつでした。例えばSageMakerみたいな決してドキュメントが優れているとは言えないサービスでハマっている人の死屍累々を見るのはあまり気持ちの良いものではありません。しかもAWSコンソールから飛べないのでそもそもフォーラムの存在自体知らない人も多かったはずです。
それが今回コンソールから行けるようになり、UIもモダンになりました(下図参照)。専用のアカウントが必要なのが微妙ですが、これを機にAWSからの回答が増えるのではないかと少しだけ期待しています。
記事は以上になります。それではクラウド技術の発展には時間がかかることを念頭に置いてまた来年のアップデートを待つことにしましょう。ありがとうございました。