SageMakerとは
機械学習のワークフローであるラベル付け、開発、学習、モデル変換、推論デプロイを一貫して提供するマネージドサービス。
数分で開発環境を起動でき、必要なときだけ高性能マシンや分散マシン、GPUを使用して学習・推論ができる。
- S3へ学習データを置く
- 開発環境でモデル開発
- SageMakerに合わせた学習・推論コードへ変換する
- 変換コードを実⾏し、SageMakerマネージドのEC2/コンテナで学習・評価をする
- 推論エンドポイント(SageMakerマネージドEC2)にデプロイする
データ準備から推論モデルのデプロイまでのアーキテクチャー概要
開発環境の開始
- SageMaker Domain をセットアップを押して、SageMaker Domainを作成する
- Domain -> ユーザープロファイルを選択する
- 起動からStudioを起動する
- +Create Studio Classic spaceを押して、Classic共有環境を立ち上げる
- +Create JupyterLab spaceを押して、JupyterLab共有環境を立ち上げる
SageMakerの記法へのコード変換
SageMakerの各サービス
自動化されたSageMaker
-
SageMaker Autopilot
データの前処理からモデルの選択、ハイパーパラメータの最適化、学習、デプロイまでを全自動でできるAutoMLサービス -
SageMaker JumpStart
オープンソースモデルをデプロイし仕様できるサービス
SageMakerの学習環境
-
SageMaker Studio
ML ワークフローを実行するためのIDL。 -
SageMaker Notebook Instances
Jupyter Notebookを使用できる -
SageMaker Studio Lab
AWS アカウントにサインアップせずに、JupyterLabを使用できる -
SageMaker Canvas
ノーコードで学習できる -
SageMaker geospatial capabilities
地理空間モデル用 -
RStudio on Amazon SageMaker
RStudioを使用できる -
SageMaker HyperPod
分散トレーニングサービス - SageMaker Debugger
デバッグサービス
組み込みアルゴリズム
データ準備
- Data Wrangler
300を超える組み込みのデータ処理が含まれているため、コードを記述しなくても、特徴量をすばやく正規化、変換、および結合できる。 - EMR
- Glue
データ処理
- SageMaker Processing
- SageMakerApache Spark
特徴量の保存
- SageMaker Feature Store
評価
- SageMaker Clarify
- SageMaker Model Monitor
推論モデルデプロイ
SageMakerのモデルデプロイは主に4つの方法を提供している。
- リアルタイム推論
常時稼働な即時レスポンスが必要なデプロイオプション。
SageMaker Endpoint, Multi-Model Endpoint, Multi-Container Endpoint - サーバーレス推論
コールドスタートのため、リアルタイムではないが、コストが安い。 - 非同期推論
非同期処理のため、リアルタイムではない。 - バッチ推論
低頻度・大量データ用らしい。よくわからん。
CI/CD
- SageMaker Pipelines
まとめ
今回は、SageMakerについてまとめた。
参考文献
補足
AWSの最新情報や各サービスの情報は、下記サイトを参照している。