概要
AWS認定試験(AIF/MLA/MLS) では、Amazon SageMaker に関する知識が非常に重要です。
SageMaker には多数の「SageMaker ○○」と言ったサービスが存在しており、それぞれの役割やユースケースを把握することが求められます。
本記事では、それらを体系的に整理して紹介します。
Amazon SageMakerとは?
Amazon SageMaker は、AWSが提供する機械学習(ML)のためのフルマネージドサービスです。データの準備、モデルのトレーニング、チューニング、デプロイ、監視まで、機械学習のライフサイクル全体をサポートします。
- インフラの構築不要でMLモデルの開発・運用が可能
- ノーコードユーザーからプロのデータサイエンティストまで幅広く対応
- 多数の「SageMaker ○○」サービスによって用途ごとに最適化
SageMakerの主要サービス一覧
すべてのサービスを網羅しているわけではありませんが、試験対策として重要なものを中心にまとめています。
SageMaker Canvas
ノーコードで機械学習モデルを作成・予測できるサービスです。分析担当者やビジネスユーザーが、Pythonを書かずにMLモデルを構築できます。
- データの前処理、モデルの学習、評価、予測がGUI上で完結
- AutoMLが裏で動いているため、機械学習に詳しくなくても扱える
🔗 公式ドキュメント:
https://docs.aws.amazon.com/sagemaker/latest/dg/canvas.html
SageMaker Studio
統合開発環境(IDE)としての機能を持つ SageMaker の中核サービス。Jupyterベースで、開発・トレーニング・デプロイがGUIから可能です。
- データサイエンティスト向け
- 複数のMLツールとの連携が容易(TensorFlow, PyTorch, SKLearn など)
🔗 公式ドキュメント:
https://docs.aws.amazon.com/sagemaker/latest/dg/studio.html
SageMaker Processing
バッチデータ処理(前処理や後処理など)をスケーラブルに行うためのサービス。
- 入力データをS3から読み取り、処理後のデータをS3に出力
- sklearnや自作のスクリプトでのデータクリーニングが可能
🔗 公式ドキュメント:
https://docs.aws.amazon.com/sagemaker/latest/dg/processing-job.html
SageMaker Clarify
機械学習モデルの バイアス検出 や 説明可能性(Explainability) を提供するサービス。
- データとモデルの公平性チェック
- SHAPによる特徴量重要度の可視化
🔗 公式ドキュメント:
https://docs.aws.amazon.com/sagemaker/latest/dg/clarify-about.html
SageMaker Debugger
トレーニング中のモデルの問題(オーバーフィッティング、消失勾配など)を検出するためのツール。
- モデルの学習過程をリアルタイムに監視
- 自動ルールで異常を検出
🔗 公式ドキュメント:
https://docs.aws.amazon.com/sagemaker/latest/dg/debugger-about.html
SageMaker Model Monitor
デプロイ後のモデルの ドリフト(精度の劣化) を監視。
- 入力データの分布変化、予測値の変化を監視
- リアルタイムでアラート送信も可能
🔗 公式ドキュメント:
https://docs.aws.amazon.com/sagemaker/latest/dg/model-monitor.html
SageMaker Autopilot
完全自動でモデル作成(AutoML)を行ってくれるサービス。トレーニングパイプラインを自動生成します。
- モデルの候補を複数試行し、最適なものを選択
- StudioやCanvasからも実行可能
🔗 公式ドキュメント:
https://docs.aws.amazon.com/sagemaker/latest/dg/autopilot-automate-model-development.html
SageMaker Neo
トレーニング済みモデルを 最適化コンパイル して、エッジデバイスで高速に動作させるサービス。
- ARM, Intel, NVIDIAなど多様なデバイス向けに最適化
- IoTなどとの親和性が高い
🔗 公式ドキュメント:
https://docs.aws.amazon.com/sagemaker/latest/dg/neo.html
SageMaker Pipelines
MLワークフローを構築・管理するための MLOpsパイプライン機能。
- CI/CDを使ったML開発に対応
- ステップ(処理単位)を視覚的に接続できる
🔗 公式ドキュメント:
https://docs.aws.amazon.com/sagemaker/latest/dg/pipelines.html
SageMaker Data Wrangler
データの準備・クレンジング・変換をGUIベースで行えるサービス。
- SQL不要のGUIで集計・結合・欠損処理などが可能
- データ前処理からそのままトレーニングジョブに接続可能
🔗 公式ドキュメント:
https://docs.aws.amazon.com/sagemaker/latest/dg/data-wrangler.html
SageMaker JumpStart
事前学習済みモデルやサンプルノートブックを使って、すぐにMLを試せるサービス。
- BERTなどの定番モデルもGUIからすぐ使える
- 業界別テンプレートや事前学習済みモデルを簡単にデプロイ
🔗 公式ドキュメント:
https://docs.aws.amazon.com/sagemaker/latest/dg/studio-jumpstart.html
SageMaker Feature Store
機械学習モデルで使う 特徴量の保存・共有 に使うリポジトリ。
- オンライン/オフライン両方のストアを提供
- MLOpsの再現性・一貫性を担保するのに便利
🔗 公式ドキュメント:
https://docs.aws.amazon.com/sagemaker/latest/dg/feature-store.html
SageMaker Edge Manager
SageMaker Neoなどで最適化されたモデルを IoT/エッジデバイスで運用するための管理サービス。
- エッジ上のモデルの監視・更新が可能
- オフライン予測+後で同期する仕組み
🔗 公式ドキュメント:
https://docs.aws.amazon.com/sagemaker/latest/dg/edge.html
SageMaker Ground Truth
教師あり学習のための データラベリングサービス。
- Amazon Mechanical Turkや自社ワーカーを使ったラベリング
- 自動ラベリング(Active Learning)も可能
🔗 公式ドキュメント:
https://docs.aws.amazon.com/sagemaker/latest/dg/sms.html
SageMaker Training Compiler
ディープラーニングモデルのトレーニングを 自動で最適化し高速化するためのコンパイラ。
- PyTorch/XLAなどと連携して、GPUリソースを有効活用
- 学習時間・コストを削減
🔗 公式ドキュメント:
https://docs.aws.amazon.com/sagemaker/latest/dg/training-compiler.html
SageMaker Experiments
MLの実験管理ツール。ハイパーパラメータの変更やデータバージョンに対する結果をトラッキングできます。
- モデルのバージョン管理を体系化できる
- 実験の比較・可視化が可能
🔗 公式ドキュメント
https://docs.aws.amazon.com/sagemaker/latest/dg/experiments.html
SageMaker Model Registry
モデルのバージョンを管理し、承認・デプロイのステータスも記録できる機能。MLOps文脈で重要です。
- モデルの「ステージ(開発→本番)」管理
- Pipelinesとの統合が前提になることも多い
🔗 公式ドキュメント
https://docs.aws.amazon.com/sagemaker/latest/dg/model-registry.html
SageMaker Inference Recommender
モデルを本番環境で推論する際に、最適なインスタンスタイプや設定を自動で推奨するツール。
- デプロイ時のコストやパフォーマンスのトレードオフ分析
- スペック選定を自動化できる
🔗 公式ドキュメント
https://docs.aws.amazon.com/sagemaker/latest/dg/inference-recommender.html