SageMaker Processing
『データの前処理・後処理、モデル評価などのタスクをスケーラブルなマネージド環境で実行するための機能』
このAPIを使用することで、
- データのクリーニング
- データの変換
- 特徴量エンジニアリング
などを効率的に実施し、機械学習モデルの性能を向上 させることができます。
並列処理
Processing APIでは、データの前処理を行う場合、大規模なデータセットを効率的に処理するために、データを 複数のパーティションに分割して並列処理 することが推奨されます。
S3との連携
データ処理ジョブは、S3バケットにあるデータにアクセスして前処理や後処理を実行します。
Processing APIでデータの前処理を行う際、S3バケットに処理結果を保存し、後続のMLパイプラインで活用することができます。
S3にアップロードされたファイルに対して、Processingを呼び出し、自動的に処理したい場合には、 S3イベント通知 の機能を利用します。
Processing APIに限らず、AWSのサービスの多くは、中間成果物や最終成果物をS3に保存するのが一般です。
処理ジョブのモニタリング
CloudWatchを使って、Processing APIの処理ジョブをモニタリングしてエラーを特定する事ができます。
Processingジョブの実行中、CloudWatch Logsに処理のログが出力されるため、これを使用してジョブの進行状況をモニタリングし、エラーや失敗を迅速に特定できます。