ひとりアドベントカレンダーAdvent Calendar 2024

【ML初心者アドベントカレンダー】モデルのモニタリングについて

Posted at 2024-12-24

この記事の目的

モデルのモニタリングについて、Machine Learning Lens も絡めて学ぶ

モデルを使用するにあたって、継続的なモニタリングを行いドリフトを検知する必要があります。
ドリフトとは何か？については引用させていただいた下記の記事が一番わかりやすかったです。

ドリフト（Drift）とは、何らかの「予期せぬ変化」によって、モデルの予測性能が時間経過とともに劣化していくことを指す

機械学習モデルの学習に使用したデータセットと実際の運用環境で扱うデータセットの間に差異が生じる現象のこと。

機械学習モデルが学習した概念自体が時間の経過とともに変化してしまう現象。正解そのものが置き換わってしまうこと。
※ 冬は暖かいダウンが売れるが、夏は売れない。この場合は、正解のデータが時間の経過で「ダウン」ではなくなっている。

AWS にはモニタリングサービスがいくつかありますが、それぞれでできることが異なるので簡単にまとめます。

サービス	概要
SageMaker Model Monitor	データ品質とモデルパフォーマンスをモニタリングできる。モデルそのもののパフォーマンスを知りたい場合はこちら
SageMaker Clarify	バイアス検出とモデル解釈が行える。簡単なレポートも生成可能
Amazon CloudWatch	トレーニングジョブやエンドポイントのメトリクスをモニタリングできる。モデルの品質ではなくて環境の状態とかを知りたいときにはこちら

Machine Learning Lens は 2021年に追加されたAWS Well-Architected Framework の一部で、機械学習（ML）システムの設計に関するベストプラクティスのことです。

モニタリングについては、下記のような記載があります。
（「」内は私なりの解釈です。詳しくはリンク先を参照していただければと思います。）

管理されたバージョン管理戦略で回復可能なエンドポイントを確保する
- 「モデルがいつでも回復できるようにどっかに構成をまとめて管理しておこう。バージョン管理もしておこう」
- AWS CloudFormationとか使うといいよ

モデルの説明可能性を評価する
　* 「求められた時、きちんと推論の結果を説明できるようにしよう」
　* Amazon SageMaker AI Clarify を使用するといいよ

モデルのパフォーマンス低下を監視、検出、処理する
- 「モデルは時間の経過でだめになっていくから、きちんと監視して最適なタイミングでモデルを更新できるように備えておこう」

自動化された再トレーニングフレームワークを確立する
- 「データとモデルの予測を監視して、バイアス等が一定の値に達したら自動でトレーニングできるように仕組みを作っておこう」

再トレーニングのための更新されたデータ/機能のレビュー
- 「再トレーニングをするときは、前回のトレーニング時にはなかったデータや新しくなっているデータについても考慮しておこう」
- Amazon SageMaker AI Data Wrangler を使用して変化するデータを探索できるよ

人間参加型モニタリングを含める
- 「人間が参加するモニタリングを使ってみよう。ラベル付けは人間の方が精度高いよ」
- Amazon Augmented AI を使用すると人間によるレビューを受けることができるよ

ML モデルの投資収益率を監視する
- 「本番稼働中のモデルのレポートを見て、ちゃんと市場に見合った価値を提供できているか見ておこう。だめそうだったら改善しよう」
- Amazon QuickSightを使用してビジネス観点のレポートが作成できるよ

エンドポイントの使用状況を監視し、インスタンス群を適切なサイズにする
- 「リソースがきちんとCPUとかメモリとか最適なサイズを使っているか確認して、過不足がありそうだったら調整しよう」