Inference tables for monitoring model serving endpoints | Databricks on AWS [2023/9/27時点]の翻訳です。
本書は抄訳であり内容の正確性を保証するものではありません。正確な内容に関しては原文を参照ください。
プレビュー
本機能はパブリックプレビューです。
本書では、モデルサービングエンドポイントをモニタリングするための推論テーブルを説明し、期待されるアウトプットと特徴量の制限の詳細を説明します。
推論テーブルとは?
推論テーブルは、お使いのモデルサービングエンドポイントにおけるリクエストとレスポンスを自動で捕捉し、Unity CatalogのDeltaテーブルに記録します。MLモデルを監視、デバッグ、改善するためにこのテーブルのデータを後で活用することができます。
例えば、推論テーブルを活用することで以下のようなことを達成することができます:
- お使いのモデルの次のイテレーションの再トレーニングデータセットの作成。
- プロダクションのデータとモデルの品質モニタリングの実施。
- 疑わしい推論の診断とデバッグの実行。
- 再ロードされるべき誤ったラベルのデータの作成。
パブリックプレビューに参加するには、inference tables preview enrollment formを提出してください。
以下の図では、モデルサービングのワークフローにどのように推論テーブルがフィットするのかを示しています。
Unity Catalog推論テーブルのスキーマ
推論テーブルに記録されるそれぞれのリクエストとレスポンスは、以下のスキーマでDeltaテーブルに書き込まれます:
注意
バッチ入力でエンドポイントを呼び出した場合には、すべてのバッチは1行として記録されます。
カラム名 | 説明 | 型 |
---|---|---|
databricks_request_id |
すべてのモデルサービングリクエストに付与されるDatabricks生成のリクエストID | STRING |
client_request_id |
モデルサービングのリクエストボディで指定できるオプションのクライアント生成のリクエストID。詳細はclient_request_idの指定をご覧ください。 | STRING |
date |
モデルサービングのリクエストを受信したUTC日付。 | DATE |
timestamp_ms |
リクエストがモデルサービングエンドポイントに到達した時間を表現するエポックでのタイムスタンプ(ms) | LONG |
status_code |
モデルから返却されたHTTPステータスコード。 | INT |
sampling_fraction |
リクエストがダウンサンプリングされた際に使用されるサンプリング率。0と1の値を取り、1が入力リクエストの100%が含まれることを意味します。 | DOUBLE |
execution_time_ms |
モデルが推論を行う際に要した実行時間(ms)。ネットワークのレーテンシーオーバーヘッドは含まれず、モデルが予測を行う際に要した時間のみが含まれます。 | LONG |
request |
モデルサービングエンドポイントに送信された生のJSONボディ。 | STRING |
response |
モデルサービングエンドポイントから返却された生のレスポンスJSONボディ。 | STRING |
request_metadata |
リクエストに関連付けらえたモデルサービングエンドポイントに関するメタデータのマップ。このマップには、エンドポイント名、エンドポイントで使用されているモデル名、モデルバージョンが含まれます。 | MAP<STRING, STRING> |
制限
この機能には以下の制限があります:
- 顧客管理キーはサポートされていません。
- 推論テーブルはCPUエンドポイントでのみ動作します。モデルサービングGPUのパブリックプレビューに登録している場合には、カスタムソリューションに関してDatabricks担当者にお問い合わせください。
- AWS PrivateLinkはデフォルトではサポートされません。有効化するにはDatabricks担当者にお問い合わせください。