Databricks Feature Storeワークフローの概要

Posted at 2022-11-07

本書は抄訳であり内容の正確性を保証するものではありません。正確な内容に関しては原文を参照ください。

本書では、オンラインとバッチの両方のユースケースにおける機械学習ワークフローでのDatabricks Feature Storeの使い方の概要を説明します。

Feature Storeを用いた典型的な機械学習ワークフローは以下のパスを踏みます。

生のデータを特徴量に変換するコードを記述し、必要な特徴量を格納するSparkデータフレームを作成します。
Feature Storeで特徴量テーブルとしてデータフレームを書き込みます。
特徴量ストアからの特徴量を用いてモデルをトレーニングします。これを行う際、モデルはトレーニングで使われた特徴量の仕様を格納します。モデルを推論に使う際、自動で適切な特徴量テーブルから特徴量を結合します。
モデルをモデルレジストリに登録します。

これで、新規データに対する予測を行う際にモデルを使うことができる様になります。

バッチユースケースにおいては、モデルは必要な特徴量をFeature Storeから自動で取得します。

リアルタイムサービングのユースケースでは、特徴量をオンラインストアに公開します。

推論時には、モデルはオンラインの特徴量ストアから事前計算済みの特徴量を読み込み、モデルサービングエンドポイントにクライアントからリクエストされたデータと結合します。

サンプルノートブック

Feature Storeタクシーサンプルノートブックでは、特徴量の作成、更新、モデルトレーニングとバッチ推論での活用のプロセスを説明します。