Databricks Feature Store | Databricks on AWS [2022/10/13時点]の翻訳です。
Databricksクイックスタートガイドのコンテンツです。
本書では、特徴量ストアとは何か、提供するメリットは何か、そして、Databricks Feature Store固有の利点を説明します。
Databricks Feature Storeライブラリは、Databricks機械学習ランタイムでのみ利用でき、Databricksノートブックやワークフローからアクセスすることができます。
注意
現時点では、Feature StoreはUnity Catalogメタストアをサポートしていません。Unity Catalogが有効化されたワークスペースでは、特徴量テーブルはデフォルトのHiveメタストアにのみ書き込むことができます。
特徴量ストアとは?
特徴量ストアは、データサイエンティストが特徴量を発見、共有できる集中管理されたリポジトリであり、モデルトレーニングと推論に使われる特徴量の値を計算するために同じコードが使われることを確実にします。
機械学習では、将来の値を予測するためのモデルを構築するために既存のデータを使用します。ほとんどすべてのケースにおいて、モデル構築に活用する前に、生データには前処理や変換処理が必要となります。このプロセスは特徴量生成や特徴量エンジニアリングと呼ばれ、このプロセスのアウトプットが、モデルのビルディングブロックである特徴量と呼ばれます。
特徴量の開発は複雑で時間がかかるものです。機械学習に対応するための追加の複雑性、モデルトレーニングのために必要な特徴量計算処理、そして、予測を行う際にモデルを使う時にも再度計算が必要となります。これらの実装は、同じチームや同じコード環境によって実施されないケースもあり、遅れやエラーを引き起こすことがあります。また、企業内の別のチームは多くの場合で同様の特徴量を必要としますが、他のチームによって処理が完了していることに気づかないことがあります。特徴量ストアは、これらの問題に取り組むために設計されています。
なぜDatabricks Feature Storeを使うのか?
Databricks Feature Storeは、他のDatabricksのコンポーネントと完全にインテグレーションされています。
- 発見可能性。DatabricksワークスペースからアクセスできるFeature Store UIを用いることで、既存の特徴量をブラウズ、検索することができます。
- リネージュ。Feature Storeを用いて特徴量テーブルを作成すると、特徴量テーブルを作成するために使用されたデータソースが保存され、アクセス可能になります。特徴量テーブルのそれぞれの特徴量に対して、特徴量を使用しているモデル、ノートブック、ジョブ、エンドポイントにもアクセスすることができます。
- モデルスコアリング、モデルサービングとのインテグレーション。モデルをトレーニングするためにFeature Storeからの特徴量を使う際、モデルは特徴量メタデータと一緒にモデルがパッケージングされます。バッチスコアリングやオンライン推論にモデルを使う際、Feature Storeから自動で特徴量を取得します。呼び出し元は、これらに関して知る必要や、新規データをスコアリングするために特徴量を検索、joinするロジックを含める必要はありません。これによって、モデルのデプロイメントと更新をより簡単なものにします。
- ポイントインタイムの検索。Feature Storeでは、ポイントインタイムの正確性を必要とする時系列、イベントベースのユースケースをサポートしています。
Feature Storeを使い始める
Feature Storeを使い始めるには、以下のドキュメントをご覧ください。
- 特徴量の作成・更新、モデルトレーニングやバッチ推論におけるモデルの活用のプロセスを説明するサンプルノートブックをご覧ください。
- Feature Store Python APIのリファレンスマテリアルをご覧ください。
- Databricks Feature Storeを用いたモデルのトレーニングを学びます。
- Databricks Feature Storeで特徴量テーブルを操作するを学びます。
- モデルのトレーニングやスコアリングにおいて、特定の時点の最新の特徴量の値を取得するためのtime series feature tables and point-in-time lookupsを学びます。
- リアルタイムのサービングや自動特徴量検索のためのpublishing features to online feature storesを学びます。
- Databricksワークスペース間で特徴量テーブルを共有する
- Control access to feature tables
その他の情報
Feature Storeを使用する際のベストプラクティスに関しては、The Comprehensive Guide to Feature Storesをダウンロードください。