Bringing Models and Data Closer Together - The Databricks Blogの翻訳です。
本書は抄訳であり内容の正確性を保証するものではありません。正確な内容に関しては原文を参照ください。
Databricks Feature StoreがAutoMLに組み込まれました
モデルの成果を改善するために、クイックかつ容易にFeature Storeのデータを活用するAutoMLの新機能を発表できることを嬉しく思います。AutoMLのユーザーはモデル品質を改善するために、シンプルにAutoMLデータセットとFeature Storeテーブルをjoinできるようになります。機械学習(ML)がより高速、より簡単になると、お客様は増加する様々なユースケースに対してこの変換技術を適用できるようになります。これによって、お客様はMLを用いて収益を増やし、コストを削減するさらに多くの手段を発見できるようになります。すでに我々は、多くのお客様が重要な問題を解決するためにAutoMLを活用しているのを目撃しています。いくつかのお客様は、自身の成果を加速するためにAutoMLを活用しつつも、自身のML専門性を拡張するためにAutoMLを活用しています。本日の発表によって、AutoMLはDatabricks Feature Storeと完全にインテグレーションされます。
Feature Storeとは?
Feature Store(特徴量ストア)は、データサイエンティストが特徴量を格納、検索、共有できるようにする集中管理されたデータリポジトリです。Feature Storeは、モデルトレーニングと推論で特徴量を計算するために同じコードが使用されることを確実にします。これによって、モデル作成者がアクセスできる整理されたデータセットが生成され、彼らはトレーニングの際にも、モデルデプロイの際にも活用できることを知りながらそのデータセットを活用できるようになります。多くの企業は、Feature Storeを活用することで、実験やデプロイメントを劇的に加速したことを報告しています。例えば、AnheuserのDirector of Data EngineeringであるBusch InBevは「特徴量エンジニアリングやデータ変換の共通ソースを用いることで、我々のデータサイエンスの能力をクイックにスケールさせ、データエンジニアやアナリストたちを統合する際に、Feature Storeは大きな助けとなっています」と述べています。
Feature Storeを使い始めるのは簡単で、主キーとタイムスタンプを持つすべてのDeltaテーブルは簡単にFeature Storeで活用することができます。Databricks Feature Storeの詳細に関してはこちらをご覧ください: AWS、Azure、GCP。
このインテグレーションはどのようにMLの成果を加速するのか?
Databricks AutoML(AWS、Azure、GCP)は、すべてのレベルの技術専門家によるMLモデルを構築、トレーニングをサポートするために開発されました。AutoMLは高品質の候補モデルを提供するだけではなく、お客様にすべてのモデルコードをノートブックで提供しますので、お客様はモデルのパフォーマンスをさらにチューニングすることができます。
これまでは、トレーニングセットとしてテーブルを用いてモデルをトレーニングすることができました。今では、お客様は自身のFeature Storeのデータを用いて、AutoMLトレーニングデータを拡張することで、モデルの品質を改善することができます。これによって、さらに正確なモデルを簡単にトレーニングできるようになります。Feature Storeインテグレーションを用いたAutoMLモデルは自動で特徴量のリネージをキャプチャし、新規モデルをエンドツーエンドのリネージトラッキングに追加します。このリネージによって、開発を加速し、あなたのMLOpsとコンプライアンスの要件を満たすサポートを行うツールを提供します。
どう使い始めるのか?
AutoMLエクスペリメントページで、Databircksランタイム11.3 LTS ML以降を選択します。問題タイプ、データセット、予測ターゲットを選択した後、画面の左下にボタンが表示されます。
このボタンを選択することで、お使いのデータセットとjoinする特徴量テーブルを選択し、joinに使用する検索キーを選択する画面が表示されます。
joinしたいテーブルと検索キーが指定したら、シンプルにStart AutoMLボタンをクリックし、入力したデータと特徴量テーブルから追加されたデータの両方を用いてモデル生成がスタートされます。このサンプルでは、NYCイエロータクシー料金データを特徴量テーブルで拡張することで、モデルのフィットが21%改善されています(RMSEが3.991から3.142に減少)。
AutoMLのUIにおけるこのインテグレーションだけではなく、AutoML APIでもプログラムから特徴量テーブルによるトレーニングデータの拡張がサポートされています。APIに関してはこちらを参照ください(AWS、Azure、GCP)。
MLをより高速かつシンプルにすることに対する投資を継続しているので、お客様が自身のワークフローを改善している様子を見ることができて嬉しく思っていますし、チームの皆様が自身のML目標を達成するためのより多くの手段を発見することを楽しみにしています。