More than 3 years have passed since last update.

Databricks AutoMLのご紹介 : 機械学習開発の自動化に対するガラスボックスアプローチ

Last updated at 2022-08-14Posted at 2021-05-28

Introducing Databricks AutoML: A Glass Box Approach to Automating Machine Learning Development - The Databricks Blogの翻訳です。

Data + AIサミット2021で発表されたDatabricksの新機能のコンテンツです。

前処理、特徴量エンジニアリング、モデルのトレーニング、チューニングと言った負荷の高い作業を自動化することで、機械学習モデルを迅速に構築、デプロイできるツール、Databricks AutoMLを本日発表しました。この機能のローンチによって、データチームは、データセットの選択、トレーニングの設定、モデルのデプロイまでをすべてUIを通じて行えるようになります。また、我々は、データサイエンティストが、それぞれのトレーニングに対応して生成されたソースコードを含むノートブックにアクセスすることでトレーニングをカスタマイズしたり、実運用に向けて専門家とコラボレーションできる先進的なエクスペリエンスを提供します。Databricks AutoMLは、自動的に実験におけるメトリクス、パラメーターを追跡するMLflowや、デプロイメントに向けてチームがモデルを登録しバージョン管理を行えるDatabricksモデルレジストリを含むDatabricksの機械学習エコシステムと統合されています。

AutoMLに対するガラスボックスアプローチ

現在、多くの既存のAutoMLツールは不透明な箱となっています。すなわち、ユーザーはモデルがどのようにトレーニングされたかを知ることができません。これらのツールを使っているデータサイエンティストは、ドメイン特有の修正を行う際や、業界における規制の要求に応えるために監査を行う際に壁に突き当たることになります。このため、データチームはモデルをカスタマイズするために時間とリソースを投入することになり、本来得るべき生産性とは逆行するようなリバースエンジニアリングを行う羽目になります。

このような状況を受けて、我々は開発者の皆様がワークフローを拡張できるように、全てのトレーニングに対応するPythonノートブックを提供するガラスボックスのAutoMLアプローチであるDatabricks AutoMLを提供したのです。

データサイエンティストは、自身のドメイン知識を活用して生成されたノートブックに対してセルの修正、追加を容易に行えます。また、データサイエンティストは、定型文の記述をスキップして迅速にML開発に着手するために、Databricks AutoMLが生成したノートブックを活用することもできます。

データセットを素早く確認する

Databricks AutoMLは、モデルトレーニングとモデル選択に加えて、データセットの基本的な統計サマリーを得るための探索用ノートブックを生成します。多くの方が面倒と感じるデータ探索ステージを自動化することで、Databricks AutoMLはデータサイエンティストの時間を節約し、データセットがトレーニングに適しているかどうかを迅速に確認することができます。データ探索用ノートブックは、高いカーディナリティ、高い相関、ヌル値などの警告、変数の分布に関する情報をユーザーに提供するためにpandas profilingを使用します。

MLのベストプラクティスを学ぶ

AutoMLのエクスペリエンスは、実験時にメトリクス、パラメーターを追跡するAPIである我々のMLflowと統合されています。また、データサエンスチームの生産性を改善するためのMLのベストプラクティスを活用しています。

Experimentページから、データサイエンティストはトレーニングの実行結果を比較し、Databricksモデルレジストリにモデルを登録し、モデルサービングを行うことが可能です。
生成されるノートブックにはトレーニングに用いられたコードが含まれます。コードには、データのロードから、テストセット・トレーニングセットの分割、ハイパーパラメーターのチューニング、説明可能性のためのSHAPプロットまでが含まれます。

AutoMLパブリックプレビューの機能

Databricks AutoMLのパブリックプレビュー版では、(二値、マルチクラス)分類、回帰問題に対するsklearnモデル、xgboostモデルに対して並列トレーニングを行うことが可能です。数値、カテゴリー、タイムスタンプの特徴量をサポートしており、自動的にone-hotエンコーディング、null値の補完を行います。トレーニングされたモデルは、全てのデータ前処理が推論モデルでラッピングされるように、sklearn pipelinesとなっています。

加えて、Databricks AutoMLにはいくつかの高度なオプションがあります。多くのチームはAutoMLはすぐに答えを必要としますので、お客様が停止条件(タイムアウト時間、トレーニングの実行回数)を設定することで、どのくらいAutoMLのトレーニングを行うのかを制御することができます。モデルのパフォーマンスを評価するためのメトリクスを設定することも可能です。

パブリックプレビューのDatabricks AutoMLを使い始める

Databricks AutoMLはパブリックプレビューで利用可能であり、Databricksの機械学習エクスプリエンスの一部として利用できます。利用を開始するには以下の手順を踏みます。

UIの左側にあるサイドバーから"Machine Learning"を選択して、Databricks AutoMLにアクセスします。左のナビゲーションバーから"(+) Create"をクリックして"AutoML Experiment"をクリックするか、Experimentページで"Create AutoML Experiment"をクリックします。
ドキュメントにあるAutoML APIを使用します。

Databricks AutoMLをトライする準備はできましたか？Databricks AutoMLの詳細に関しては、AWS、Azure、GCPのドキュメントを参照ください。

Databricks 無料トライアル

You get articles that match your needs
You can efficiently read back useful information
You can use dark theme

What you can do with signing up