DatabricksでもAutoMLを提供していることをご存知でしょうか。こちらでは、Databricks AutoMLのサンプルノートブックやウォークスルーの記事をまとめています。
AutoMLとは
AutoMLとはAutomated machine learningの略であり、現実世界の問題に対して機械学習を適用する際のタスクを自動化するプロセスのことを意味します。これによって手元にあるデータセットをもちいることでどのような機械学習のメリットが得られるのかをクイックに検証したり、プロジェクトの初期段階で活用するベースラインの機械学習モデルを手に入れることが可能となります。
AutoMLはGUIで行うノーコードの機械学習だと誤解させるような論調もありますが、AutoMLは分類や回帰、予測といった何かしらの問題を機械学習で解決する際に必要となるタスクを自動化するプロセスです。GUIはその際に使用するインタフェースの一つに過ぎません。
Databricks AutoMLとは
Databricks AutoMLでもGUIは提供していますが、大きな特徴は「ガラスボックスアプローチ」です。AutoMLで生み出される大量の機械学習モデルをMLflowで全て自動で記録することに加え、ベストな機械学習モデルがどのように生み出されたのかが全てわかるようになっています。これによって、ベースラインモデルを自動化されたプロセスでクイックに構築し、専門知識を埋め込んでモデルを改善することが可能となります。
Databricks AutoMLにおいては、UIあるいはPython APIでAutoMLを実行することができます。
Databricks AutoMLを活用することで、データセットに対して自動で機械学習を適用することができます。モデルのトレーニングのためにデータセットを準備し、一連の実験を実施、記録し、複数のモデルに対して、作成、チューニング、評価を行います。結果の表示に加えて、中身を確認し、再現、修正できるようにそれぞれの実験のソースコードをPythonノートブック形式で提供します。また、AutoMLはデータセットの統計情報を計算し、後ほど確認できるようにノートブックの中に情報を記録します。
それぞれのモデルは、scikit-learnやXGBoostなどのオープンソースコンポーネントから構築され、容易に修正でき、既存の機械学習パイプラインに組み込むことができます。回帰、分類、予測問題に対してDatabricks AutoMLを活用できます。scikit-learn、xgboost、LightGBMパッケージのアルゴリズムに基づきモデルを評価します。
サンプル集
現時点ではDatabricks AutoMLは分類、回帰、時系列予測の問題に対応しています。対応できる問題やデータの種類に関しては、今後も拡張予定です。
参考資料
この他、Databricksでの機械学習に興味がある方はこちらの記事もご覧になってください。
- Databricks AutoMLのご紹介 : 機械学習開発の自動化に対するガラスボックスアプローチ
- Databricks AutoMLのマニュアル
- あなたの機械学習プロジェクトをDatabricks AutoMLでスーパーチャージしましょう
- Databricks機械学習ガイド
- Databricksにおける機械学習チュートリアル
- Databricksで機械学習を始めてみる
- 機械学習エンジニアとしてDatabricksを使い始める
- Databricksにおける機械学習モデル構築のエンドツーエンドのサンプル