Databricks AutoMLのマニュアルでも説明されているように、Databricks機械学習ランタイム10.3以降では、AutoMLで使用するアルゴリズムを選択できるようになりました。ビジネス要件、機能要件によっては特定のアルゴリズムに限定したいというケースがあるかと思いますが、そのようなケースに対応することができます。
- 事前にトレーニングに使用するデータを準備しておき、メタストアに登録しておきます。
- Databricks機械学習ランタイム10.3以降が稼働するクラスターを作成して、起動しておきます。
- サイドバーのペルソナスイッチャーでMachine Learningを選択し、Experimentsをクリックします。
- Create AutoML Experimentをクリックします。
- Computeでは上で作成したクラスターを選択します。
- ML problem typeでは問題のタイプ(回帰、分類、時系列予測)を選択し、Datasetでは、事前に準備しておいたトレーニングデータセットを選択します。
-
Prediction targetには目的変数のカラムを指定します。
- さらにAdvanced Configuration (optional) を展開します。
- するとTraining frameworksに使用されるフレームワークが列挙されていますので、必要に応じて取捨選択を行います。
これでトレーニングを行うと選択されたフレームワークのみが使用されるようになります。以下の例ではscikit-learnのみが使用されています。
また、Alertsをクリックすると、データに関する警告が表示されますので、トレーニングデータの見直しが必要かどうかの判断に活用することができます。