2
1

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?

More than 1 year has passed since last update.

DatabricksAdvent Calendar 2022

Day 18

どんなもん?AutoMLのパフォーマンスについて

Last updated at Posted at 2022-12-17

はじめに

今回はDatabricksのAutoMLのパフォーマンスについてちょっとお話ししたいとおもいます。

DatabricksのAutoMLとは

数クリックで実行可能なGUI/CUIベースのAutoML

  • clusterの選択
  • ML Problem type(回帰、分類、時系列予測)
  • データ(テーブルの指定)
  • 予測したいfield

Screenshot 2022-12-08 at 10.48.05.jpg

AutoMLで生成されたモデルはすべてmlflowで自動でTracking

  • 実験結果のOverview
    Screenshot 2022-12-08 at 11.06.30.jpg

  • 各モデルの比較

Screenshot 2022-12-08 at 11.12.35.jpg

Screenshot 2022-12-08 at 11.11.13.jpg

精度の確認

今回、どのくらいの精度がでるかというところで、SIGNATE様が出されているTest用のCompetitionデータを使ってAutoMLを回して見たいと思います。
https://signate.jp/competitions/126

タスクとしてはコロラド州のルーズベルト国有林の樹木観察情報から林形(7種)を分類する多変量のタスクになります。

データ準備

データをSIGNATEのサイトからダウンロードして、DBFSにupload後、automl用にDeltatable化しておきます。
AutoML側で特徴量の抽出をさせるので、特に加工せずにBronze tableとして扱います。

df = (spark.read.option('header', 'true')
                .option('sep', '\t')
                .option('inferSchema', 'true')
                .csv('/FileStore/tmp/train-1.tsv')
)

df.write.mode("append").saveAsTable("suda_automltable_forest")

AutoMLを実行

Screenshot 2022-12-16 at 11.24.43.jpg

  • 選択項目
    • Cluster : 利用するCluster(ML Runtime)のものを利用します。(AutoMLを実行した分だけ課金される仕組みです)
    • ML problem type : Classfication (他には回帰、時系列予測が使えます)
    • Input Training Dataset : ↑で作成したtableを設定
    • Prediction Target : 今回はCover typeを選択します(林の型)
    • Evaluation Metrics : 今回のテストコンペの評価指標はaccuracyを選択します(他にはf1score、logloss、ROCなどを選択できます)

項目を選択後、Startを押して実行します。

Screenshot 2022-12-16 at 11.33.32.jpg

データセットにもよるので、なんとも言えませんが開始5分程度で13個ほどのモデルが学習されている状態になります。
アルゴリズム、ハイパーパラメータチューニングなどを自動で行い、結果300ほどのモデル生成が行われました。

Screenshot 2022-12-16 at 11.36.23.jpg

AutoMLを実行したころのaccuracyの値はかなり低いのですが、時間が経つにつれ、精度がよくなっていっていることがわかっていただけるかとおもいます。

・初期のころ
Screenshot 2022-12-16 at 11.35.48.jpg

・最終のころ
Screenshot 2022-12-16 at 11.36.07.jpg

中身を見てみる

DatabricksのAutoMLでは作成したモデルに対して、notebookが出力されます。
どういうデータをloadしたのか、特徴量の抽出、データ加工、ハイパーパラメータになにを与えていたかなどが全てわかるので、AutoMLでベースラインを作成して、さらにチューニング、mlflowで比較といった流れを作ることができます。

Screenshot 2022-12-16 at 11.41.20.jpg

Screenshot 2022-12-16 at 11.41.48.jpg

Screenshot 2022-12-16 at 11.43.43.jpg

また、作成したmodel自体はartifactとして保存されるので、pyspark、pandasからの呼び出しサンプルコード、pklも生成されており、sagemakerなどとの連携も可能です。

Datbricks側でモデル登録、REST APIを使ったmodel servingも可能ですので、End to EndのMLOPSも対応できます。

Screenshot 2022-12-16 at 12.44.00.jpg

精度は?

最終的に最もよい精度(accuracy)は0.934を記録しているので、精度としてはいい値かと思います。
コンペの上位の方達も9.7近くの値をだされているので、baselineの作成としてはAutoMLを活用いただけるのでは!

Screenshot 2022-12-16 at 11.45.55.jpg

2
1
0

Register as a new user and use Qiita more conveniently

  1. You get articles that match your needs
  2. You can efficiently read back useful information
  3. You can use dark theme
What you can do with signing up
2
1

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?