0
0

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?

More than 1 year has passed since last update.

Databricks AutoMLで予測をシンプルに

Last updated at Posted at 2022-02-14

Simplify Your Forecasting With Databricks AutoML - The Databricks Blogの翻訳です。

本書は抄訳であり内容の正確性を保証するものではありません。正確な内容に関しては原文を参照ください。

昨年、我々は分類、回帰問題向けDatabricks AutoMLを発表し、データチームを強化するためにはガラスボックスアプローチが重要であることを示しました。本日、AutoML for Forecastingによる予測機能の拡張を発表できることを嬉しく思います。

データチームはUIを通じて、簡単に予測を行うことが可能となります。これら生成された予測はそのまま使うこともできますし、調整を行う際のスタート地点とすることも可能です。ステークホルダーは多くの場合、異なる製品、地域、店舗などに対する数百、あるいは数千の予測を見ており、これらは着手されない予測のバックログとなっており、予測においてはシンプルにすることと、スタートするまでの時間を短縮することが特に重要となります。予測向けAutoMLはデータチームを拡張し、データセットの予測能力をクイックに検証することを可能とし、予測プロジェクトにおける方向性をガイドするためのベースラインモデルを提供します。

AutoMLでどれだけ簡単に予測を行えるのかを見ていきましょう。

サンプル:キャンディ生産の予測

まもなくバレンタインデー(2/9の記事です)なので、向こう数週間のキャンディの生産を予測したいと考えます。

動作原理

セットアップウィザードが、スタートするために必要な設定をガイドしてくれます。Problem typeで"Forecasting"を選択し、データセットを選びます。この例では、DatabricksとDatabricksランタイム10.3を用いて我々がすでに作成したキャンディ生産量データセットを使用します。ここでは、単変数予測あるいは複数の時系列データの予測の実行を指定することもできます。

スタートするとAutoMLは、Apache Spark™を用いて全てを並列実行しながら、必要となるデータ準備、ProphetARIMAアルゴリズムを用いた複数モデルのトレーニング、時系列が予測される都度Hyperoptを用いたハイパーパラメーターチューニングを実行します。AutoMLが処理を完了すると、パフォーマンスメトリクスとともにトレーニング済みの異なるモデルを参照することができ、ベストなモデルを評価することができます。

データチームの拡張

AutoMLが"mixed"というタイプのキャンディには予測を行うためには十分なデータがないことを検知し、警告を表示していることがわかります。

AutoMLのベストな部分は全ての透明性が保たれていることです。AutoMLは、データに基づき実行される重要なステップに対して警告を表示するか、スキップすることもあり得ます。これによって、我々はデータに対する自身の知識を活用したり、モデルに対して必要な更新を行うことが可能となります。

AutoMLはモデルのトレーニングを行った完全なPythonノートブックと、モデルで使用されたデータに対する示唆をハイライトするデータ探索ノートブックを提供することで、これを容易にします。データ探索ノートブックでは、キャンディタイプ"mixed"のデータポイントが2つしかないため、これを削除しても予測に影響を及ぼさないことを確認することができます。

これらのノートブックは、データサイエンティストが自動で生成されたモデルを更新するために自身のドメイン知識を活用する際のスタート地点として活用することができます。

キャンディの生産量の予測がどのように見えるのかを確認しましょう。最も優れたパフォーマンスを示したモデルのノートブックを選択し、2022/1から2022/3の実際のキャンディの生産量と予測を比較するプロットを参照します。

予測を生成することに加え、AutoML Forecastはノートブックにおける更なる予測の分析を可能とします。ここでは、予測にどのようにトレンドと季節性が寄与したのかを確認することができます。全体として、キャンディの生産量にはハロウィーンと休日がある10月から12月にピークがあり、バレンタインデーのある2月に再びスパイクがあることがわかります。

使うべきモデルを特定したので、モデル名あるいはランのリストの開始時間をクリックし、"Register Model"ボタンをクリックすることでモデルを登録します。ここからは、推論、予測を行うためにモデルのサービングや、モデルのデプロイを行うことが可能となります。

Databricks AutoMLパブリックプレビューを使ってみる

Databricks AutoMLはDatabricks Machine Learningの一部でパブリックプレビューとして利用できます。使用するには以下の手順を踏んでください。

DatabricksのUIで、左のサイドバーから"Machine Learning"を選択します。"(+) Create"をクリックし、エクスペリメントページに移動するためにAutoML Experimentをクリックし、"Create AutoML Experiment"をクリックします。ドキュメントにあるように1行の呼び出しでAutoML APIを使用することもできます。

Databricks AutoMLをトライする準備はできましたか?AWSAzureGCPのドキュメントでDatabricks AutoMLの詳細を確認してください。あるいは、AutoML Forecastingコース(Databricksのお客様が利用できます。Databricks Academyログインが必要です)を受講してみてください。

Databricks 無料トライアル

Databricks 無料トライアル

0
0
0

Register as a new user and use Qiita more conveniently

  1. You get articles that match your needs
  2. You can efficiently read back useful information
  3. You can use dark theme
What you can do with signing up
0
0

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?