LoginSignup
6
5

More than 1 year has passed since last update.

Databricks AutoML | Databricks on AWS [2022/7/14時点]の翻訳です。

Databricksクイックスタートガイドのコンテンツです。

Databricks AutoMLを活用することで、データセットに対して自動で機械学習を適用することができます。モデルのトレーニングのためにデータセットを準備し、一連の実験を実施、記録し、複数のモデルに対して、作成、チューニング、評価を行います。結果の表示に加えて、中身を確認し、再現、修正できるようにそれぞれの実験のソースコードをPythonノートブック形式で提供します。また、AutoMLはデータセットの統計情報を計算し、後ほど確認できるようにノートブックの中に情報を記録します。

AutoMLはハイパーパラメーターチューニングのトライアルを自動でクラスターのワーカーノードに分散します。

それぞれのモデルは、scikit-learnやXGBoostなどのオープンソースコンポーネントから構築され、容易に修正でき、既存の機械学習パイプラインに組み込むことができます。回帰、分類、予測問題に対してDatabricks AutoMLを活用できます。scikit-learnxgboostLightGBMパッケージのアルゴリズムに基づきモデルを評価します。

UIあるいはPython APIでAutoMLを実行することができます。

注意
AutoMLはpassthrough clustersテーブルACLが有効化されたクラスターでは利用できません。

要件

AutoMLのアルゴリズム

Databricks AutoMLでは、以下のアルゴリズムに基づいてモデルを作成、評価します。

大規模データセットのサンプリング

注意
サンプリングは予測問題では適用されません。

AutoMLはハイパーパラメーターチューニングのトライアルをクラスターのワーカーノードに自動で分散しますが、それぞれのモデルは単一のワーカーノードでトレーニングされます。

AutoMLは自動でデータセットのロードとトレーニングに必要なメモリー量を推定し、必要に応じてサンプリングを行います。

Databricksランタイム9.1 LTS MLからDatabricksランタイム10.5MLでは、サンプリングの割合は、クラスターのノードタイプやそれぞれのノードのメモリー料に依存しません。

Databricksランタイム11.0ML以降では、

  • コアごとのメモリー量が多いワーカーノードに対してはサンプリングの割合を増加させます。memory optimizedインスタンスタイプを選択することでサンpリングのサイズを増加させることができます。
  • クラスターのSpark設定spark.task.cpusで大きな値を選択することで、さらにサンプリングの割合を増加させることができます。デフォルトの設定値は1です。最大値はワーカーノードのCPU数となります。この値を増加させるとサンプルサイズは大きくなりますが、並列で実行されるトライアルの数は減ります。例えば、4コア、RAMが64GBのマシンでは、デフォルトはspark.task.cpus=1であり、それぞれのトライアルではワーカーあたり4つのトライアルが実行されRAMは16GBに制限されます。spark.task.cpus=4に設定すると、それぞれのワーカーは1トライアルのみを実行しますが、64GBのRAMを使用することができます。
  • AutoMLがデータセットをサンプリングした場合、サンプリングの割合がUIのOverviewタブに表示されます。

分類問題においては、ターゲットのラベルの分布を保存する様に階層化サンプリングを行うために、AutoMLはPySparkのsampleByメソッドを使用します。

回帰問題においては、AutoMLはPySparkのsampleメソッドを使用します。

セマンティックタイプの検知

注意

  • セマンティックタイプの検知は予測問題では適用されません。
  • AutoMLは、カスタムの注入メソッドが指定されているカラムに対してセマンティックタイプの検知を行いません。

Databricksランタイム9.1ML LTS以降では、AutoMLはテーブルスキーマにおいてSparkやpandasのデータ型と異なるセマンティックタイプのカラムを持っているかどうかを検知しようとします。AutoMLはこれらのカラムを検知したセマンティックタイプとして取り扱います。これらの検知はベストエフォートであり、時には既存のセマンティックタイプを見逃す場合があります。あるいは、カラムのセマンティックタイプを手動で指定するか、アノテーションを用いてAutoMLにセマンティックタイプの検知を行わないように指示することができます。

特に、AutoMLは以下の変換を行います。

  • 日付やタイムスタンプデータを表現する文字列、整数型のカラムはタイムスタンプ型に変換します。
  • 数値データを表現する文字列カラムは数値型に変換します。

Databricksランタイム10.1 ML以降では、AutoMLは以下の調整も行います。

  • カテゴリカルなIDを含む数値カラムはカテゴリカルな特徴量として取り扱われます。
  • 英語テキストを含む文字列カラムはテキストの特徴量として取り扱われます。

セマンティックタイプのアノテーション

Databricksランタイム10.1 ML以降では、カラムに対してセマンティックタイプのアノテーションを指定することで、セマンティックタイプを手動でコントロールすることができます。カラム<column_name>のセマンティックタイプを<semantic_type>として手動でアノテーションするには以下の文法を使用します。

Python
metadata_dict = df.schema["<column_name>"].metadata
metadata_dict["spark.contentAnnotation.semanticType"] = "<semantic_type>"
df = df.withMetadata("<column_name>", metadata_dict)

<semantic_type>は以下のいずれかとなります。

  • categorical: カテゴリカルな値を含むカラム(例えば、IDとして取り扱われる数値)です。
  • numeric: 数値を含むカラム(例えば、数値にパースできる文字列)です。
  • datetime: タイムスタンプの値を含むカラム(タイムスタンプに変換できる文字列、数値、日付の値)です。
  • text: 英語テキストを含む文字列カラムです。

カラムに対するセマンティックタイプ検知を無効化するには、特殊なキーワードアノテーションであるnativeを指定します。

モデルの説明可能性のためのShapley値(SHAP)

AutoMLの回帰、分類ランによって生成されるノートブックには、Shapley値を計算するコードが含まれています。Shapley値はゲーム理論に基づいており、モデルの予測に対するそれぞれの特徴量の重要度を推定します。

Shapley値を計算するためにAutoMLのノートブックではSHAP packageを使用します。これらの計算処理は非常にメモリーを消費するので、デフォルトではこの計算は行われません。

Shapley値を計算して、表示するには:

  • AutoMLが生成したトライアルノートブックのFeature importanceセクションに移動します。
  • shap_enabled = Trueを設定します。
  • ノートブックを再実行します。

トレーニング/バリデーション/テストスプリットの制御

Databricksランタイム10.1 ML以降では、分類、回帰問題におけるトレーニング/バリデーション/テストスプリットで使用される時間カラムを指定することができます。このカラムを指定すると、データセットは時間に基づいてトレーニング/バリデーション/テストセットに分割します。最も古いデータポイントがトレーニングに使用され、次に古いものがバリデーション、最新のデータセットがテストセットに使用されます。

Databricksランタイム10.1では、時間のカラムはtimestampかintegerのカラムである必要があります。Databricksランタイム10.2 ML以降では文字列カラムも選択することができます。

時系列データの集約

予測問題において、時系列データのタイムスタンプに対して複数の値がある場合、AutoMLはこれらの値の平均値を使用します。

合計を使用するには、ソースコードのノートブックを編集します。Aggregate data by … セルで、以下のように.agg(y=(target_col, "avg")).agg(y=(target_col, "sum"))に変更します。

Python
group_cols = [time_col] + id_cols
df_aggregation = df_loaded \
  .groupby(group_cols) \
  .agg(y=(target_col, "sum")) \
  .reset_index() \
  .rename(columns={ time_col : "ds" })

AutoML UI

訳者注

  • ラン(run)/トライアル(trial): MLflowで管理される一回のモデルのトレーニング。
  • エクスペリメント(experiment): MLflowで管理されるランのコレクション。ノートブックに付随するエクスペリメントと独立したエクスペリメントが存在します。
  • アーティファクト(artifact): MLflowで管理される任意のファイル(画像やpickleファイルなど)

AutoML UIを利用することで、データセットに対してモデルをトレーニングするステップを踏むことができます。UIにアクセスするには以下の操作を行います。

  1. 左上のペルソナスイッチからMachine Learningを選択します。

  2. サイドバーで、Create > AutoML Experimentをクリックします。

    また、エクスペリメントページからAutoMLエクスペリメントを作成することもできます。

    AutoMLエクスペリメント設定ページが表示されます。このページでは、AutoMLのプロセス、データセットの指定、問題の種類、予測するカラム、評価のためのメトリクス、エクスペリメントのスコア、停止条件を指定できます。

UIにおける分類、回帰問題のセットアップ

  1. Computeフィールドで、稼働しているDatabricksランタイム 8.3 ML以降のクラスターを選択します。

  2. ML problem typeドロップダウンメニューから、RegressionClassificationを選択します。それぞれの観測に対して、年収などの連続値を予測するのであればregression(回帰)を選択します。それぞれの観測に対して、クレジットリスクあり・なしなどの明確なクラスを識別するのであれば、classification(分類)を選択します。

  3. Datasetでは、Browse Tablesをクリックします。利用できるデータベース、テーブルの一覧を示すダイアログが表示されます。利用したいテーブルを選択してSelectをクリックします。テーブルのスキーマが表示されます。

    トレーニングにどのカラムを含めるのか、カスタム注入メソッドを指定することができます。データセットの修正をご覧ください。

  4. Prediction targetをクリックします。スキーマのカラムの一覧のドロップダウンが表示されます。予測したいカラムを選択します。

  5. Experiment nameにはデフォルト名が表示されます。変更する際には、フィールドに名前を指定します。

また、追加の設定オプションを指定することができます。

UIにおける予測問題のセットアップ

  1. Computeフィールドで、稼働しているDatabricksランタイム 10.0 ML以降のクラスターを選択します。
  2. ML problem typeドロップダウンメニューからForecastingを選択します。
  3. Datasetでは、Browse Tablesをクリックします。利用できるデータベース、テーブルの一覧を示すダイアログが表示されます。利用したいテーブルを選択してSelectをクリックします。テーブルのスキーマが表示されます。
  4. Prediction targetをクリックします。スキーマのカラムの一覧のドロップダウンが表示されます。予測したいカラムを選択します。
  5. Time columnフィールドをクリックします。 timestampあるいはdate型のカラムの一覧のドロップダウンが表示されます。時系列データの時間を示すカラムを選択します。
  6. 複数の時系列データの予測においては、Time series identifiersドロップダウンからそれぞれの時系列データを識別するカラムを選択します。AutoMLはこれらのカラムでデータを異なる時系列データとしてグルーピングし、それぞれの時系列データに対してモデルを独立にトレーニングします。このフィールドを空にした場合、AutoMLはデータセットには単一の時系列データが含まれていると仮定します。
  7. Forecast horizon and frequencyフィールドでは、AutoMLが予測値として計算すべき未来の期間を指定します。左のボックスでは、予測する期間の整数値を指定します。右側のボックスでは単位を指定します。
  8. Databricksランタイム 10.5ML以降では、予測結果を保存することができます。これを行うには、Output Databaseフィールドでデータベースを指定します。Browseをクリックしてダイアログからデータベースを選択します。AutoMLによって予測結果がデータベースのテーブルとして書き込まれます。
  9. Experiment nameにはデフォルト名が表示されます。変更する際には、フィールドに名前を指定します。

また、追加の設定オプションを指定することができます。

高度な設定

これらのパラメーターにアクセスするには、Advanced configuration (optional) を開きます。

  • エクスペリメントのスコアリングに使われる評価メトリクスがprimary metricとなります。
  • Databricksランタイム10.3 ML以降では、使用するトレーニングフレームワークを除外することができます。デフォルトでは、AutoMLはAutoMLのアルゴリズムにあるトレーニングフレームワークのモデルを対象とします。
  • デフォルトの停止条件を変更することができます。デフォルト値は以下のようになります。
    • 予測のエクスペリメントでは120分後に停止します。
    • Databricksランタイム10.5ML以前では、分類と回帰のエクスペリメントにおいては、デフォルトでは60分あるいは200回のエクスペリメント、どちらかの条件を満たした場合に停止します。Databricksランタイム11.0ML以降では、トライアルの数は停止条件として使用されません。
    • Databricksランタイム10.1ML以降では、分類と回帰エクスペリメントにおいては、AutoMLは早期停止(アーリーストッピング)を活用します。検証メトリックが改善されなくなったらトレーニングとチューニングを停止します。
  • Databricksランタイム10.1 ML以降では、トレーニング、バリデーション、テストセット時系列順に分割するための時間カラムを指定することができます。
  • Data directoryフィールドでは、AutoMLプロセスの際に作成されるDBFSにおける場所を指定できます。フィールドをブランクにすると、ノートブックはMLflowのアーティファクトとして保存されま

データセットの修正

データセットを選択した後にテーブルのスキーマが表示されます。分類と回帰問題においては、トレーニングにどのカラムを含めるのか、カスタムの注入メソッドを指定することができます。

カラムの選択

Databricksランタイム10.3ML以降では、AutoMLがトレーニングに使用すべきカラムを指定することができます。カラムを除外するには、Includeカラムでチェックを外します。カラムのチェックを外すことは[AutoML Python API](#Python APIの仕様)でexclude_columnsを設定することと同じことになります。

予測ターゲットとして選択されたカラムを除外することや、データの分割に使用している時間カラムを除外することはできません。

デフォルトでは全てのカラムが含まれています。

欠損値の注入

Databricksランタイム10.4 LTS ML以降では、null値に対してどのように注入するのかを指定することができます。UIで、テーブルスキーマのImpute withカラムのドロップダウンからメソッドを選択します。あるいは、[AutoML Python API](#Python APIの仕様)でimputersパラメーターを使用します。

デフォルトでは、AutoMLがカラムのタイプと内容に基づいて注入メソッドを選択します。

注意
デフォルトではない注入メソッドを選択した場合、AutoMLはセマンティックタイプの検知を行いません。

エクスペリメントの実行、結果のモニタリング

  1. AutoMLエクスペリメントを実行するにはStart AutoMLをクリックします。エクスペリメントが実行され、AutoMLトレーニングページが表示されます。実行テーブルを更新するには、をクリックします。

    このページでは以下の操作を行うことができます。

    • 任意のタイミングでのエクスペリメントの停止
    • データ探索用ノートブック(data exploration notebook)のオープン
    • エクスペリメント実行(ラン)のモニタリング
    • 過去のランの詳細ページへのナビゲーション

Databricksランタイム10.1 ML以降では、AutoMLはサポートされていないカラムタイプやカーディナリティの高いカラムのように、データセットにおける潜在的アラートを表示します。

注意
Databricksは潜在的なエラーや問題を適切に表示するためにベストを尽くします。しかし、みなさまが探している問題やエラーをを捕捉できず、包括的なものにならない場合があります。ご自身でもレビューを行うようにしてください。

データセットに対するアラートを参照するには、トレーニングページ、あるいはエクスペリメントが完了した後のエクスペリメントページのWarningsタブをクリックします。

エクスペリメントが終了すると、以下の操作を行うことができます。

  • MLflowによるモデルの登録とデプロイ
  • ベストモデルの確認および生成されたノートブックの編集のためにEdit Best modelをクリック
  • データ探索用ノートブックのオープン
  • ランテーブルでランを検索、フィルタリング、並び替え
  • ランの詳細表示
    • ランのソースコードを含むノートブックを開くにはSource列をクリック
    • ランの詳細ページを表示するにはStart Time列をクリック
    • 作成されたモデルの情報を参照するにはModel列をクリック

後でAutoMLエクスペリメントに戻ってくるには、Experimentsページのテーブルを参照します。データ探索ノートブック、トレーニングノートブックを含むそれぞれのAutoMLエクスペリメントの結果は、エクスペリメントを実行したユーザーのホームフォルダー配下のdatabricks_automlフォルダーに格納されます。

AutoML UIからのモデル登録とデプロイ

  1. モデルを登録するにはModels列のリンクをクリックします。ランの実行が完了した際には、最初の行に(primary metricに基づく)ベストモデルが表示されます。

    当該モデルを作成したランのページのアーティファクトのセクションが表示されます。

  2. モデルレジストリにモデルを登録するにはをクリックします。

  3. モデルレジストリに移動するにはサイドバーのをクリックします。

  4. モデルテーブル上のモデル名をクリックします。登録モデルページが表示されます。このページからモデルをサーブすることも可能です。

AutoML Python API

  1. ノートブックを作成し、Databricksランタイム 8.3 ML以降が動作しているクラスターにアタッチします。

  2. 既存のデータセットからSpark/pandasデータフレームを作成、あるいはDBFSにデータをアップロードしてデータをノートブックにデータを読み込みます。

    Python
    df = spark.read.parquet("<folder-path>")
    
  3. AutoMLを実行するには、データフレームをAutoMLに渡します。詳細はAPIドキュメントを参照ください。

  4. AutoMLがスタートすると、コンソールにはMLflowエクスペリメントのURLが表示されます。AutoML実行の真力をモニタリングするためにこのURLを使用します。欄の終了に応じて、MLflowのエクスペリメントが更新されます。

  5. AutoMLのランが完了すると以下のことが可能になります。

    • MLflowのエクスペリメントやベストな結果を生み出したノートブックにナビゲートするために、出力結果サマリーのリンクを使用します。
    • AutoMLに渡したデータに関する洞察を得るために、データ探索用ノートブックへのリンクを使用します。結果を再現、あるいは追加のデータ分析をするために、このノートブックを同じクラスターにアタッチして再実行することができます。
    • 実験の詳細を探るため、あるいは特定のトレーニングで得られたモデルをロードするために、AutoML呼び出しから得られるサマリーオブジェクトを使用します。詳細はAPIドキュメントを参照ください。
    • トレーニングで生成されたノートブックをコピーし、同じクラスターにアタッチして結果を再現できます。必要な修正を加えて追加のモデルをトレーニングするために再度実行し、同じエクスペリメントに結果を記録することができます。

Python APIの仕様

Python APIは分類、回帰AutoMLのランを開始するための関数を提供します。それぞれの関数呼び出しで、一連のモデルをトレーニングし、それぞれのモデルのトレーニングノートブックを生成します。

分類

注意
Databricksランタイム10.3 ML - 10.5 MLでmax_trialsパラメーターは非推奨となり、Databricksランタイム10.0 ML以降ではサポートされません。AutoMLの実行時間を制御するにはtimeout_minutesを使ってください。

Python
databricks.automl.classify(
  dataset: Union[pyspark.DataFrame, pandas.DataFrame],
  *,
  target_col: str,
  data_dir: Optional[str] = None,
  exclude_columns: Optional[List[str]] = None,                      # <DBR> 10.3 ML and above
  exclude_frameworks: Optional[List[str]] = None,                   # <DBR> 10.3 ML and above
  experiment_dir: Optional[str] = None,                             # <DBR> 10.4 LTS ML and above
  imputers: Optional[Dict[str, Union[str, Dict[str, Any]]]] = None, # <DBR> 10.4 LTS ML and above
  max_trials: Optional[int] = None,                                 # <DBR> 10.5 ML and below
  pos_label: Optional[Union[int, bool, str] = None,                 # <DBR> 11.1 ML and above
  primary_metric: str = "f1",
  time_col: Optional[str] = None,
  timeout_minutes: Optional[int] = None,
) -> AutoMLSummary

回帰

注意
Databricksランタイム10.3 ML - 10.5 MLでmax_trialsパラメーターは非推奨となり、Databricksランタイム10.0 ML以降ではサポートされません。AutoMLの実行時間を制御するにはtimeout_minutesを使ってください。

Python
databricks.automl.regress(
  dataset: Union[pyspark.DataFrame, pandas.DataFrame],
  *,
  target_col: str,
  data_dir: Optional[str] = None,
  exclude_columns: Optional[List[str]] = None,                      # <DBR> 10.3 ML and above
  exclude_frameworks: Optional[List[str]] = None,                   # <DBR> 10.3 ML and above
  experiment_dir: Optional[str] = None,                             # <DBR> 10.4 LTS ML and above
  imputers: Optional[Dict[str, Union[str, Dict[str, Any]]]] = None, # <DBR> 10.4 LTS ML and above
  max_trials: Optional[int] = None,                                 # <DBR> 10.5 ML and below
  primary_metric: str = "r2",
  time_col: Optional[str] = None,
  timeout_minutes: Optional[int] = None,
) -> AutoMLSummary

予測

Python
databricks.automl.forecast(
  dataset: Union[pyspark.sql.dataframe.DataFrame, pandas.core.frame.DataFrame, pyspark.pandas.DataFrame],
  *,
  target_col: str,
  time_col: str,
  data_dir: Optional[str] = None,
  exclude_frameworks: Optional[List[str]] = None,
  experiment_dir: Optional[str] = None,
  frequency: str = "D",
  horizon: int = 1,
  identity_col: Optional[Union[str, List[str]]] = None,
  output_database: Optional[str] = None,                            # <DBR> 10.5 ML and above
  primary_metric: str = "smape",
  timeout_minutes: Optional[int] = None,
) -> AutoMLSummary

パラメーター

分類、回帰

フィールド名 タイプ 説明
dataset pyspark.DataFrame/pandas.DataFrame トレーニングする特徴量と目的変数を含む入力データフレーム
target_col str 目的変数の列名
data_dir dbfs:/<folder-name>形式でのstr 中間結果を格納するためのDBFSパス。このバスはドライバーノード、ワーカーノードからアクセスできる必要があります。空の場合は、AutoMLはデータをMLflowのアーティファクトとして格納します。
exclude_columns List[str] AutoMLの計算で無視するカラムのリストです。デフォルトは[]です。
exclude_frameworks List[str] モデルを構築する際にAutoMLの考慮から除外するアルゴリズムフレームワークのリストです。受け入れられる値は、空のリスト、あるいは“sklearn”、“lightgbm”、“xgboost”からなるリストです。デフォルトは[]です。この場合、全てのフレームワークが考慮されます。
experiment_dir str (オプション)生成されたノートブックとエクスペリメントを保存するためのワークスペース上のディレクトリへのパスです。

デフォルト: /Users/<username>/databricks_automl/
imputers Dict[str, Union[str, Dict[str, Any]]] (オプション)それぞれのキーがカラム名、値は注入戦略を示す文字列あるいはディクショナリーとなります。文字列が指定される場合、値は“mean”, “median”, “most_frequent”のいずれかでなくてはなりません。既知の値で注入するにはディクショナリー{“strategy”: “constant”, value: }を指定します。また、{“strategy”: “mean”}のようにディクショナリーとして文字列のオプションを指定することができます。

デフォルト: {}
max_trials int トライアル実行回数の最大回数(オプション)。このパラメーターはDatabricksランタイム10.5ML以前で利用できますが、ランタイム10.3ML以降は非推奨となり、ランタイム11.0ML以降ではサポートされません。デフォルトは20。timeout=Noneの場合、最大回数分だけトライアルが実行されます。
pos_label Union[int, bool, str] (分類のみ)ポジティブクラスです。これは、精度や再現率のようなメトリクスを計算する際に有用です。2値分類問題の時のみ指定されるべきです。
primary_metric str モデルの性能を評価し、ランキングするためのメトリック。回帰でサポートされているメトリック:"r2(デフォルト)"、"mae"、"rmse"、"mse"。分類でサポートされているメトリック:"f1(デフォルト)"、"log_loss"、"precision"、"accuracy"、"roc_auc"
time_col str Databricksランタイム10.1 ML以降で利用可能。

(オプション)時間カラムの名称

指定された場合、AutoMLはデータセットを時系列順にトレーニング、バリデーション、テストセットに分割します。最も古いデータポイントがトレーニングデータ、最新のデータがテストデータになります。

受け付けるカラムタイプはtimestampとintegerです。Databricksランタイム10.2 ML以降では文字列カラムもサポートされています。カラムが文字列タイプの場合、AutoMLはセマンティック検知を用いてtimestampに変換しようとします。変換に失敗するとAutoMLのランも失敗します。
timeout_minutes int AutoMLのトライアル実行を完了する最長の時間(オプション)。指定されない場合は、AutoML時間の制約なしに処理を行います(デフォルト)。指定された値が5分未満、一回のトライアルを実行するのに十分でなかった場合は例外が発生します。長いタイムアウト時間を設定すれば、それだけ多くのトライアルが実行され、高い精度のモデルが得られます。

予測

フィールド名 タイプ 説明
dataset pyspark.DataFrame/pandas.DataFrame トレーニングする特徴量と目的変数を含む入力データフレーム
target_col str ターゲットラベルのカラム名
time_col str 予測に使用する時刻のカラム
frequency str 予測を行う時系列の間隔。イベントが予期される期間となります。取りうる値は以下の通りです。
“W” (weeks) 

“D” / “days” / “day”

“hours” / “hour” / “hr” / “h”

“m” / “minute” / “min” / “minutes” / “T”

“S” / “seconds” / “sec” / “second”
horizon int 予測すべき未来の期間を数で指定します。単位は上のfrequencyとなります。
data_dir dbfs:/<folder-name>形式のstr (オプション)トレーニングデータセットを保存するために使うDBFSパスです。このパスはドライバーノード、ワーカーノードの両方から参照できます。空の場合、AutoMLはトレーニングデータセットをMLflowアーティファクトとして保存します。
exclude_frameworks List[str] モデルを構築する際にAutoMLの考慮から除外するアルゴリズムフレームワークのリストです。受け入れられる値は、空のリスト、あるいは“prophet”、“arima”から構成されるリストです。デフォルトは[]です。この場合、全てのフレームワークが考慮されます。
experiment_dir str (オプション)生成されたノートブックとエクスペリメントを保存するためのワークスペース上のディレクトリへのパスです。

デフォルト: /Users/<username>/databricks_automl/
identity_col Union[str, list] (オプション)複数時系列データの予測で時系列を識別するカラム。AutoMLはこれらのカラムと時刻のカラムを用いてグルーピングを行います。
output_database str (オプション)指定すると、AutoMLはベストモデルの予測結果を指定されたデータベースの新規テーブルとして保存します。

デフォルト: 予測結果は保存されません。
primary_metric str モデルの性能を評価し、ランキングするためのメトリック:"smape(デフォルト)"、"mse"、"rmse"、"mae"、"mdape"
timeout_minutes int AutoMLのトライアル実行を完了する最長の時間(オプション)。長いタイムアウト時間を設定すれば、それだけ多くのトライアルが実行され、高い精度のモデルが得られます。

デフォルトはNone(時間制限なし)

最小値は5分

1回のトライアルが完了しないほど短すぎるタイムアウト時間が指定された場合にはエラーがレポートされます。

| max_trials |int |トライアル実行回数の最大回数(オプション)。デフォルトは20。timeout=Noneの場合、最大回数分だけトライアルが実行されます。 |

戻り値

AutoMLSummary

AutoML分類実行によるサマリーオブジェクトは、トライアルにおけるメトリクス、パラメーター、そのほかの詳細情報を格納します。このオブジェクトを使用して、特定のトライアルによってトレーニングされたモデルをロードすることもできます。

プロパティ タイプ 説明
experiment mlflow.entities.Experiment トライアルを記録するのに用いられたMLflowエクスペリメント
trials List[TrialInfo] 実行されたトライアルのリスト
best_trial TrialInfo primary metricに基づいてベストと判断されたトライアル
metric_distribution str 全てのトライアルにおいて重み付けされたスコアの分布
output_table_name str 予測問題の場合でoutput_databaseが指定された場合のみです。モデルの予測結果を含むoutput_databaseのテーブル名です。

TrialInfo

それぞれのトライアルのサマリーオブジェクト。

プロパティ タイプ 説明
notebook_path str トライアルで生成されたノートブックのワークスペース上のパス
notebook_url str 生成されたノートブックのURL
mlflow_run_id str トライアルに紐づけられたMLflowのランID
metrics Dict[str, float] トライアルで記録されたメトリクス
params Dict[str, float] トライアルで記録されたパラメーター
model_path str トライアルでトレーニングされたモデルのMLflowアーティファクトURL
model_description str モデル、ハイパーパラメーターに関する説明
duration str トレーニング時間(分)
preprocessors str モデルトレーニング前に実行された前処理の説明
evaluation_metric_score float 検証用データセットで評価されたprimary metricのスコア
メソッド 説明
load_model() MLflowアーティファクトとして、当該トライアルで生成されたモデルをロード

APIのサンプル

以下のノートブックを参考にしてください。

AutoML分類のサンプルノートブック

Databricks AutoML回帰サンプルノートブック

AutoML回帰のサンプルノートブック

Databricks AutoML分類サンプルノートブック

AutoML予測のサンプルノートブック

Databricks AutoML予測サンプルノートブック

databricks-automl-runtimeパッケージ

Databricksランタイム 9.1 LTS ML以降では、AutoMLはAutoML以外の有用なコンポーネントを含むdatabricks-automl-runtimeに依存し、AutoMLトレーニングによって生成されるノートブックをシンプルにする支援を行います。databricks-automl-runtimePyPIから利用できます。

制限

  • 分類と回帰のみのサポートとなります。

  • 以下の特徴量タイプのみをサポートしています。

    • 数値(ByteType, ShortType, IntegerType, LongType, FloatType, DoubleType)
    • ブール値
    • 文字列(カテゴリ変数のみ)
    • タイムスタンプ(TimestampType, DateType)
    • ArrayType[Numeric] (Databricks Runtime 10.4 LTS ML以降)
  • 上記以外の画像のような特徴量タイプはサポートされていません。

  • 同じ名称をカラムが複数あるデータセットはサポートされていません。

  • Databricksランタイム9.0ML以下では、AutoMLのトレーニングはシングルノードで実行されます。トレーニングデータセットは単体のワーカーノードのメモリーに収まる必要があります。アウトオブメモリー問題に遭遇した場合には、より大きいメモリーを搭載するワーカーノードを使用してください。詳細はクラスターの作成を参照ください。

    あるいは、可能な場合には、シングルワーカーノードのメモリーにデータセットが収まらない場合に自動でサンプリングを行うDatabricksランタイム 9.1 LTS ML以降を使用してください。

  • Auto-ARIMAを使用するには、時系列データは定期的な頻度で生成されている必要があります(すなわち、時系列におけるいかなる2つのデータポイントは同じ間隔で発生する必要があります)。頻度はAPI呼び出しあるいはAutoMLのUIで指定される頻度ユニットとマッチする必要があります。AutoMLは欠損値がある場合、以前の値で補完することで欠損値に対応します。

Databricks 無料トライアル

Databricks 無料トライアル

6
5
0

Register as a new user and use Qiita more conveniently

  1. You get articles that match your needs
  2. You can efficiently read back useful information
  3. You can use dark theme
What you can do with signing up
6
5