mlflow.spark.autologによるデータソース(ファイルパス、バージョン)のトラッキング

Posted at 2022-11-22

mlflow.spark.autologという機能の存在は知っていたのですが、きちんと使ったことがなかったので使ってみました。

MLflowでモデルをトラッキングする際に使うSparkデータソースの情報をMLflowで記録することができます。Delta Lakeと組み合わせることで、データのバージョンも追跡できる様になります。

mlflow.spark.autologとは

以下はマニュアルの翻訳です。

読み込みを行うSparkデータソースのパス、(対応している場合)バージョン、フォーマットの記録の有効(無効)を設定します。このメソッドはスレッドセーフでなく、mlflow-spark JARがアタッチされたSparkSessionが存在していることを前提としています。エグゼキューターではなく、Sparkドライバーからコールされる必要があります(すなわち、Sparkで並列化されている関数からこのメソッド呼び出さないでください)。このAPIはSpark 3.0以降が必要です。

データソースの情報はメモリーにキャッシュされ、(データを読みむ際に存在している場合には)アクティブなMLflowランを含み、以降のすべてのMLflowランに記録されます。<以下略>

サンプルノートブックによる実践

以下ではダミーデータを使ってmlflow.spark.autologを試してみます。

Python

import mlflow.spark
import os
import shutil

# ダミーデータを作成して永続化します
df = spark.createDataFrame([
        (4, "spark i j k"),
        (5, "l m n"),
        (6, "spark hadoop spark"),
        (7, "apache hadoop")], ["id", "text"])

Python

# ドライバーノードに保存します
import tempfile
tempdir = tempfile.mkdtemp()
tempfile_path = os.path.join(tempdir, "my-data-path")

# CSVとして保存します
df.write.csv(tempfile_path, header=True)
print("CSV saved to:", tempfile_path)

以下を実行すると、一つ目のモデル(モデルは空ですが)が記録されます。

Python

# Sparkデータソースのオートロギングを有効化します
mlflow.spark.autolog()

# Sparkデータソースの読み込みを起動するために toPandas() を呼び出します。
# データソースの情報(パスとフォーマット)が現在アクティブなランに記録されます。
# あるいは、現在アクティブなランがない場合には次に作成されたランに記録されます。
with mlflow.start_run() as active_run:
  # SparkデータフレームとしてCSVを読み込みます
  loaded_df = spark.read.csv(tempfile_path,
                header=True, inferSchema=True)

  pandas_df = loaded_df.toPandas()

タグsparkDatasourceInfoに読み込んだデータのパスが記録されます。

バージョン番号が記録されることを確認するために、Delta Lake形式で保存します。

Python

# Delta Lakeで保存するDBFSのパス
delta_dbfs_path = "/tmp/databricks_handson/takaakiyayoidatabrickscom/dummy.delta"

dbutils.fs.rm(delta_dbfs_path, True)

# Delta Lakeで保存します
df.write.format("delta").mode("overwrite").save(delta_dbfs_path)

保存したDelta Lakeのデータを読み込むと同時に、データソースを記録します。

Python

# Sparkデータソースの読み込みを起動するために toPandas() を呼び出します。
# データソースの情報(パスとフォーマット)が現在アクティブなランに記録されます。
# あるいは、現在アクティブなランがない場合には次に作成されたランに記録されます。
with mlflow.start_run() as active_run:
  # SparkデータフレームとしてDelta Lakeを読み込みます
  loaded_df = spark.read.format("delta").load(delta_dbfs_path)

  pandas_df = loaded_df.toPandas()

バージョン番号とパスが記録されています。

Delta Lakeのデータを更新してバージョン番号をインクリメントします。

Python

# ダミーデータを更新します
df = spark.createDataFrame([
        (3, "spark test"),
        (4, "spark i j k"),
        (5, "l m n"),
        (6, "spark hadoop spark"),
        (7, "apache hadoop")], ["id", "text"])

# Delta Lakeで保存します
df.write.format("delta").mode("overwrite").save(delta_dbfs_path)

Deltaのバージョン履歴を確認します。

SQL

%sql
DESCRIBE HISTORY "/tmp/databricks_handson/takaakiyayoidatabrickscom/dummy.delta"

最新バージョンのDelta Lakeデータを読み込んで、データソースを記録します。

Python

# Sparkデータソースの読み込みを起動するために toPandas() を呼び出します。
# データソースの情報(パスとフォーマット)が現在アクティブなランに記録されます。
# あるいは、現在アクティブなランがない場合には次に作成されたランに記録されます。
with mlflow.start_run() as active_run:
  # SparkデータフレームとしてDelta Lakeを読み込みます
  loaded_df = spark.read.format("delta").load(delta_dbfs_path)

  pandas_df = loaded_df.toPandas()

バージョン1のデータソースが記録されています。

この様に、それぞれのトレーニング(MLflowラン)でどのバージョンのデータを使用したのが追跡されていることがわかります。

機械学習モデルをトレーニングする際には、どの時点のデータを使ってトレーニングしたのかという情報は、再現性確保の観点で重要です。MLflowとSpark、Deltaを組み合わせることでこの様な情報を容易に追跡できる様になります。

Databricks 無料トライアル

You get articles that match your needs
You can efficiently read back useful information
You can use dark theme

What you can do with signing up

mlflow.spark.autologによるデータソース(ファイルパス、バージョン)のトラッキング

関連コンポーネントの説明

mlflow.spark.autologとは

サンプルノートブックによる実践

Databricks 無料トライアル