はじめに
日本語検索ひっかかるように記事投稿
以下のようにレイクハウスのテーブルでエラーが出る場合があります。
対処
データフロー Gen 2 の既知の不具合で _last_checkpoint が更新されないようです。
以下が有志の対処コード。ワークスペース上のすべてのレイクハウステーブルのチェックポイントを作成します。(DeltaLogはPython API が見つからなかった)
scala
%%spark
import org.apache.spark.sql.delta.DeltaLog
val lakehouses = spark.catalog.listDatabases()
lakehouses.collect().sortWith(_.name < _.name).foreach { lakehouse =>
if (lakehouse.name != "DataflowsStagingLakehouse") {
val tables = spark.catalog.listTables(lakehouse.name)
tables.collect().sortWith(_.name < _.name).foreach { table =>
DeltaLog.forTable(spark, s"${lakehouse.locationUri}/${table.name}").checkpoint()
println(s"Completed code run for lakehouse: ${lakehouse.name}, table: ${table.name}")
}
}
}