こちらの機能です。これで、最近のベータ版機能はカバーしたはずです。
注意
執筆時点ではベータ版です。
Databricksの異常検出とは
こちらに説明があるように、レイクハウスモニタリングの一機能となります。
レイクハウスモニタリングの異常検出を使用すると、スキーマ内のすべてのテーブルのデータ品質を簡単に監視できます。 Databricks は、データインテリジェンスを活用してデータ品質を自動的に評価し、特に各テーブルの鮮度と完全性を評価します。健康指標には質の高い知見が入力されるため、消費者は健康状態を一目で理解できます。 データ所有者は、ログ記録テーブルとダッシュボードにアクセスできるため、スキーマ全体の異常を迅速に特定、アラートを設定し、解決できます。
異常検出はどのように機能しますか
こちらにあるように、テーブルの鮮度と完全性を監視し、予測から逸脱した場合には異常として検出します。
Databricks は、有効なテーブルの 鮮度 と 完全性 を監視します。
鮮度 とは、テーブルが更新された最近の日付を指します。異常検出は、テーブルへのコミットの履歴を分析し、テーブルごとのモデルを構築して、次のコミットの時間を予測します。 コミットが異常に遅延した場合、テーブルは古いものとしてマークされます。時系列テーブルの場合、イベント時間列を指定できます。次に、異常検出は、データの取り込みレイテンシ (コミット時間とイベント時間の差として定義される) が異常に長いかどうかを検出します。
完全性 とは、過去 24 時間にテーブルに書き込まれると予想される行数を指します。異常検出では、過去の行数を分析し、このデータに基づいて、予想される行数の範囲を予測します。過去 24 時間にコミットされたローの数がこの範囲の下限より小さい場合、テーブルは未完了としてマークされます。
機能の有効化
ワークスペースのPreviewページでData quality monitoring with anomaly detection (workspace level) を有効にします。
異常検出はスキーマ(データベース)単位で有効化します。カタログエクスプローラで対象のスキーマにアクセスし、Advancedにある異常検出を有効にします。
これによって、スキーマを監視するジョブが作成されます。このジョブは6時間周期で実行されます。
検出結果の確認
ジョブの実行結果にダッシュボードへのリンクが表示されます。
異常(Unhealthy)と判定されたテーブルの数などを確認できます。
検出理由を確認することもできます。更新時刻が予測よりも遅れており、鮮度に問題ありという結果になっています。完全性の検出には過去7日の履歴が必要ということなので、今回は検出されていません。
ページをTable Quality Detailsに切り替えると、テーブルを選択してより詳細な情報を確認することができます。
また、カタログエクスプローラでテーブルにアクセスすると異常検出の結果を確認できます。