Databricksの異常検出を試してみる

Last updated at 2025-04-14Posted at 2025-04-13

こちらの機能です。これで、最近のベータ版機能はカバーしたはずです。

注意
執筆時点ではベータ版です。

Databricksの異常検出とは

レイクハウスモニタリングの異常検出を使用すると、スキーマ内のすべてのテーブルのデータ品質を簡単に監視できます。 Databricks は、データインテリジェンスを活用してデータ品質を自動的に評価し、特に各テーブルの鮮度と完全性を評価します。健康指標には質の高い知見が入力されるため、消費者は健康状態を一目で理解できます。データ所有者は、ログ記録テーブルとダッシュボードにアクセスできるため、スキーマ全体の異常を迅速に特定、アラートを設定し、解決できます。

異常検出はどのように機能しますか

こちらにあるように、テーブルの鮮度と完全性を監視し、予測から逸脱した場合には異常として検出します。

Databricks は、有効なテーブルの鮮度と 完全性 を監視します。

鮮度とは、テーブルが更新された最近の日付を指します。異常検出は、テーブルへのコミットの履歴を分析し、テーブルごとのモデルを構築して、次のコミットの時間を予測します。コミットが異常に遅延した場合、テーブルは古いものとしてマークされます。時系列テーブルの場合、イベント時間列を指定できます。次に、異常検出は、データの取り込みレイテンシ (コミット時間とイベント時間の差として定義される) が異常に長いかどうかを検出します。

完全性 とは、過去 24 時間にテーブルに書き込まれると予想される行数を指します。異常検出では、過去の行数を分析し、このデータに基づいて、予想される行数の範囲を予測します。過去 24 時間にコミットされたローの数がこの範囲の下限より小さい場合、テーブルは未完了としてマークされます。