導入
Databricks Unity Catalogにメトリクスビューが導入されました。
こちら、昨年のData+AI Summitで発表されたUnity Catalog Metricsのこと・・・ですよね。
発表を聞いていて、かなり欲しい機能だと思っていたのですが、いよいよ実装されました。
上記記事内で使い方は解説されており、私もキャッチアップのためにメトリクスビューの作成&Databricks GenieやAI/BIだっしゅぼーどでの利用をしてみたいと思います。
メトリクスビューを作る
以前の記事中で作成したダミーの販売データを使ってみます。
以下のようなテーブルです。
カタログエクスプローラから、メトリクスビューを作成します。
ここでデフォルトのメトリクス定義(YAML形式)の編集画面が表示されるはずなのですが、エラーぽいメッセージが記載さるのみ。。。
原因不明なのですが、定義自体は問題なく編集できるので公式ドキュメントのサンプルを基に以下のように修正。
version: 0.1
source: training.llm.sales_sample
dimensions:
# 4月から会計年度が始まると仮定
- name: 年度
expr: "CASE
WHEN month(`売上日`) in (1, 2, 3) then year(`売上日`) + 1
ELSE year(`売上日`) END"
- name: 年月
expr: "year(`売上日`) || '-' || month(`売上日`)"
- name: 商品
expr: "`商品コード`"
- name: 部門
expr: "`部門コード`"
measures:
- name: 売上件数
expr: COUNT(1)
- name: 売上金額合計
expr: "ROUND(SUM(`金額`), 1)"
- name: 売上数量合計
expr: "SUM(`数量`)"
- name: 平均単価
expr: "ROUND(SUM(`金額`) / SUM(`数量`), 1)"
以下のようなメトリクスビューが出来ました。
今のところ、AI Assistantを利用した説明文やコメントの生成はUIから出来ない模様。
SQLエディタを開き、簡単にクエリを実行してみます。
通常のビューのように結果を取得できました。
なお、メジャーについてはMEASURE関数で列をラップしないとエラーになります。
Genieで使ってみる
では、Databricks Genieからも使ってみましょう。
といっても、通常のビューと利用方法は同じです。
メトリクスビューをカタログエクスプローラで開いている状態から、作成→Genieスペースでメトリクスビューを対象としたGenieスペースが作成できます。
サンプル質問も、ディメンションとメジャーを加味して作ってくれる模様。
試しに年月別の売上金額を集計。
意図的にディメンション名とは異なる表現で質問。
正しいディメンジョン・メジャーが使われていますね。
メタデータをメンテすれば、より適切な回答を得られやすくもなりそうですね。
AI/BI ダッシュボードで使ってみる
ダッシュボードでも使ってみます。
といっても、こちらも表面上は通常のビューを利用するのと同じです。
データビューは、通常のテーブルやビューと異なり、ディメンションとして設定されている内容が結果テーブルで表示されました。
スキーマ表示は、ディメンション(フィールド)とメジャーが分けて表示されます。
Canvasビューでは、一部の可視化でディメンションのみ指定できる箇所と両方指定できる箇所の制御が入っているようです。
例えば、ヒートマップのX軸/Y軸はディメンションしか設定できませんでした。
テーブルも表示できるのはディメンションだけになっています。
特にテーブルはこれだと不便なので、やがて改善される気がします。
(素直にピボットを使えという話かもしれませんが)
まとめ
軽くですが、Databricks Unity CatalogのメトリクスビューをGenieやダッシュボードで利用してみました。
昨年のData+AI Summitで目を付けていた機能だったのでとても嬉しいです。
これがDatabricksなりのセマンティックレイヤーに対するひとつの回答なのかなという気もしています。
現状まだいくつか制約があり、例えばDelta Sharingには対応していません。PowerBIなど外部ツールとの連携でDelta Sharingを使うこともあるため、このあたりは早く対応されることを願っています。
企業においてはこういった週次集計の定義は揺らぐことも多い(集計する人によって結果が変わる問題)ので、共通メトリクスを定義できるメトリクスビューは積極的に活用していきたいですね。
しかし、Data+AI Summit 2025が近づいていることもあってリリース内容が増えており、キャッチアップにかける時間が増えてきています。。。(最近は記事作成後回しでキャッチアップに時間を取ってます)
何かと忙しい状態なのですが、何とかアウトプットとインプット、両方頑張っていきたいと思います。