こちらのプレビュー中の機能を実際に試してみます。
カタログ、データベースの作成
Unity Catalogでカタログとデータベース(スキーマ)を作成しておきます。ここでは、
- カタログ:
takaakiyayoi_catalog
- データベース:
dlt
としています。
Delta Live Tablesノートブックを作成
チュートリアルにあるものをそのまま使います。ここまでは、これまでと同じです。
SQL
CREATE
OR REFRESH LIVE TABLE clickstream_raw COMMENT "The raw wikipedia clickstream dataset, ingested from /databricks-datasets." AS
SELECT
*
FROM
json.`/databricks-datasets/wikipedia-datasets/data-001/clickstream/raw-uncompressed-json/2015_2_clickstream.json`;
SQL
CREATE OR REFRESH LIVE TABLE clickstream_prepared(
CONSTRAINT valid_current_page EXPECT (current_page_title IS NOT NULL),
CONSTRAINT valid_count EXPECT (click_count > 0) ON VIOLATION FAIL UPDATE
)
COMMENT "Wikipedia clickstream data cleaned and prepared for analysis."
AS SELECT
curr_title AS current_page_title,
CAST(n AS INT) AS click_count,
prev_title AS previous_page_title
FROM live.clickstream_raw;
SQL
CREATE OR REFRESH LIVE TABLE top_spark_referers
COMMENT "A table containing the top pages linking to the Apache Spark page."
AS SELECT
previous_page_title as referrer,
click_count
FROM live.clickstream_prepared
WHERE current_page_title = 'Apache_Spark'
ORDER BY click_count DESC
LIMIT 10;
Delta Live Tablesパイプラインの作成
パイプライン定義のストレージオプションでUnity Catalogが選べるようになっています。
Delta Live Tablesパイプラインの実行
UIも若干変更されていますね。
リンクをクリックするとデータエクスプローラに移動します。なお、テーブルのサンプルデータを参照するには、SQLウェアハウスあるいはDBR12.2以降の共有クラスターが必要となりますので注意してください。
リネージの参照
データエクスプローラのリネージにもDLTのリネージが表示されるようになっています。