0
0

More than 1 year has passed since last update.

Delta Live Tablesのシルバー・ゴールドテーブルのみを参照するデータベースの作成

Posted at

Databricksの用語ばかりのタイトルですが。

Delta Live Tablesとは

SQLやPythonを用いて宣言型で(1段目のテーブルの定義はこうである、2段目のテーブルの定義はこうである)データパイプラインを構築できるソリューションです。

シルバーテーブル、ゴールドテーブルとは

Databricksで提唱しているメダリオンアーキテクチャにおけるテーブルの呼び名です。

生データを格納するテーブルをブロンズ、クレンジングしたデータを格納するのがシルバー、BIやMLで使用する集計データをゴールドとするのが一般的です。

注意点として、メダリオンアーキテクチャは

  • データ品質に言及する有用なカテゴリー分けの仕組みであって、
  • データの格納場所を強制する厳密なシステムではない

ということです。何を言っているかと言いますと、「ブロンズ・シルバー・ゴールドテーブルを格納する仕組み」を提供している訳ではなく、ユーザー側での整理学として用いるものです。

ただ、日常業務においては「ゴールドやシルバーは参照するけど、ブロンズは見ないし、むしろエンドユーザーには混乱を招くから隠したい」というニーズもあります。

しかしながら、DLTの仕様ではテーブルを永続化するターゲットスキーマ(データベース)は一つしか指定できないので、ブロンズ・シルバー・ゴールドが全て表示されてしまいます。
Screenshot 2023-07-31 at 7.52.08.png

対応策

別のスキーマ(データベース)を作成して、DLTのシルバー・ブロンズテーブルを参照するビューを作成します。

データエクスプローラでスキーマsilverを作成します。なお、goldを作成する際も同様です。
Screenshot 2023-07-31 at 7.38.44.png

SQLウェアハウスを起動して、以下のクエリーを実行します。

CREATE VIEW takaakiyayoi_catalog.silver.complete_silver_vw AS
SELECT
  *
FROM
  takaakiyayoi_catalog.dlt.complete_silver;

ここでは、カタログtakaakiyayoi_catalog配下のスキーマdltに作成されたシルバーテーブルcomplete_silverを参照するビューをtakaakiyayoi_catalog.silverに作成しています。

これで、スキーマを整理することができます。
Screenshot 2023-07-31 at 7.53.44.png

Databricksクイックスタートガイド

Databricksクイックスタートガイド

Databricks無料トライアル

Databricks無料トライアル

0
0
0

Register as a new user and use Qiita more conveniently

  1. You get articles that match your needs
  2. You can efficiently read back useful information
  3. You can use dark theme
What you can do with signing up
0
0