More than 1 year has passed since last update.

dbtを試してみた

Last updated at 2024-02-01Posted at 2023-07-17

背景・目的

クラウドデータ基盤のELTツールのdbtについて、特徴の整理と簡単な動作を確認してみます。

まとめ

dbtは、SQLファーストのELTをツールです。
dbtのアカウントは、下記の3種類あります。
- Developer
- Team
- Enterprise

概要

The analytics engineering workflow

dbt を使用すると、データチームはウェアハウス内で直接作業して、レポート、ML モデリング、運用ワークフロー用の信頼できるデータセットを生成します。

What is dbt?

dbt は、モジュール性、移植性、CI/CD、ドキュメントなどのソフトウェアエンジニアリングのベストプラクティスに従って、チームが分析コードを迅速かつ共同で展開できるようにする SQL ファーストの変換ワークフローです。

How dbt works

Version Control and CI/CD

開発環境を使用して安全にデプロイする。
Git 対応のバージョン管理により、コラボレーションと以前の状態への復帰が可能。

Test and Document

運用前にすべてのモデルをテストし、動的に生成されたドキュメントをすべてのデータ関係者と共有する。

Develop

モジュール形式のデータ変換を .sql または .py ファイルに書き込む。
依存関係管理の面倒な作業は dbt が処理する。

The new standard for data transformation

Develop faster

定型的な DDL/DML を、依存関係を推論し、テーブルとビューを構築し、モデルを順番に実行する単純な SQL SELECT ステートメントに置き換える。
Cloud IDE でマクロ、ref ステートメント、オートコンプリートコマンドを使用してコード自体を記述するコードを開発する。
Python パッケージを利用して、複雑な分析を高速化する。

Work from the same assumptions

自動生成された依存関係グラフと動的データディクショナリは、データ利用者の信頼と透明性を促進する。

Deploy with confidence

アプリ内スケジュール、ログ記録、アラート機能を使用して、変換ワークフローに可観測性を組み込む。ブランチ上の保護ポリシーにより、CI の実行ごとに生成される開発、ステージ、本番環境などの管理されたプロセスを通じてデータが確実に移動される。

Eliminate silos

データサイエンスチームは、分析チームが構築したモデルと接続するモデルを、それぞれが好みの言語を使用して構築できるようになった。dbt は SQL または Python でのモデリングをサポートしており、分析コードを扱う全員が共有ワークスペースを利用できるようする。

Security

SOC-2 準拠、CI/CD 導入、RBAC、ELT アーキテクチャによりリスクを管理する。

Governance

バージョン管理、テスト、ロギング、アラートによりデータの疑いを排除する。スナップショットは時間の経過とともに変化し、ホストされているドキュメントへのオープンアクセスを提供する。

実践

Quickstart for dbt Cloud and Redshiftを参考に試します。

【dbt】 dbtアカウントの作成

まずは、dbtアカウントを作成します。

Start using dbt nowのページから、FreeのDeveloperでSign upします。
下記を入力し、「Create my account」をクリックします。
- Email
- First nameとLast name
- Company
- Password
- How did you hear about dbt?
- I agree to the Terms of Useをチェック
メールが送られてくるので、「Verify email address」をクリックします。
画面が表示されます。ここでは、「I don't have a data warehouse」を選択します。
画面が表示されました。

Developer Planを選択

DeveloperでSign upしてもデフォルトでは、TeamのPlanになるようです。

画面右上の歯車→Account Settingsをクリックします。
ナビゲーションペインで「Billing」をクリックします。
なんと、Teamで登録されています。このままでは、課金されるので、「Developer」に切り替えます。(Developerを選択します。)
「Developer」で「Select Plan」をクリックします。
ポップアップが表示されるので、「Switch to Developer」をクリックします。
Developerで「Currently Enrolled」になり、Teamが「Select Plan」になりました。

【AWS】Redshift環境を作成する。

こちらのCloudFormationを実行して環境を作成します。

CloudFormationを実行

dbtのCloundFormationには、RedshiftのCredentialがベタ書きされているので、変更したものをアップロードします。
何も変更せずに、「次へ」をクリックします。
最後に、「送信」をクリックします。
5分程度で作成完了しました。

【dbt】 dbtクラウドからRedshiftに接続

dbtクラウドでからRedshiftに接続します。

Choose a connectionで「Redshift」を選択し、「Next」をクリックします。
下記を入力し、「Test Connection」をクリックします。
- Settings
  - Hostname:Redshiftのエンドポイント
  - Port：Redshiftのポート
  - Database：Redshiftのデータベース
- Development Credentials
  - Username:Redshiftで作成したUser名
  - Password:Redshiftで作成したパスワード
  - Schema:dbtで作成したデフォルト
  - Target Name: default
  - Thread: 4
COMPLETEになりました。

【AWS】データの準備

S3にデータをアップロード

Redshift で使用するファイルをアップロードします。CloudFormationで作成されたS3バケットにファイルアップロードをします。

下記のファイルをダウンロードします。（このファイルは、dbtチュートリアルページから取得できます。）
S3バケットで「アップロードを」クリックします。
ファイルを指定して「アップロード」をクリックします。

Redshift でオブジェクトを作成

Redshiftクラスタで「クエリデータ＞クエリエディタv2でクエリ」をクリックします。
下記を入力し、「Create Connection」をクリックします。
- Database user name and password
  - User name
  - Password

下記のSQLを実行し、スキーマを作成します。

create schema if not exists jaffle_shop;
create schema if not exists stripe;

下記のSQLを実行し、テーブルを作成します。

create table jaffle_shop.customers(
    id integer,
    first_name varchar(50),
    last_name varchar(50)
);

create table jaffle_shop.orders(
    id integer,
    user_id integer,
    order_date date,
    status varchar(50),
    _etl_loaded_at timestamp default current_timestamp
);

create table stripe.payment(
    id integer,
    orderid integer,
    paymentmethod varchar(50),
    status varchar(50),
    amount integer,
    created date,
    _batched_at timestamp default current_timestamp
);

S3のデータをRedshiftにロード（コピー）

下記のSQLを実行し、Redshiftのテーブルにコピーします。

copy jaffle_shop.customers( id, first_name, last_name)
from 's3://dbt-data-lake-xxxx/jaffle_shop_customers.csv'
iam_role 'arn:aws:iam::XXXXXXXXXX:role/RoleName'
region 'ap-northeast-1'
delimiter ','
ignoreheader 1
acceptinvchars;
   
copy jaffle_shop.orders(id, user_id, order_date, status)
from 's3://dbt-data-lake-xxxx/jaffle_shop_orders.csv'
iam_role 'arn:aws:iam::XXXXXXXXXX:role/RoleName'
region 'ap-northeast-1'
delimiter ','
ignoreheader 1
acceptinvchars;

copy stripe.payment(id, orderid, paymentmethod, status, amount, created)
from 's3://dbt-data-lake-xxxx/stripe_payments.csv'
iam_role 'arn:aws:iam::XXXXXXXXXX:role/RoleName'
region 'ap-northeast-1'
delimiter ','
ignoreheader 1
Acceptinvchars;

下記のSQLを実行し、データを確認します。登録されています。

select * from jaffle_shop.customers;
select * from jaffle_shop.orders;
select * from stripe.payment;

【dbt】セットアップと疎通

リポジトリをセットアップ

dbt cloudでは、リポジトリを利用してコードをバージョン管理できます。

「Managed」を選択し、「Create」をクリックします。
作成されました。

dbtプロジェクトの初期化

dbtリポジトリを初期化し、ファイルを追加します。

「Start developing in the IDE」をクリックします。
「initialize dbt project」をクリックします。
作成されました。
「Commit and sync」をクリックします。
メッセージを入力し、「Commit Changes」をクリックします。
「Create File」をクリックします。
ファイル名を入力し、「Create」をクリックします。
下記のコードを入力し、「Save As」をクリックします。
```
select * from jaffle_shop.customers
```
Enterで実行します。Redshiftに登録したデータが参照できました。

考察

今回は、dbtでアカウントを作成し、dbtからRedshiftへの接続を試してみました。次回以降は、複数のELTを作成しワークフローを構成してみたいと思います。

参考

You get articles that match your needs
You can efficiently read back useful information
You can use dark theme

What you can do with signing up