データリネージ
データリネージは DataPlex の機能で、システム内でのデータの移動(データの送信元、データの通過先、データに適用される変換)を追跡できます。
データがどこから来てどこに送られているのか、GCP内なら簡単に追跡できるので、データウェアハウスの運用保守において非常に重宝します。私は主にBigQueryで利用しています
そんなデータリネージが2024年8月12日に新しくリストビューをリリースしました。
従来のグラフビューとうまく使い分ければ結構便利そうなので紹介します。
本記事執筆時点(2024年8月18日)ではリストビューはプレビュー機能です
グラフビュー(従来からあったやつ)
データリネージを使っている方ならお馴染みのグラフビューです。
長方形がソース、正方形にはプロセスが表示されます。
データの接続が視覚的にわかりやすく、データの流れを簡単に把握することができます。
しかし接続するソースが膨大な数になると見るのが辛くなります。
(あとソース名が長いとグラフが横長になって見づらいです...)
リストビュー(新規追加されたやつ)
そんな欠点を補うのがリストビューです。
基準のソースよりも上流(アップストリーム)と下流(ダウンストリーム)どちらのリネージを見るか選択します。
ソースに接続されたターゲットを一覧で見ることができます。
掘り下げた分析は基準のソースからどれだけ離れているかを意味します。
グラフビューと見比べてみるとわかりやすいですね。
ソースへのリンクになっているのでワンクリックで詳細を見に行けて便利です。
そしてこの表をCSVでダウンロードできるのが嬉しいポイントです。
例えば、あるデータソースに不備が見つかり、その影響範囲を調査して表にまとめたいとしましょう。
グラフビューでは一つずつソース名をコピペするしかないです。数十個のソースにつながっていれば、結構な時間がかかります(筆者の体験談です)。
リストビューならCSVを出力すればいいのです。手動のコピペと違って漏れる心配もありません。
表のフォーマットを整えるくらいで済むでしょう。
まとめ
- 視覚的に把握するならグラフビュー
- 接続されたソースが多ければリストビュー
- リストビューはCSV出力できる