はじめに
DataplexはGoogle Cloudが提供する統合データ管理プラットフォームです。
個人的に「データカタログ(Data Catalog)」はよく使っているのですが、
「他の機能はよくわからない」
「結局、何ができるの?」
という声も多く聞きます。
そこで本記事では、「Dataplexの主要機能」について、まとめました。
Dataplexの全体像
Dataplexは、以下の機能を提供しています。
機能カテゴリ | 概要 |
---|---|
🗺️ データゾーン管理(Lake, Zone, Asset) | データを組織的・論理的に分類管理 |
🧠 データガバナンス(ポリシー/分類) | アクセス制御・機密性ラベルなど |
🧪 データ品質(検査/プロファイリング) | Null/型違い/範囲外などを自動検出 |
⚙️ データ処理(Sparkジョブ) | バッチETLの実行・スケジューリング |
🧭 データ探索(Dataplex Notebooks) | ノートブックベースの分析環境(AI Platform連携) |
🗺️ Data Catalog | クエリ検索やLINEAGEにも対応 |
1. データゾーン管理
Dataplexでは、データをLake → Zone → Assetという階層で管理します。
- Lake:プロジェクト全体の大枠(例:営業データレイク)
- Zone:目的別(Raw, Curated, Analyticsなど)
- Asset:BigQueryやCloud Storageなどの実データ
これにより、技術的な境界を超えてデータを論理的に一元管理できます。
例)Cloud Storage + BigQuery + Dataproc のログデータをまとめて「運用ログレイク」として扱える!
2. データガバナンス:IAM + ラベル管理
Dataplexでは以下のような管理機能があります:
- データ分類(タグ):個人情報・財務情報などの自動分類
- IAM制御:ゾーン単位でアクセス権設定(例:Curatedは閲覧可、RawはNG)
- ポリシーテンプレート:ルールの自動適用
→ GCP標準のIAMと連携しつつ、データ利用に即したきめ細かい制御が可能です。
3. データ品質
Dataplexでは、対象のテーブルやファイルに対して以下を自動実行できます。
- Null値の割合
- 異常値の検知
- 重複、データ型の違反 など
✔ データ品質レポートが自動生成される
✔ 通知設定も可能(Cloud Monitoringと連携)
→ 「壊れたデータがあるけど気づかない」を防げる!
4. Sparkによるデータ処理
Dataplex上では、Sparkバッチ処理を定義して実行できます。
- スケジュール・依存関係の設定
- GCS/BigQuery間のETL処理
- Cloud ComposerやCloud Functions連携もOK
簡易的なデータパイプラインならAirflowを使わずDataplex単独で完結可能!
5. ノートブックベースのデータ探索
Dataplexは、Jupyterノートブック + AI Platformとの連携により、データサイエンティストが以下のような作業を行えます:
- データ探索(プロファイルを参考に)
- 可視化、統計分析
- 機械学習モデル作成
公式には「Dataplex Notebooks」と呼ばれ、Cloud AI Notebooksと連携可能です。
6. Data Catalogとの連携
Dataplexの資産管理では、Data Catalogと完全連携しています。
- Dataplex上で作成されたAssetは自動でカタログ化
- Dataplexのタグ/分類はData Catalog上でも確認可
- クエリ検索やLINEAGEも対応(Lookerと併用可能)
まとめ:Dataplexでできること
項目 | できること |
---|---|
✅ データ整理 | 複数GCPサービスを論理的に分類 |
✅ データ品質 | 自動チェック・プロファイル作成 |
✅ 処理自動化 | Sparkジョブで簡易ETL実行 |
✅ ガバナンス | IAM+分類+ルールの一元管理 |
✅ 探索性向上 | ノートブックでデータ分析支援 |
おわりに
Dataplexは「GCPのデータ資産を整理・管理・ガバナンス・処理」まで一手に担える強力なツールです。
単なるカタログ機能にとどまらず、データ運用の中心基盤として活用できます。
今後のデータガバナンスや品質管理において、Dataplexの活用は避けて通れません。
この記事がその第一歩になれば幸いです!