Dataplexとは何か？データカタログ以外の機能をまとめてみる！

Last updated at 2025-05-23Posted at 2025-05-23

はじめに

DataplexはGoogle Cloudが提供する統合データ管理プラットフォームです。
個人的に「データカタログ（Data Catalog）」はよく使っているのですが、

「他の機能はよくわからない」
「結局、何ができるの？」

という声も多く聞きます。

そこで本記事では、「Dataplexの主要機能」について、まとめました。

Dataplexは、以下の機能を提供しています。

機能カテゴリ	概要
🗺️ データゾーン管理（Lake, Zone, Asset）	データを組織的・論理的に分類管理
🧠 データガバナンス（ポリシー/分類）	アクセス制御・機密性ラベルなど
🧪 データ品質（検査/プロファイリング）	Null/型違い/範囲外などを自動検出
⚙️ データ処理（Sparkジョブ）	バッチETLの実行・スケジューリング
🧭 データ探索（Dataplex Notebooks）	ノートブックベースの分析環境（AI Platform連携）
🗺️ Data Catalog	クエリ検索やLINEAGEにも対応

Dataplexでは、データをLake → Zone → Assetという階層で管理します。

これにより、技術的な境界を超えてデータを論理的に一元管理できます。

例）Cloud Storage + BigQuery + Dataproc のログデータをまとめて「運用ログレイク」として扱える！

Dataplexでは以下のような管理機能があります：

→ GCP標準のIAMと連携しつつ、データ利用に即したきめ細かい制御が可能です。

Dataplexでは、対象のテーブルやファイルに対して以下を自動実行できます。

✔ データ品質レポートが自動生成される  
✔ 通知設定も可能（Cloud Monitoringと連携）

→ 「壊れたデータがあるけど気づかない」を防げる！

Dataplex上では、Sparkバッチ処理を定義して実行できます。

簡易的なデータパイプラインならAirflowを使わずDataplex単独で完結可能！

Dataplexは、Jupyterノートブック + AI Platformとの連携により、データサイエンティストが以下のような作業を行えます：

公式には「Dataplex Notebooks」と呼ばれ、Cloud AI Notebooksと連携可能です。

Dataplexの資産管理では、Data Catalogと完全連携しています。

Dataplexは「GCPのデータ資産を整理・管理・ガバナンス・処理」まで一手に担える強力なツールです。
単なるカタログ機能にとどまらず、データ運用の中心基盤として活用できます。

今後のデータガバナンスや品質管理において、Dataplexの活用は避けて通れません。
この記事がその第一歩になれば幸いです！