0
0

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?

Dataplexとは何か?データカタログ以外の機能をまとめてみる!

Last updated at Posted at 2025-05-23

はじめに

DataplexはGoogle Cloudが提供する統合データ管理プラットフォームです。
個人的に「データカタログ(Data Catalog)」はよく使っているのですが、

「他の機能はよくわからない」
「結局、何ができるの?」

という声も多く聞きます。

そこで本記事では、「Dataplexの主要機能」について、まとめました。


Dataplexの全体像

Dataplexは、以下の機能を提供しています。

機能カテゴリ 概要
🗺️ データゾーン管理(Lake, Zone, Asset) データを組織的・論理的に分類管理
🧠 データガバナンス(ポリシー/分類) アクセス制御・機密性ラベルなど
🧪 データ品質(検査/プロファイリング) Null/型違い/範囲外などを自動検出
⚙️ データ処理(Sparkジョブ) バッチETLの実行・スケジューリング
🧭 データ探索(Dataplex Notebooks) ノートブックベースの分析環境(AI Platform連携)
🗺️ Data Catalog クエリ検索やLINEAGEにも対応

1. データゾーン管理

Dataplexでは、データをLake → Zone → Assetという階層で管理します。

  • Lake:プロジェクト全体の大枠(例:営業データレイク)
  • Zone:目的別(Raw, Curated, Analyticsなど)
  • Asset:BigQueryやCloud Storageなどの実データ

これにより、技術的な境界を超えてデータを論理的に一元管理できます。

例)Cloud Storage + BigQuery + Dataproc のログデータをまとめて「運用ログレイク」として扱える!


2. データガバナンス:IAM + ラベル管理

Dataplexでは以下のような管理機能があります:

  • データ分類(タグ):個人情報・財務情報などの自動分類
  • IAM制御:ゾーン単位でアクセス権設定(例:Curatedは閲覧可、RawはNG)
  • ポリシーテンプレート:ルールの自動適用

→ GCP標準のIAMと連携しつつ、データ利用に即したきめ細かい制御が可能です。


3. データ品質

Dataplexでは、対象のテーブルやファイルに対して以下を自動実行できます。

  • Null値の割合
  • 異常値の検知
  • 重複、データ型の違反 など
✔ データ品質レポートが自動生成される  
✔ 通知設定も可能(Cloud Monitoringと連携)

「壊れたデータがあるけど気づかない」を防げる


4. Sparkによるデータ処理

Dataplex上では、Sparkバッチ処理を定義して実行できます。

  • スケジュール・依存関係の設定
  • GCS/BigQuery間のETL処理
  • Cloud ComposerやCloud Functions連携もOK

簡易的なデータパイプラインならAirflowを使わずDataplex単独で完結可能!


5. ノートブックベースのデータ探索

Dataplexは、Jupyterノートブック + AI Platformとの連携により、データサイエンティストが以下のような作業を行えます:

  • データ探索(プロファイルを参考に)
  • 可視化、統計分析
  • 機械学習モデル作成

公式には「Dataplex Notebooks」と呼ばれ、Cloud AI Notebooksと連携可能です。


6. Data Catalogとの連携

Dataplexの資産管理では、Data Catalogと完全連携しています。

  • Dataplex上で作成されたAssetは自動でカタログ化
  • Dataplexのタグ/分類はData Catalog上でも確認可
  • クエリ検索やLINEAGEも対応(Lookerと併用可能)

まとめ:Dataplexでできること

項目 できること
✅ データ整理 複数GCPサービスを論理的に分類
✅ データ品質 自動チェック・プロファイル作成
✅ 処理自動化 Sparkジョブで簡易ETL実行
✅ ガバナンス IAM+分類+ルールの一元管理
✅ 探索性向上 ノートブックでデータ分析支援

おわりに

Dataplexは「GCPのデータ資産を整理・管理・ガバナンス・処理」まで一手に担える強力なツールです。
単なるカタログ機能にとどまらず、データ運用の中心基盤として活用できます。

今後のデータガバナンスや品質管理において、Dataplexの活用は避けて通れません。
この記事がその第一歩になれば幸いです!


0
0
0

Register as a new user and use Qiita more conveniently

  1. You get articles that match your needs
  2. You can efficiently read back useful information
  3. You can use dark theme
What you can do with signing up
0
0

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?