ビッグデータを0→1から構築しているプロジェクトに入っており、データカタログについて勉強になったので、備忘録として記載しておきます。
データカタログとは
データカタログとは、企業がどんなデータなのか、整理して管理する者です。
データ活用をするとき、どんなデータが必要なのか考えますが、データごとの意味がわからないと活用できません。
なので、データの説明をして、データマートの作成やDWH(データウェアハウス)を構築、作成するとき便利になります。
具体的にどういうものなのか
以下chatGPTに聞いてみました(AIほんとに便利、、)
典型的には以下のようなメタデータ(データに関するデータ)が載ります:
・テーブル情報
・テーブル名 / ファイル名
・所在(DB名、ストレージパスなど)
・カラム情報
・カラム名
・データ型(string, int など)
・意味・定義(例: "user_id = ユーザーを一意に識別するID")
・値の例や範囲(例: 性別 → 男 / 女)
・データ管理情報
・作成者・オーナー(誰に問い合わせればよいか)
・更新頻度(毎日更新、リアルタイム、月次など)
・データのソース(どこから収集したか)
・品質や利用ポリシー
・データの品質(欠損率、正確性など)
・セキュリティ分類(機密 / 公開可)
・利用制限(誰がアクセスできるか)
データマート作成をしたことある方は、「テスト仕様書」をイメージしてもらえるとわかりやすいかと思います。