3
0

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?

More than 5 years have passed since last update.

データ分析でのメタデータ

3
Posted at

データレイクを管理、利用していく上で、データがどんなに綺麗に処理されても、「それはどういうデータなのか」、「どこにあるのか」を把握できなければ、データの真価は見出せません。
小さい組織であれば、隣の人に聞けば済むことなので、それほど大事じゃないですが、規模が大きくなるとデータの意味を知ることが難しくてなってくるので、メタデータ管理が重要になってきます。メタデータを管理することで、データレイクの沼化も防ぐことができます。

メタデータとは

データを説明するためのデータ

メタデータが提供しなければ行けないもの

データの場所をユーザに提示する
ユーザがデータの理解するための手かがりを提示する

メタデータで収集しておきたいもの

メタデータ 説明
技術面   どのように定義されているのかを示すもの。データがデータレイクに収集された段階で収集が可能。 データのタイプ(csv,text,json,Avroなど)、CREATE TABLE文にあるもの
運用面   データのプロファイル、データの出処を示すもの。データに障害が発生したときに影響範囲の調査で役立つ リネージュ、データの大きさ、データの行数
ビジネス面   ビジネス文脈での意味を示すもの 区別の説明において、0が男性、1が女性のような説明文。今と昔では意味が変わってることを説明文。データ辞書とも言ってたりします。

その他
データオーナー:そのデータは誰によって作られ管理されているのか
データセキュリティー:そのデータは誰が見ていいのか

メタデータの開示

メタデータの公開はツールの利用もしくは、Webサイトなどを作って公開する手法が一般的です。こうしたサイトを「データカタログ」と呼びます。メタデータはユーザが頻繁に調べる情報なので、ユーザが簡単に検索できるものが良く、データ利用者が内容を編集できるようなレビュー機能もあると良いです。
 商用のデータカタログ製品もいろいろあり、Infomatica、Denodo、Talendあたりが有名です。OSSだと、CKANとういうソフトがよく使われます。クラウド環境だと、Azure Data Catalog, AWSのGlueがカタログとして利用できます。ただし、AWSのGlueのカタログはあくまでETLサービスの一つの機能で、Glueが作成するデータはAWSサービス間のデータの物理定義を管理するものなので、ビジネスでのメタデータの登録には不向き。

3
0
0

Register as a new user and use Qiita more conveniently

  1. You get articles that match your needs
  2. You can efficiently read back useful information
  3. You can use dark theme
What you can do with signing up
3
0

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?