LoginSignup
8
3

More than 3 years have passed since last update.

データカタログの構築・利用・保守プロセス

Last updated at Posted at 2021-04-29

1. データカタログとは

 データカタログとは、データレイクなどのデータ格納領域からユーザーが取得したいデータを容易に取得できるようにするために管理されているメタデータのこと。データのメタデータを業務の観点などからカタログ化し、業務上の理由などから取得したいと考えるデータへのアクセスを容易にする。
ビジネス用語からデータをすぐに見つけられる。
現在の業務ではデータレイク、DWH、ERP、ファイル・Excel、ETLやBIツールなど様々なシステムが存在し複雑になると実際に自分が欲しいデータがどこにあるのか、どういう意味なのか、何を使えばよいのか、関係性が分からなくなり、ビジネススピードを低下させる。
その解決としてデータカタログが作成される。
 正確にはDMBOK 2ndとそのまとめ記事に以下のように記載されている。

データカタログとは、データモデルとData Integration and Interoperability(データ統合と相互運用性)のメタデータに関する、カタログの作成(定義・抽出・蓄積)、および、カタログの利用(探索・把握・共有・配信)によるデータガバナンス支援ツールです。

  • メタデータ

 データを特定するためのデータ。
 正確にはDMBOK 2ndとそのまとめ記事について以下のように記載。

メタデータとは、DMBOKにて、下記のように記載されています。

最も一般的な定義である「データに関するデータ」は単純過ぎて誤解を招きやすい。メタデータとして分類できる情報の種類は幅広い。ITプロセスと業務プロセス、データのルールと制約、論理的および物理的なデータ構造、以上に含まれる情報がメタデータに含まれる。メタデータはデータ自体(例えばデータベース、データエレメント、データモデル)、データが象徴する概念(例えば業務プロセス、アプリケーションシステム、ソフトウェアコード、IT基盤)、データと概念の関係性(リレーションシップ)を記述する。

引用元:DMBOK 2nd 第12章 メタデータ管理

2. データカタログの作成手順

 システムによりベースとなるメタデータの抽出は行い、そこに他のメタデータの連結やビジネス用語の追加を行うことによりエンリッチメントする。ベースとなるメタデータの作成は手間がかかるためシステムにより自動化するが、これに含まれるメタデータは主にテクニカルデータとなっているため、その他ビジネスメタデータ、オペレーショナルメタデータを主にユーザ部門が追加していく。
- ①メタデータの収集、②メタデータコンテンツの連結、③グロッサリーのインポート、④グロッサリーとメタデータの連結からなる。
- 専門用語:
 コンフィグレーション:複数のカタログの管理。ユーザーのアクセス制御が可能。
            以下のカタログ情報(コンテンツ)を含めることが出来る。
            モデル:メタデータ収集の対象となるシステム。
            グロッサリー:メタデータを説明するビジネス情報を管理する辞書。
            マッピング:二つのモデルのリレーション。
            セマンティックマッピング:モデルとグロッサリー、またはグロッサリーとグロッサリーのリレーション。
①コンフィグレーションの作成、②モデルのインポート、③スティッチング。

③グロッサリーのインポート
 ビジネス用語などを追記する。

image.png

Screenshot_20210411-223311.pngimage.png

image.png
image.png

  • システム構成(Talendの例) image.png

3 データカタログの利用

 データカタログ機能を活用することにより、業務部門(LOB)がビジネス用語などのキーワードで検索し、データの所在や意味を把握できる。また、データガバナンスを行うチーム(データスチュワードなど)がデータの来歴や統合を、開発チームがインパクト分析を行うことが出来る。
image.png

4. データカタログの保守管理

 一度作成したデータカタログは、一度に完成するものではなくユーザー部門・管理部門が適宜監視・追加・削除をしながら拡張していくものとなっている。
 データガバナンスを実現するためには、このデータカタログをデータガバナンスチーム(データスチュワード)が監視し、LOB部門が適宜拡張、実装チームがデータの追加とその影響管理を行い常に更新していくことが肝要。
 いきなり全てのデータカタログを作成しようとするのではなく、重要と思われる、業務上の目的や効果算出に重要と思われる項目に絞って作成し順序拡張していくことが大切。
image.png
image.png
https://dev.classmethod.jp/articles/10-tips-to-build-a-successful-data-catalog-alteryx_ug/

0. 参考リンク

○ベンダーの機能紹介
①Talend

○IBM
 https://www.ibm.com/jp-ja/analytics/use-cases/governing-data-lake

③Informatica
https://www.google.com/url?sa=t&source=web&rct=j&url=https://www.informatica.com/content/dam/informatica-com/ja/collateral/data-sheet/enterprise-information-catalog_data-sheet_3238ja.pdf&ved=2ahUKEwiOt-KAqvbvAhXDad4KHfLACFkQFjADegQIDRAC&usg=AOvVaw1yqjk_nppyuCBbGPv4ztwu&cshid=1618149134437

○その他

https://it.impress.co.jp/articles/-/19473
https://www.google.com/url?sa=t&source=web&rct=j&url=https://www.beex-inc.com/blog/wp-content/uploads/2019/08/20190731_BeeX_Seminar_Otomo.pdf&ved=2ahUKEwijyZO40fLvAhWZdXAKHSyVCKEQFjABegQIGhAC&usg=AOvVaw1L5NSHGKGCNLXtC_W0HjS_

8
3
0

Register as a new user and use Qiita more conveniently

  1. You get articles that match your needs
  2. You can efficiently read back useful information
  3. You can use dark theme
What you can do with signing up
8
3