本記事の位置付け
こちらの勉強会 英語で技術書を読もう:Fundamentals of Data Engineering 第15回 に参加し、発表するためにまとめたもの。
- 今回の対象
- Chapter2 The Data Engineering Lifecycle
- Major Undercurrents Across the Data Engineering Lifecycle より
- Data Management 配下の、以下の①と②と③が今回の対象です。
- ①Data governance
- ②Discoverability
- ③Metadata
- (Data accountability の手前まで)
- Data Management 配下の、以下の①と②と③が今回の対象です。
- Major Undercurrents Across the Data Engineering Lifecycle より
- Chapter2 The Data Engineering Lifecycle
Chapter2 The Data Engineering Lifecycle
Major Undercurrents Across the Data Engineering Lifecycle
Data Management
①Data governance
-
Data Governance: The Definitive Guideによれば、
- Data Governance とは、
- 第一にして最重要なデータ管理機能。
- 組織によって収集されたデータの以下項目を保証する。
- 品質
- 統合
- 安全
- 使いやすさ
- Data Governance とは、
- この定義を拡大すると、以下のようになる。
- Data Governance とは、
-
組織全体のデータ価値を最大化するために
-
適切なセキュリティ制御でデータを保護しながら、
-
以下の3つを関与させることである。
- 人
- プロセス
- テクノロジー
-
効果的なデータガバナンスは、
- 意図をもって開発される
- 組織によってサポートされる
-
データガバナンスが偶発的かつ無計画に行われた場合、
- その副作用はその周辺のいろんなものに及ぶ可能性がある。
- 信頼できないデータから
- セキュリティ侵害まで
- その副作用はその周辺のいろんなものに及ぶ可能性がある。
-
データガバナンスを意識的に行うことで、
- 組織のデータ機能とデータから生成される価値が最大化される。
- ちゃんとデータを処理していなかった組織として(汚名が)ニュースに載るのを防ぐ。
-
- Data Governance とは、
- データガバナンスが不十分に行われている典型例。
- ビジネスアナリストはレポート作成するよう指示されるが、
- どのデータを使用すればよいかわからない。
- DB内の数十のテーブルを調査するのに何時間も費やし
- どのフィールドが役立つかを適当に推測する。
- 「指示には正しく従った」レポートを作成する。
- しかしレポートの基礎となるデータが正確・健全であるかは疑わしい。
- どのデータを使用すればよいかわからない。
- レポートを受けた者もデータの有効性に疑問を抱いている。
- アナリスト、そして企業システム内のすべてのデータの整合性が問われている。
- 会社は業績について混乱しており、事業計画ができない。
- ビジネスアナリストはレポート作成するよう指示されるが、
-
データガバナンスは、
- データ駆動ビジネスの実践の基礎
- データエンジニアリングライフサイクルのミッションクリティカルな部分
-
データ ガバナンスが適切に実践されていれば、
-
人材、プロセス、テクノロジーが連携してデータを主要なビジネス推進力として扱うことができる。
-
データの問題が発生した場合は、すぐに対処される。
-
データ ガバナンスの中心となるカテゴリは、以下。
- 見つけやすさ
- セキュリティ
- 説明責任
-
これらカテゴリには、以下のサブカテゴリがある。
- データ品質
- メタデータ
- プライバシー
-
②Discoverability(見つけやすさ)
-
データドリブンな企業では、
- データは利用可能であり、
- 発見可能でなければならない。
-
エンドユーザーは、業務を遂行するために
- 必要なデータに迅速かつ確実にアクセスできる必要がある。
- 以下を知っている必要がある。
- データがどこから来たのか
- 他のデータとどのように関係しているのか
- データが何を意味するのか
-
データの見つけやすさは、以下を含む。
- メタデータ管理
- マスターデータ管理
③Metadata
- メタデータとは
- データについてのデータである
- データエンジニアリングのライフサイクルのあらゆるセクションを支えるもの
- データを検出、管理可能にするために必要なデータ
- メタデータは 2つの主要なカテゴリに分類される。
- 自動的に生成されたもの。
- 人間が生み出したもの。
- 最新のデータエンジニアリングは、
- 「自動化」を中心に展開している。
- 実際のメタデータの収集は、
- 多くの場合手動で行われ、エラーが発生しやすい。
- テクノロジーはこのプロセスを支援し、手動によるメタデータ収集のエラーを取り除ける。
- 手動アプローチでは、さまざまな関係者が組織内のメタデータ収集を人海戦術で対応する内部主導の取り組みが多い。
- データ管理ツールは、データエンジニアリングのライフサイクルの多くを省力化できるため、本書全体で詳しく取り上げる。
-
メタデータはデータとデータプロセスの副産物。
- ただし重要な課題があって、特に、相互運用性と標準が不足している。
-
メタデータツールの優れた点
- データシステムへのコネクタとメタデータを共有する機能によって定まる。
-
自動メタデータツールは人間の活動を無視してはならない。
- 人間指向のメタデータシステムは、メタデータの社会的側面に焦点を当てている。
- Airbnbは、データツール「データポータル」に関するブログ投稿で強調している。
-
こちらの記事より
- データ所有者、データ消費者、およびドメイン専門家を開示する場所を提供すべきである。
- ドキュメントや内部Wikiツールはメタデータ管理の重要な基盤を提供すべきである。
- これらのツールは自動データカタログ作成とも統合する必要がある。
- たとえば、データスキャンツールは、関連するデータオブジェクトへのリンクを含むWikiページを生成する等。
- 一度メタデータシステムとプロセスができてしまえば、データエンジニアはメタデータを有用な方法で利用できるようになる。
- メタデータは、パイプラインを設計し、ライフサイクル全体にわたってデータを管理するための基盤になる。
- DMBOK は、データ エンジニアにとって役立つメタデータの 4 つの主要なカテゴリを特定します。
- ビジネスメタデータ
- 技術メタデータ
- 運用メタデータ
- 参照メタデータ
-
ビジネスメタデータ
- データがビジネスで使用される方法に関連する。
- ビジネスやデータの定義、ルールやロジック、どこでどのようにデータが使用されるか、誰が所有者か、等。
- データエンジニアは、技術的ではない質問に対して、誰が何をどこでどうやって、と回答する際にビジネスメタデータを使用する。
- 例
- データエンジニアは顧客販売分析者向けのデータパイプライン作成を指示される。
- だが、その場合の「顧客」とは誰を指すのか?
- 過去90日以内に製品を購入した者を指すのか?
- 当該ビジネスが開始されてから購入した者であれば誰でも良いのか?
- データエンジニアは、「顧客」がどのように定義されているかを探す為に(データ辞書やデータカタログを使って)ビジネスメタデータを参照して、正しいデータを作成する。
- ビジネスメタデータは、データエンジニアに対して、データを使用するにあたっての正しいコンテキストと定義を提供する。
- 参考資料として、以下訳者のブログを記載する。
- 正しい言葉のモノサシ、使っていますか?
- 用語集の例
-
テクニカルメタデータ
- データエンジニアリングライフサイクルを通じてシステムにより作られ使われるデータについて記述したもの。
- 以下を含む。
- データモデル
- スキーマ
- リネージュ
- フィールドマッピング(?)
- パイプラインワークフロー
- データエンジニアは、データエンジニアリングライフサイクルを通じて様々なシステムを作成、接続、監視するためにテクニカルメタデータを使用する。
- データエンジニアが使用するテクニカルメタデータの例
- パイプラインメタデータ(オーケストレーションシステムで作成される)
- データリネージュ
- スキーマ
- オーケストレーションとは
-
データリネージュメタデータ
#IBM のデータリネージュのデモ動画です。#日本IBM #DataOps #CP4D #WatsonKnowledgeCatalog #WKC #データカタログ #MANTA #DataLineage #データリネージュ https://t.co/HA3jdQtOOK pic.twitter.com/FYFKepS7qR
— ぼうさん / 外資IT魔法戦士 / Shumpei Kubo (@_bou_3) April 14, 2023
-
スキーマメタデータ
-
オペレーショナル(運用/操作)メタデータ
-
様々なシステムの運用・操作の結果
-
以下の統計情報
- プロセス
- ジョブID
- アプリケーションランタイムログ
- プロセスで使用されたデータ
- エラーログ
-
データエンジニアは、以下の確認の為にオペレーショナルメタデータを確認する。
- プロセスの成功
- プロセスの失敗
- 関連するデータ
-
(訳者感想)
-
databand.aiのようなデータオブザーバビリティ製品がこれに該当するのであろうか。
-
databand.aiのようなデータオブザーバビリティ製品がこれに該当するのであろうか。
-
オーケストレーションシステムはオペレーショナルメタデータの限られた部分しか提供できないが、そのメタデータはシステムごとに分散してしまっている。
-
より良い品質のオペレーショナルメタデータとその管理を求める声が、次世代オーケストレーションシステム、メタデータ管理システムへの開発のモチベーションとなっている。
-
-
参照メタデータ