0
0

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?

More than 1 year has passed since last update.

Fundamentals of Data Engineering 輪読会資料 第15回分 20230724開催

Last updated at Posted at 2023-07-24

本記事の位置付け

こちらの勉強会 英語で技術書を読もう:Fundamentals of Data Engineering 第15回 に参加し、発表するためにまとめたもの。

  • 今回の対象
    • Chapter2 The Data Engineering Lifecycle
      • Major Undercurrents Across the Data Engineering Lifecycle より
        • Data Management 配下の、以下の①と②と③が今回の対象です。
          • ①Data governance
          • ②Discoverability
          • ③Metadata
          • (Data accountability の手前まで)

Chapter2 The Data Engineering Lifecycle

Major Undercurrents Across the Data Engineering Lifecycle

Data Management

①Data governance

  • Data Governance: The Definitive Guideによれば、
    • Data Governance とは、
      • 第一にして最重要なデータ管理機能。
      • 組織によって収集されたデータの以下項目を保証する。
        • 品質
        • 統合
        • 安全
        • 使いやすさ

  • この定義を拡大すると、以下のようになる。
    • Data Governance とは、
      • 組織全体のデータ価値を最大化するために

      • 適切なセキュリティ制御でデータを保護しながら、

      • 以下の3つを関与させることである。

        • プロセス
        • テクノロジー
      • 効果的なデータガバナンスは、

        • 意図をもって開発される
        • 組織によってサポートされる
      • データガバナンスが偶発的かつ無計画に行われた場合、

        • その副作用はその周辺のいろんなものに及ぶ可能性がある。
          • 信頼できないデータから
          • セキュリティ侵害まで
      • データガバナンスを意識的に行うことで、

        • 組織のデータ機能とデータから生成される価値が最大化される。
        • ちゃんとデータを処理していなかった組織として(汚名が)ニュースに載るのを防ぐ。

  • データガバナンスが不十分に行われている典型例。
    • ビジネスアナリストはレポート作成するよう指示されるが、
      • どのデータを使用すればよいかわからない。
        • DB内の数十のテーブルを調査するのに何時間も費やし
        • どのフィールドが役立つかを適当に推測する。
      • 「指示には正しく従った」レポートを作成する。
      • しかしレポートの基礎となるデータが正確・健全であるかは疑わしい。
    • レポートを受けた者もデータの有効性に疑問を抱いている。
    • アナリスト、そして企業システム内のすべてのデータの整合性が問われている。
    • 会社は業績について混乱しており、事業計画ができない。

  • データガバナンスは、

    • データ駆動ビジネスの実践の基礎
    • データエンジニアリングライフサイクルのミッションクリティカルな部分
  • データ ガバナンスが適切に実践されていれば、

    • 人材、プロセス、テクノロジーが連携してデータを主要なビジネス推進力として扱うことができる。

    • データの問題が発生した場合は、すぐに対処される。

    • データ ガバナンスの中心となるカテゴリは、以下。

      • 見つけやすさ
      • セキュリティ
      • 説明責任
    • これらカテゴリには、以下のサブカテゴリがある。

      • データ品質
      • メタデータ
      • プライバシー

②Discoverability(見つけやすさ)

  • データドリブンな企業では、

    • データは利用可能であり、
    • 発見可能でなければならない。
  • エンドユーザーは、業務を遂行するために

    • 必要なデータに迅速かつ確実にアクセスできる必要がある。
    • 以下を知っている必要がある。
      • データがどこから来たのか
      • 他のデータとどのように関係しているのか
      • データが何を意味するのか
  • データの見つけやすさは、以下を含む。

    • メタデータ管理
    • マスターデータ管理

③Metadata

  • メタデータとは
    • データについてのデータである
    • データエンジニアリングのライフサイクルのあらゆるセクションを支えるもの
    • データを検出、管理可能にするために必要なデータ

  • メタデータは 2つの主要なカテゴリに分類される。
    • 自動的に生成されたもの。
    • 人間が生み出したもの。

  • 最新のデータエンジニアリングは、
    • 「自動化」を中心に展開している。
  • 実際のメタデータの収集は、
    • 多くの場合手動で行われ、エラーが発生しやすい。

  • テクノロジーはこのプロセスを支援し、手動によるメタデータ収集のエラーを取り除ける。
    • 以下のようなメタデータ管理ツールがたくさん出てきている。
      • データカタログ

        • データベースをクロールして関係を検索できる
          スクリーンショット 2023-07-24 17.29.53.png
      • データリネージ追跡システム

        • データパイプラインを監視してデータがどこから来てどこへ行くのかを追跡できる。
          スクリーンショット 2023-07-24 17.31.39.png

 

  • 手動アプローチでは、さまざまな関係者が組織内のメタデータ収集を人海戦術で対応する内部主導の取り組みが多い。
  • データ管理ツールは、データエンジニアリングのライフサイクルの多くを省力化できるため、本書全体で詳しく取り上げる。

  • メタデータはデータとデータプロセスの副産物。

    • ただし重要な課題があって、特に、相互運用性と標準が不足している。
  • メタデータツールの優れた点

    • データシステムへのコネクタとメタデータを共有する機能によって定まる。
  • 自動メタデータツールは人間の活動を無視してはならない。

    • データにはソーシャルな要素がある。
      • 組織が積み上げた以下の要素を考慮しましょう。
        • プロセス
        • データセット
        • パイプラインに関するソーシャルキャピタルと知識。
          スクリーンショット 2023-07-24 17.33.14.png

  • 人間指向のメタデータシステムは、メタデータの社会的側面に焦点を当てている。
    • Airbnbは、データツール「データポータル」に関するブログ投稿で強調している。
    • こちらの記事より
      • データ所有者、データ消費者、およびドメイン専門家を開示する場所を提供すべきである。
      • ドキュメントや内部Wikiツールはメタデータ管理の重要な基盤を提供すべきである。
      • これらのツールは自動データカタログ作成とも統合する必要がある。
        • たとえば、データスキャンツールは、関連するデータオブジェクトへのリンクを含むWikiページを生成する等。

  • 一度メタデータシステムとプロセスができてしまえば、データエンジニアはメタデータを有用な方法で利用できるようになる。
  • メタデータは、パイプラインを設計し、ライフサイクル全体にわたってデータを管理するための基盤になる。

  • DMBOK は、データ エンジニアにとって役立つメタデータの 4 つの主要なカテゴリを特定します。
    • ビジネスメタデータ
    • 技術メタデータ
    • 運用メタデータ
    • 参照メタデータ

  • ビジネスメタデータ

    • データがビジネスで使用される方法に関連する。
    • ビジネスやデータの定義、ルールやロジック、どこでどのようにデータが使用されるか、誰が所有者か、等。
    • データエンジニアは、技術的ではない質問に対して、誰が何をどこでどうやって、と回答する際にビジネスメタデータを使用する。
      • データエンジニアは顧客販売分析者向けのデータパイプライン作成を指示される。
      • だが、その場合の「顧客」とは誰を指すのか?
      • 過去90日以内に製品を購入した者を指すのか?
      • 当該ビジネスが開始されてから購入した者であれば誰でも良いのか?
    • データエンジニアは、「顧客」がどのように定義されているかを探す為に(データ辞書やデータカタログを使って)ビジネスメタデータを参照して、正しいデータを作成する。
    • ビジネスメタデータは、データエンジニアに対して、データを使用するにあたっての正しいコンテキストと定義を提供する。
    • 参考資料として、以下訳者のブログを記載する。
  • テクニカルメタデータ

    • データエンジニアリングライフサイクルを通じてシステムにより作られ使われるデータについて記述したもの。
    • 以下を含む。
      • データモデル
      • スキーマ
      • リネージュ
      • フィールドマッピング(?)
      • パイプラインワークフロー
    • データエンジニアは、データエンジニアリングライフサイクルを通じて様々なシステムを作成、接続、監視するためにテクニカルメタデータを使用する。
    • データエンジニアが使用するテクニカルメタデータの例
      • パイプラインメタデータ(オーケストレーションシステムで作成される)
      • データリネージュ
      • スキーマ
    • オーケストレーションとは
      • 多様なシステム間を調整する中心となるハブのようなもの
      • オーケストレーションシステム内で捕捉されたパイプラインメタデータは、以下の情報を提供する。
        • ワークフローのスケジュール
        • システムやデータの依存関係
        • 設定
        • 接続の詳細
        • などなど
      • 以下はとあるETL製品の画面
        スクリーンショット 2023-07-24 18.55.39.png
  • データリネージュメタデータ

    • データの生成元やその変更、依存関係、などを時系列で捕捉する。
    • データの流れは、そのライフサイクルを通じてデータの変更や他のデータと組み合わさって進化していく。
    • データリネージュはデータの流れに応じた監査情報を提供してくれる。
    • 以下はとあるリネージュ製品の画面
      スクリーンショット 2023-07-24 17.37.11.png
  • スキーマメタデータ

    • 以下のようなシステムに貯蔵されるデータの構造を記述する

    • ストレージシステムの差別化要因

      • データベース
      • データウェアハウス
      • データレイク
      • ファイルシステム
      • オブジェクトストレージ
        • スキーマメタデータを管理しない。
        • メタストア(?)で管理されるべきもの
      • データウェアハウス
        • 内部的にスキーマを管理する。
    • これらはテクニカルメタデータの一例であって、全てではない。この本を通じてその他のテクニカルメタデータにも触れていく。

    • スキーマメタデータの例?

      • 以下はとあるデータカタログの画面
        スクリーンショット 2023-07-24 15.48.08.png
  • オペレーショナル(運用/操作)メタデータ

    • 様々なシステムの運用・操作の結果

    • 以下の統計情報

      • プロセス
      • ジョブID
      • アプリケーションランタイムログ
      • プロセスで使用されたデータ
      • エラーログ
    • データエンジニアは、以下の確認の為にオペレーショナルメタデータを確認する。

      • プロセスの成功
      • プロセスの失敗
      • 関連するデータ
    • (訳者感想)

      • databand.aiのようなデータオブザーバビリティ製品がこれに該当するのであろうか。
        スクリーンショット 2023-07-24 15.44.14.png
    • オーケストレーションシステムはオペレーショナルメタデータの限られた部分しか提供できないが、そのメタデータはシステムごとに分散してしまっている。

    • より良い品質のオペレーショナルメタデータとその管理を求める声が、次世代オーケストレーションシステム、メタデータ管理システムへの開発のモチベーションとなっている。

  • 参照メタデータ

    • 他のデータを分類する為に使用する。
    • また参考用として参照される。
    • 一般的な例
      • 内部コード
      • 地理コード
        • (訳者感想:郵便番号みたいなやつ?)
      • 測定単位
      • 内部カレンダー標準
    • 参照データの多くは内部で完全に管理されてる。
    • 地理コードなどの項目は標準の外部参照から取得される場合がある。
    • 参照データは基本的に他のデータを解釈するための標準であるため、変更される場合、この変更はゆっくり進行する。
    • 参照データの例
      スクリーンショット 2023-07-24 15.52.28.png
0
0
0

Register as a new user and use Qiita more conveniently

  1. You get articles that match your needs
  2. You can efficiently read back useful information
  3. You can use dark theme
What you can do with signing up
0
0

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?