AWS Glue Data Catalog を理解するために
初めてクラウドサービスを使用する&初めてAWS Glue で ETL 処理のジョブを作って色々やってみようとするとき、不意に登場するのが AWS Glue Data Catalog ではないだろうか。
「何のために Data Catalog は存在するのだ?」
「Data Catalog はなくても ETL できるんじゃないの?」
こんな思いをした皆さんにこの記事が参考になれば幸いです。
本来はより詳細な Data Catalog の技術記事を紹介しようと思いましたが、今回は「Data Catalog は重要なのね」と理解することがゴールになります。また、ただのツール説明ではなく、データエンジニアリングやデータ基盤を構築するデータエンジニアとしての視点を交えて書いてみました。
とりあえず AWS Glue Data Catalog の存在意義を知るなら AWS Glue というサービスの全体を理解する必要がありそうです。
はじめに AWS Glue のサービスを理解しよう
AWS の公式ドキュメントでは AWS Glue について以下のように説明がなされています。
AWS Glueは、分析、機械学習、アプリケーション開発のためのデータの検出、準備、結合を簡単に行える、サーバーレスデータ統合サービスです。 AWS Glue はデータ統合に必要なすべての機能を備えているため、数か月ではなく、数分でデータを分析し、使用可能にします。
AWS Glue はデータ基盤の基本構造でいうところの「プロセシングレイヤー」の役割を担うサービスです。プロセシングレイヤーではETL処理やデータストラクチャリング、データエンリッチリング、データクレンジングなどデータの品質を高める処理、すなわち、データラングリングを行うレイヤーです。
※以下、データ基盤の基本構造1
AWS Glue のサービスの様々なツール
AWS Glue のサービスには、以下のように様々な機能を持つツールが用意されています。
AWS Glue Data Catalog:
メタデータを格納するデータストア(=メタデータストア)であり、データベースやテーブルといった構造で保管されます。Amazon S3 などのデータソースに保存されている構造化データまたは半構造化データの集まりをメタデータとして管理します。データカタログには、データベース、テーブル、スキーマといった構成を持ち、コネクション、クローラー、分類子といったメタデータを抽出するための機能を持っています。
メタデータを管理することでどのような恩恵を受けるのか
対象のデータを様々なアプリケーションで扱う上で、一貫したやり方でデータを処理したりすることができます
Databases と Tables :
Data Catalog のデータベースには「メタデータテーブル」が格納され、AWS S3 などの様々なデータストアのデータ定義の情報を格納したテーブルを保管しています。そして、あたかも一般的なデータベースのように扱うことができます。
注意
※実データが格納されるわけではなく、メタデータが情報として格納されています
Stream schema registries:
※ 随時記載
Connections:
※ 随時記載
Crawlers:
Crawler は Data Catalog にテーブルを登録する機能(メタデータを格納する機能)で、一般的によく利用されている Data Catalog にメタデータを登録する方法である。 Crawler は1回の実行で複数のデータストア(AWS S3 などの対象データを格納している場所、またはデータそのもの)をクロールでき、Crawler の実行が完了すると Data Catalog にクロールしたテーブルのメタデータ情報のテーブルを作成または更新します。
AWS Glue Job は、この Data Catalog のテーブルに保存されたメタデータを使用して対象となるデータに対して読み取りや書き込みを行い、ETL処理をします。
★Crawler がもつ主な3つの機能
1. フォーマットやスキーマ、データの性質を定義するためにデータを分類する機能
2. データをテーブルまたはパーティションにグループ化する機能
3. メタデータをデータカタログに書き込む機能
- その他の参考情報: クロール可能なデータストア
Classifiers (分類子):
分類子は、データを観察してデータの形式を確認します。データ形式が確認できるとスキーマが生成されます。分類子は返り値として、観察したデータがその形式である確度がどれくらいかを示す確度度数を返します。分類子は、対象のデータをクロールして Data Catalog でメタデータテーブルを定義する時に使用します。
- その他の参考情報: AWS Glue の組み込み分類子
Data Integration and ETL:
先ほどの AWS Glue Data Catalog に比べて、ここで紹介する Data Integration and ETL の
ツール群はまさに「プロセシングレイヤー」としての役割を果たします。
そして、この ETL 処理は先ほど紹介した Data Catalog があってからこそ行える処理なのです。
Jobs:
AWS Glue Job には、AWS S3 などの Data Source に接続して対象のデータを処理し、処理したデータを Data Target に書き出すScript がカプセル化されています。Job は作成した Script に抽出、変換、ロード (ETL)の処理のコードを記述してを実行します。Jobでは、汎用 Python スクリプト/シェルジョブを実行することができます。
また、素晴らしいことに AWS Glue で生成されたスクリプトを使用することもできます。Data Source の配置場所やそのスキーマを指定すると、AWS Glue コードジェネレーターで Apache Spark API (PySpark) スクリプトを自動的に作成することができます。
Job の Script を作成し始めるときは、この自動生成機能を使用して一度 Script を作成し、行いたい処理に合わせて Script を作成することもできます。
Notebooks:
※ 随時記載
Data classification tools:
※ 随時記載
Triggers:
Trigger を設定することでトリガー作成時に指定された Job や Crawler を開始することができます。また、指定したジョブに必要なパラメータも引き渡して起動することがきます。
Workflows:
Workflow は、スケジュールやイベントなどのトリガーによって起動する、複数の Job や Crawler を連結したものです。Workflow を作成することで各 Job や Crawler の実行状況のステータスや実行結果を記録することができます。
この Workflow はスケジュールやイベントなどのトリガー以外にも手動で実行をスタートすることもできます。
また、連結された各 Job や Crawler は、前のタスクの実行結果を確認ながらタスクを実行するか否かを判定します。
最後にAWS Glue 全体を見返そう
ここまで AWS Glue の様々なツールを「AWS Glue Data Catalog」と「Data Integration and ETL」 の2つに分けて紹介しました。この2つのツールの関係性をまとめると以下のような図になります。
AWS Glue Data Catalog は Data Integration and ETL を行うための前準備であり、データ活用の背景の変化に合わせた Data Integration and ETL を行うための管理機関でもあります。
データ基盤は一度構築してしまえば終わりの道具ではなく、利用背景やビジネス変化に合わせたの意思決定のための道具であり続ける必要があります。そのためには、その変化にも対応できるような基盤を構築する必要があります。(2)
今回のこの「プロセシングレイヤー」もその対象です。AWS Glue Data Catalog を活用することができるということは、プロセシングレイヤーにおいて、ユーザーから要求される継続的な改善・変化に対応できる基盤を構築することができるということです。