【データ基盤】AWSのETLのSaaSであるGlueのハンズオン

Last updated at 2025-08-08Posted at 2025-07-23

AWSのETLのSaaSであるGlueのハンズオン

　AWSでのETLサービスであるGlueのハンズオンの備忘メモである。
プロジェクトでAzureのADFを使用したことがあるので、Glueも類似性があった。

Azure ADFの実行メモ
ADFも同様にVisualでETL処理を実行することができる。

下記のようなデータレイクをS3、データウェアハウスをS3、ETLをAWS Glueのアーキテクチャとする。

S3のバケット構成は下記のような構成

AWS glue上で「script editor」でpythonスクリプトを作成していく

pythonスクリプトを指定

Job detailsの場面で設定を行う

IAMロールの作成

IAMロールの設定を行う。

ユースケースでglueを指定

サービスロールを指定する

glueにアタッチするIAMロールができたら、IAMポリシーをつけていく

ポリシーのアタッチ

S3のフルアクセスのポリシーを、IAMロールにアタッチする

作成したIAMロールをアタッチする

ETLの処理として下記のスクリプトを記載

Runsのタグで確認可能

OutputlogとErrorlogsのリンクからCloud Watchのサービスでログを確認可能

エラーログでも確認可能

このような形でジョブが成功

DWHのS3にcsvがあることが確認

Visual ETLについてみていこう

Visual ETLを選択します

Spark設定をできる。
Spark

S3 URLのURLを作成

プロパティを設定

下記のような形式でGlueのActionから選定

Sorceの設定

スクリプトで記載する場合

glue_spark.py

import sys
from awsglue.transforms import *
from awsglue.utils import getResolvedOptions
from pyspark.context import SparkContext
from awsglue.context import GlueContext
from awsglue.job import Job
from awsgluedq.transforms import EvaluateDataQuality

args = getResolvedOptions(sys.argv, ['JOB_NAME'])
sc = SparkContext()
glueContext = GlueContext(sc)
spark = glueContext.spark_session
job = Job(glueContext)
job.init(args['JOB_NAME'], args)

# Default ruleset used by all target nodes with data quality enabled
DEFAULT_DATA_QUALITY_RULESET = """
    Rules = [
        ColumnCount > 0
    ]
"""

# Script generated for node Amazon S3
AmazonS3_node1753154917873 = glueContext.create_dynamic_frame.from_options(format_options={"quoteChar": "\"", "withHeader": True, "separator": ",", "optimizePerformance": False}, connection_type="s3", format="csv", connection_options={"paths": ["s3://datalake-dev-202507/titanic/train.csv"], "recurse": True}, transformation_ctx="AmazonS3_node1753154917873")

# Script generated for node Change Schema
ChangeSchema_node1753155125975 = ApplyMapping.apply(frame=AmazonS3_node1753154917873, mappings=[("passengerid", "string", "passengerid", "string"), ("survived", "string", "survived", "string"), ("pclass", "string", "pclass", "string"), ("sex", "string", "sex", "string"), ("age", "string", "age", "string")], transformation_ctx="ChangeSchema_node1753155125975")

# Script generated for node Amazon S3
EvaluateDataQuality().process_rows(frame=ChangeSchema_node1753155125975, ruleset=DEFAULT_DATA_QUALITY_RULESET, publishing_options={"dataQualityEvaluationContext": "EvaluateDataQuality_node1753154720500", "enableDataQualityResultsPublishing": True}, additional_options={"dataQualityResultsPublishing.strategy": "BEST_EFFORT", "observations.scope": "ALL"})
AmazonS3_node1753156121481 = glueContext.write_dynamic_frame.from_options(frame=ChangeSchema_node1753155125975, connection_type="s3", format="csv", connection_options={"path": "s3://datawarehouse-dev-202507", "partitionKeys": []}, transformation_ctx="AmazonS3_node1753156121481")

job.commit()

Visual ETLを保存して実行をしていく

成功が表示され、CloudWatchのoutlogでも確認できます

DWHであるcsvファイルがS3に格納されることがわかる

GUIやpythonスクリプトにて、ETL処理をSaaSとして実施することができる。
AzureのADFでもバッチ処理ができるの、類似のクラウドサービスとして理解しておくとイメージしやすい

glueジョブのリトライ処理の設定可能

「python shell」のタイプでPysparkの実装を行なってもawsglueモジュールが使用できない。

AWS glueにてVisual ETLにてsourceデータに対してjoinすることも可能である。
イメージとしては下記の通り。

QuickSigntによる可視化

DWHとして使用しているS3のバケットをデータソースにして、QucikSigntの可視化をしていく。

S3にマニフェストファイルを配置後にアップロードする。

マニフェストファイルのサンプルは下記の通り

manifest.json

{
    "fileLocations": [
        {
            "URIs": [
                "https://datawarehouse-dev-202507.s3.ap-northeast-1.amazonaws.com/titani-etl.csv"
            ]
        }
    ],
    "globalUploadSettings": {
        "format": "CSV",
        "delimiter": ",",
        "textqualifier": "'",
        "containsHeader": "true"
    }
}

データソースの取り込みが完了すると下記のような形式で、可視化ができる。

公開したものは下記の形で可視化が可能である。

glueのInnerJoinの設定

InnerJoinについてGlueのVisualで実施

スケジュール設定

cronのようにスケジュール設定が可能

You get articles that match your needs
You can efficiently read back useful information
You can use dark theme

What you can do with signing up