AWS Glueクローラーメモ

Posted at 2025-05-11

AWS Glueクローラー（Crawler）は、AWS Glueのコンポーネントの一つで、データの中身を自動でスキャンし、スキーマ（データ構造）を推論して、Glue Data Catalogに登録する役割を担います。いわば「データの構造を読み取るロボット」です。

Crawlerを作成
- データの場所（例：s3://my-bucket/raw-data/）を指定
- 分析対象のデータストアやIAMロールも設定
ターゲットデータを走査
- CSV, JSON, Parquetなどを自動識別
- スキーマ情報を抽出（例：カラム名・型）
Data Catalogに反映
- 自動生成されたテーブルがGlueのデータベース内に作成される
- これにより、AthenaやRedshift Spectrumなどからクエリ可能に

データソース	対応例
Amazon S3	CSV, JSON, Parquetなど
Amazon RDS	MySQL, PostgreSQLなど
Amazon DynamoDB	テーブル構造をそのまま取得
JDBC互換データソース	Oracle, SQL Serverなど（接続先により制限あり）

AthenaやETLジョブの前にこのCrawlerを使うことで、**「どんなデータがあるのか」**を自動で認識し、活用できるようになります。

使いたいデータソースがあれば、それに応じた具体例もお出しできます！