記事を全然書き慣れていないので、わかりにくい所があるかもしれないですがご了承ください。
今回使用するAWSのサービス
S3
AWS Glue
AWS Athena
AWS Glueとは
データエンジニア、抽出、変換、読み込み (ETL) デベロッパー、データアナリスト、データサイエンティストがデータを簡単に抽出、クリーンアップ、強化、正規化、読み込みできるようにするサーバーレスのデータ準備サービスです。
(引用:https://aws.amazon.com/jp/glue/?whats-new-cards.sort-by=item.additionalFields.postDateTime&whats-new-cards.sort-order=desc)
→AWS Glue クローラとは
接続可能な、データベースなど各種データソースをクローリングしてメタ情報を自動で推定し、カタログに登録できる。
AWS Athena
Amazon Athena はインタラクティブなクエリサービスで、Amazon S3 内のデータを標準 SQL を使用して簡単に分析できます。
(引用:https://aws.amazon.com/jp/athena/?whats-new-cards.sort-by=item.additionalFields.postDateTime&whats-new-cards.sort-order=desc)
ざっくり解説
まず、S3にデータをアップロード。
クローラの追加を選択する。情報を追加していく。
データベースを追加を選択し、作成する。
ステータスがStoppingになるまで待ちます(数分程度)。
実行が終わると、データベースのテーブルのところにテーブルができています。
ビューを作成して、利用頻度の高いクエリをシンプルにすることができます。
CTAS(Create Table AS SELECT)で、新しいテーブルを作成することもできます。(SELECT句の結果に基づいて、新しいテーブルを作成する感じ)
以上、Glueクローラを使ってS3にアップロードしたデータに対して、メタ情報を作成しAthenaからSQL分析をしました。
記事を全然書き慣れていないので、わかりにくい所があるかもしれないですがご了承ください。