More than 1 year has passed since last update.

AWSでデータ分析基盤構築をサクッと始めてみる（3.データカタログ作成編（列指向））

Last updated at 2023-08-22Posted at 2023-08-10

シリーズ目次

AWSでデータ分析基盤構築をサクッと始めてみる（1.データカタログ作成編（行指向））
AWSでデータ分析基盤構築をサクッと始めてみる（2.行指向から列指向に変換編）
AWSでデータ分析基盤構築をサクッと始めてみる（3.データカタログ作成編（列指向））
AWSでデータ分析基盤構築をサクッと始めてみる（4.Athenaでアドホック分析編）
AWSでデータ分析基盤構築をサクッと始めてみる（5.Lambdaで分析自動化編）

3. データカタログ作成編（列指向）

本章では、列指向データ（parquet形式）ファイルからデータカタログを作成しようと思ってます。
それでは、Glueのcrawlerを使って、データカタログ作成にチャレンジしましょう！

（１）データカタログの作成（列指向）
　　ここでは、Glue crawlerを使ってparquet形式ファイルを取り込んだデータカタログを作成していきますので、Glue画面を開いてください。

　　①Crawlerを作成します
　　　左のメニューから"Crawlers"をクリックしてください。

　　②[Step1] データソース元を指定してください
　　　”Add a data source”ボタンを押してデータソースを追加
　　　”S3 path”に2章で変換作成して保管したparquetファイルのフォルダ（S3 URL）を指定
　　　　ex.)　s3://test_bucket/output/

　　③[Step2] 次に進んで、IAMロールを作成してください
　　　”Create new IAM role”ボタンを押してIAMロールを追加。
　　④[Step3] 次に進んで、1章で作成したデータベースを指定し、テーブル名をつけてください
　　　ex.)　テーブル名：output_table
　　　・Crawler scheduleは”On demand”を選択
　　⑤[Step4] 次に進んで、最後に入力内容を確認し、Crawlerを完成させます
　　　”Create crawler”ボタンを押す
　　　これで、クローラーの完成です！
　　⑥クローラーを実行します（1章で経験済のためドキドキしない）
　　　作成したクローラーを画面の”Run crawler”ボタンを押す
　　　※ここで、クローラーによるデータカタログの作成が始まります
　　⑦データカタログの確認をします
　　　実行完了後、上記で作成したデータベースを開きデータカタログが作成されていることを確認

これで、列指向のデータカタログの完成です！

本章はこれで終わりです。どうもお疲れ様でした。
引き続き、次の章にチャレンジしてください！

AWSでデータ分析基盤構築をサクッと始めてみる（4.Athenaでアドホック分析編）

参考文献

AWS公式サイト
AWS Glue

You get articles that match your needs
You can efficiently read back useful information
You can use dark theme

What you can do with signing up