シリーズ目次
AWSでデータ分析基盤構築をサクッと始めてみる(1.データカタログ作成編(行指向))
AWSでデータ分析基盤構築をサクッと始めてみる(2.行指向から列指向に変換編)
AWSでデータ分析基盤構築をサクッと始めてみる(3.データカタログ作成編(列指向))
AWSでデータ分析基盤構築をサクッと始めてみる(4.Athenaでアドホック分析編)
AWSでデータ分析基盤構築をサクッと始めてみる(5.Lambdaで分析自動化編)
3. データカタログ作成編(列指向)
本章では、列指向データ(parquet形式)ファイルからデータカタログを作成しようと思ってます。
それでは、Glueのcrawlerを使って、データカタログ作成にチャレンジしましょう!
(1)データカタログの作成(列指向)
ここでは、Glue crawlerを使ってparquet形式ファイルを取り込んだデータカタログを作成していきますので、Glue画面を開いてください。
①Crawlerを作成します
左のメニューから"Crawlers"をクリックしてください。
②[Step1] データソース元を指定してください
”Add a data source”ボタンを押してデータソースを追加
”S3 path”に2章で変換作成して保管したparquetファイルのフォルダ(S3 URL)を指定
ex.) s3://test_bucket/output/
③[Step2] 次に進んで、IAMロールを作成してください
”Create new IAM role”ボタンを押してIAMロールを追加。
④[Step3] 次に進んで、1章で作成したデータベースを指定し、テーブル名をつけてください
ex.) テーブル名:output_table
・Crawler scheduleは”On demand”を選択
⑤[Step4] 次に進んで、最後に入力内容を確認し、Crawlerを完成させます
”Create crawler”ボタンを押す
これで、クローラーの完成です!
⑥クローラーを実行します(1章で経験済のためドキドキしない)
作成したクローラーを画面の”Run crawler”ボタンを押す
※ここで、クローラーによるデータカタログの作成が始まります
⑦データカタログの確認をします
実行完了後、上記で作成したデータベースを開きデータカタログが作成されていることを確認
これで、列指向のデータカタログの完成です!
本章はこれで終わりです。どうもお疲れ様でした。
引き続き、次の章にチャレンジしてください!
AWSでデータ分析基盤構築をサクッと始めてみる(4.Athenaでアドホック分析編)
参考文献
- AWS公式サイト
AWS Glue