0
0

More than 1 year has passed since last update.

AWS データレイクハンズオン - Lab6 -

Posted at

背景

データ分析を勉強する一環で、データレイクハンズオンに取り組む。
(そろそろ課金が大きくなってきたので、ひと段落したらシステムはばらす予定)

ハンズオンに取り組む

Lab6: サーバーレスでデータの ETL 処理

主に使用するサービス:

  • Glue
  • Athena

Section1: Glue の ETL 処理

Step1: IAM ロールにポリシーを追加

Step2: Glue Crawler を使ったスキーマの自動生成

Lab4 実施済みのため、スキップ。

Step3: Glue で ETL ジョブ作成と実行

Step4: Glue クローラの作成と実行

Step5: Athena でクエリ比較

Step6: Glue ジョブで Parquet とパーティショニングを実行

Step7: Athena でクエリ比較

これで、一通りのハンズオンが終了したわけだが・・・。

  • AWS はやたらお金がかかる (特に EC2, OpenSearch)
  • 個人開発のデータ分析では、ちょっと過剰スペックな気がする
  • とはいえ、大容量のデータを捌くには有用なサービス (要お金)
  • ハンズオンだと、ポチポチしてたら終わってしまうので、きちんと自分で理解し、応用できるように学習が必要

今回の学びは以上かな。

Section2: 後片付け

お金の流出をストップしたいので、さっさと環境を削除します。

結局、削除だけで 1時間ほどかかってしまった・・・。

0
0
0

Register as a new user and use Qiita more conveniently

  1. You get articles that match your needs
  2. You can efficiently read back useful information
  3. You can use dark theme
What you can do with signing up
0
0