背景
データ分析を勉強する一環で、データレイクハンズオンに取り組む。
(そろそろ課金が大きくなってきたので、ひと段落したらシステムはばらす予定)
ハンズオンに取り組む
Lab6: サーバーレスでデータの ETL 処理
主に使用するサービス:
- Glue
- Athena
Section1: Glue の ETL 処理
Step1: IAM ロールにポリシーを追加
Step2: Glue Crawler を使ったスキーマの自動生成
Lab4 実施済みのため、スキップ。
Step3: Glue で ETL ジョブ作成と実行
Step4: Glue クローラの作成と実行
Step5: Athena でクエリ比較
Step6: Glue ジョブで Parquet とパーティショニングを実行
Step7: Athena でクエリ比較
これで、一通りのハンズオンが終了したわけだが・・・。
- AWS はやたらお金がかかる (特に EC2, OpenSearch)
- 個人開発のデータ分析では、ちょっと過剰スペックな気がする
- とはいえ、大容量のデータを捌くには有用なサービス (要お金)
- ハンズオンだと、ポチポチしてたら終わってしまうので、きちんと自分で理解し、応用できるように学習が必要
今回の学びは以上かな。
Section2: 後片付け
お金の流出をストップしたいので、さっさと環境を削除します。
結局、削除だけで 1時間ほどかかってしまった・・・。