勉強前イメージ
AWS Glue とはまた別?お友達?
調査
AWS Glue DataBrew とは
フルマネージドのETLサービスになります。
ETLとはExtract(抽出) Transform(変換) Load(書き出し) の頭文字を取ったもので
基本的にはデータウェアハウスに保存する前処理として行われる処理になります。
詳細は こちら をごらんください。
元々データウェアハウスにデータを入れる際は、↑のETLのサイトにも書いてますが
大規模なデータの抽出を行って、適切な型に変換をして、データウェアハウスに書き込みをする という工程があります。
機械学習やデータ分析などは更にデータ量が多くなったりするため、それぞれの工程でスケールアップできるような仕組みを行う必要がありました。
その為、ETLの開発者やインフラエンジニアが大規模なパイプラインを構築する必要があり対応が難しい状態になります。
またデータ分析などを進めていくに連れて要件が追加されたりすることも多いです。
それをフルマネージドで行えるようにしたのが AWS Glue DataBrew になります。
AWS Glue DataBrew の特徴
- データ変換の簡素化
AWS Glue DataBrewで準備している変換処理(クリーニングや正規化等)を選択することで
データクリーニングが簡単にできるようになります。
- 自動化の実現
変換手順を保存することで、自動化を行うことが出来ます。
AWS Glue DataBrew の用語
- レシピ
データを変換する処理の工程を指します。
料理のレシピと同様の意味になります。
- プロジェクト
一連の流れをまとめたものをプロジェクトとします。
- データセット
データが入る、テーブルのように構造化されたデータの集まりです。
- ジョブ
レシピに記載されている工程をデータセットに加えるジョブになります。
勉強後イメージ
s3とかをデータソースにして、レシピ作って処理(ジョブ)を行うみたいな感じなのかな?
フルマネージドだったらオートスケールとか気にしなくてよさげ?