【AWS】用語を整理しながら学ぶAWS - part9 AWS Glue DataBrew
はじめに
この記事では AWS Glue DataBrew(以下、Glue DataBrew) を学習していく記事です。
主な内容としては実践したときのメモを中心に書きます。(忘れやすいことなど)
誤りなどがあれば書き直していく予定です。
AWS Glue DataBrewとは
簡単にまとめるとGlueをさらに使いやすくしたサービスです。
AWS Glueでは次のように説明されています。(一部抜粋)
データアナリストとデータサイエンティストは、AWS Glue DataBrew を使用して、コードを書くことなくデータを視覚的に強化、クリーンアップ、正規化できます。
同じGlueと名のつくサービスですが、できることは異なります。
では、GlueとGlue DataBrewにはどのような違いがあるのでしょうか。
Glue と Glue DataBrewの主な違い
ドキュメントの比較、検証してみた結果から次の違いがあります。
項目 | Glue | Glue DataBrew |
---|---|---|
対象 | エンジニア | 非エンジニア |
データ変換機能 | 10~20個 | 250個 |
コードによる修正 | できる | できない |
ビジュアル | データのプレビューが見えにくい | データのプレビューが見えやすい |
ジョブ | Glueジョブとして管理 | Glue DataBrewジョブとして管理 |
スケジュール | Glueのスケジュールとして管理 | Glue DataBrewのスケジュールとして管理 |
大きな特徴としてはノーコードでデータ分析を非エンジニアに提供できることです。
クローラーによって構築されるデータカタログはGlueと共有されます。
Glue DataBrewで使われる用語はGlueとほぼ同じですが、使い方は全く持って異なります。
Glue DataBrewの使い方を把握していきましょう。
Glue DataBrewを使ってデータを出力する流れ
Glueを使いつつ、Glue DataBrewも使う場合の流れは次の通りです。
- 通常のGlue同様にデータへの接続を作成する
- Glueデータセットへの接続を作成する
- Glue DataBrewのプロジェクトを作成する
- ステップを使い、データを加工する
- レシピに従ってデータを出力する
通常のGlue同様にデータへの接続を作成する
Glue DataBrewの接続はすでに作成したGlueの接続を引用できます。
ない場合は作りましょう。
Glueデータセットへの接続を作成する
データセットはGlueのクローラーで作成したデータカタログを使います。
データカタログ = 利用できるデータセット一覧
データカタログにないデータの場合はプロジェクトの作成時に新しいデータセットとして指定します。
Glue DataBrewのプロジェクトを作成する
データへの接続とデータセットが決まったら、Glue DataBrewでプロジェクトを作成します。
プロジェクトはプロジェクト名を入力するところから始まります。
プロジェクトは1つ以上のデータ加工を保存できる単位のことです。
プロジェクトにはデータへの接続とデータセット以外にも必要な設定があります。
- レシピ
- サンプリング
- IAMロール
プロジェクト作成のタイミングでレシピが存在しない場合は新規に作成するようにプロジェクトで設定します。
レシピはデータ加工のルールを記録した設定のことです。
サンプリングはデータ加工のプレビュー時に何行のデータを表示するかを決める項目です。
Glue DataBrewではデータの加工手順をレシピという形で保存しますが、このレシピを作成する時に
レシピを適用した時のデータがどのように変化するかをプレビューすることができます。
レシピ = データの加工手順を保存したもの
IAMロールは接続するサービスを考慮してIAMポリシーを作成します。
IAMポリシーからIAMロールを作成して指定します。
ここまででプロジェクトの作成は以上です。
次はデータを加工する方法について見ていきましょう。
ステップを使い、データを加工する
データを加工する方法ですが、Glue DataBrewではステップを追加してデータを加工します。
そして、追加したステップを保存したものをレシピと言います。
レシピに従ってデータ加工を実行します。
データを加工する = ステップを追加する = レシピを作成する
レシピに従ってデータを出力する
任意の場所にデータを出力します。
保存先は要件に合わせる形になりますが、出力先としてよく選ばれるのはS3です。
これでGlue DataBrewの一連の流れは以上です。
まとめ
Glue DataBrew はGlueを万人向けにより使いやすくしたサービスという印象でした。
特にGlueはUIがレガシーページと分かれており、使いにくさが少しだけあります。
その印象を払拭したサービスがGlue DataBrewになりそうです。