LoginSignup
5
3

More than 1 year has passed since last update.

【AWS】用語を整理しながら学ぶAWS - part9 AWS Glue DataBrew

Last updated at Posted at 2022-09-20

【AWS】用語を整理しながら学ぶAWS - part9 AWS Glue DataBrew

はじめに

この記事では AWS Glue DataBrew(以下、Glue DataBrew) を学習していく記事です。
主な内容としては実践したときのメモを中心に書きます。(忘れやすいことなど)
誤りなどがあれば書き直していく予定です。

AWS Glue DataBrewとは

簡単にまとめるとGlueをさらに使いやすくしたサービスです。
AWS Glueでは次のように説明されています。(一部抜粋)

データアナリストとデータサイエンティストは、AWS Glue DataBrew を使用して、コードを書くことなくデータを視覚的に強化、クリーンアップ、正規化できます。

同じGlueと名のつくサービスですが、できることは異なります。
では、GlueとGlue DataBrewにはどのような違いがあるのでしょうか。

Glue と Glue DataBrewの主な違い

ドキュメントの比較、検証してみた結果から次の違いがあります。

項目 Glue Glue DataBrew
対象 エンジニア 非エンジニア
データ変換機能 10~20個 250個
コードによる修正 できる できない
ビジュアル データのプレビューが見えにくい データのプレビューが見えやすい
ジョブ Glueジョブとして管理 Glue DataBrewジョブとして管理
スケジュール Glueのスケジュールとして管理 Glue DataBrewのスケジュールとして管理

大きな特徴としてはノーコードでデータ分析を非エンジニアに提供できることです。

クローラーによって構築されるデータカタログはGlueと共有されます。

Glue DataBrewで使われる用語はGlueとほぼ同じですが、使い方は全く持って異なります。
Glue DataBrewの使い方を把握していきましょう。

 Glue DataBrewを使ってデータを出力する流れ

Glueを使いつつ、Glue DataBrewも使う場合の流れは次の通りです。

  1. 通常のGlue同様にデータへの接続を作成する
  2. Glueデータセットへの接続を作成する
  3. Glue DataBrewのプロジェクトを作成する
  4. ステップを使い、データを加工する
  5. レシピに従ってデータを出力する

通常のGlue同様にデータへの接続を作成する

Glue DataBrewの接続はすでに作成したGlueの接続を引用できます。
ない場合は作りましょう。

Glueデータセットへの接続を作成する

データセットはGlueのクローラーで作成したデータカタログを使います。

データカタログ = 利用できるデータセット一覧

データカタログにないデータの場合はプロジェクトの作成時に新しいデータセットとして指定します。
3.png

Glue DataBrewのプロジェクトを作成する

データへの接続とデータセットが決まったら、Glue DataBrewでプロジェクトを作成します。

1.png

プロジェクトはプロジェクト名を入力するところから始まります。
2.png

プロジェクトは1つ以上のデータ加工を保存できる単位のことです。

プロジェクトにはデータへの接続とデータセット以外にも必要な設定があります。

  • レシピ
  • サンプリング
  • IAMロール

プロジェクト作成のタイミングでレシピが存在しない場合は新規に作成するようにプロジェクトで設定します。

レシピはデータ加工のルールを記録した設定のことです。

サンプリングはデータ加工のプレビュー時に何行のデータを表示するかを決める項目です。

4.png

Glue DataBrewではデータの加工手順をレシピという形で保存しますが、このレシピを作成する時に
レシピを適用した時のデータがどのように変化するかをプレビューすることができます。

レシピ = データの加工手順を保存したもの

IAMロールは接続するサービスを考慮してIAMポリシーを作成します。
IAMポリシーからIAMロールを作成して指定します。

5.png

ここまででプロジェクトの作成は以上です。
次はデータを加工する方法について見ていきましょう。

ステップを使い、データを加工する

データを加工する方法ですが、Glue DataBrewではステップを追加してデータを加工します。

6.png

そして、追加したステップを保存したものをレシピと言います。
レシピに従ってデータ加工を実行します。

データを加工する = ステップを追加する = レシピを作成する

レシピに従ってデータを出力する

任意の場所にデータを出力します。
保存先は要件に合わせる形になりますが、出力先としてよく選ばれるのはS3です。

これでGlue DataBrewの一連の流れは以上です。

まとめ

Glue DataBrew はGlueを万人向けにより使いやすくしたサービスという印象でした。
特にGlueはUIがレガシーページと分かれており、使いにくさが少しだけあります。
その印象を払拭したサービスがGlue DataBrewになりそうです。

おわり

5
3
0

Register as a new user and use Qiita more conveniently

  1. You get articles that match your needs
  2. You can efficiently read back useful information
  3. You can use dark theme
What you can do with signing up
5
3