16
6

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?

More than 5 years have passed since last update.

AWS Data PipelineとGlue

Last updated at Posted at 2019-04-18

Data Pipeline

ETLやデータ以降をマネージドでできる

以下のような機能・特徴を持つ

  • ETL
  • AWS間のデータ以降とかであれば、簡単なマウスとキーボードの操作だけで処理を作り、実行できるようなGUIがある
  • 複雑な変換処理などは自前のプログラムを噛ませることもできる
  • スケジューラ機能
  • オンプレでも使える

例えばRDBからRedshiftにデータ移したいときなどに有効。

  1. RDBからS3にデータをエクスポート
  2. Redshiftのテーブルに合わせて変換と加工
  3. Redshiftにインポート

ここがわかりやすい。
https://www.slideshare.net/AmazonWebServicesJapan/aws-black-belt-tech-2015-aws-data-pipeline-52837923?ref=https://dev.classmethod.jp/cloud/aws/cm-advent-calendar-2015-getting-started-again-datapipeline/

Glue

フルマネージド且つサーバレスのETL
Glue単体で動かすのでは無く、AWSの他サービス間で連動させる事で機能する、つまりAWSの各サービスの連携を管理することができる
lambdaと組み合わせるとイベントドリブンで動かしたりできるらしい

以下のような機能・特徴を持つ

  • AWSの各サービスの連携を管理できる
  • クローラでデータソースから情報を取得してくる
  • 完全マネージド
  • データカタログで、Athena、EMR、Redshiftと統合できる
    データカタログに追加されたテーブル定義はETLに利用でき、各サービスでのクエリにも簡単に利用できるため、サービスの間で共通のデータビューを設定可能

Data PipelineとGlueの違い

▼Data Pipeline

  • マネージド型のオーケストレーションサービス
  • 実行環境、コードを実行するコンピューティングリソースに対するアクセスと制御、およびデータ処理のコードが柔軟に変更できる
  • 実行時にアカウント内でコンピューティングリソースが起動、EC2やEMRクラスタに直接アクセスできる
  • Apache Spark以外のエンジンの使用が必要なユースケースや、HiveやPigなどのエンジンで複数のジョブを実行する場合はData Pipelineのほうがよい

▼Glue

  • データ優先のアプローチが採用されている
  • データカタログによって、Athena、EMR、Redshiftでのクエリにもメタデータを利用できる
  • ETLジョブは、Scala または Python
16
6
1

Register as a new user and use Qiita more conveniently

  1. You get articles that match your needs
  2. You can efficiently read back useful information
  3. You can use dark theme
What you can do with signing up
16
6

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?