More than 5 years have passed since last update.

AWS Data PipelineとGlue

Last updated at 2019-04-19Posted at 2019-04-18

Data Pipeline

ETLやデータ以降をマネージドでできる

以下のような機能・特徴を持つ

例えばRDBからRedshiftにデータ移したいときなどに有効。

フルマネージド且つサーバレスのETL
Glue単体で動かすのでは無く、AWSの他サービス間で連動させる事で機能する、つまりAWSの各サービスの連携を管理することができる
lambdaと組み合わせるとイベントドリブンで動かしたりできるらしい

以下のような機能・特徴を持つ

AWSの各サービスの連携を管理できる
クローラでデータソースから情報を取得してくる
完全マネージド
データカタログで、Athena、EMR、Redshiftと統合できる
データカタログに追加されたテーブル定義はETLに利用でき、各サービスでのクエリにも簡単に利用できるため、サービスの間で共通のデータビューを設定可能

▼Data Pipeline

マネージド型のオーケストレーションサービス
実行環境、コードを実行するコンピューティングリソースに対するアクセスと制御、およびデータ処理のコードが柔軟に変更できる
実行時にアカウント内でコンピューティングリソースが起動、EC2やEMRクラスタに直接アクセスできる
Apache Spark以外のエンジンの使用が必要なユースケースや、HiveやPigなどのエンジンで複数のジョブを実行する場合はData Pipelineのほうがよい

▼Glue