AWS Data Pipelineとは
データ処理やデータ移動を自動化するサービスです。Data Pipelineでパイプラインを設定すると、オンプレミスやAWS上の特定の場所に定期的にアクセスし必要に応じてデータを変換し、S3、RDS、DynamoDBなどのAWSの各種サービスに転送します。
設定はビジュアル操作(ドラック&ドロップ)が可能です。スケジュール実行のほかに、エラー時の再実行や耐障害性・可用性機能があります。
利用シーン
バッチ処理のELT(複数のデータソースから、データの抽出(Extract)・変換(Transform)・書き出し(Load)を行い、DWH(データウェアハウス)と呼ばれる大量のデータの格納庫にまとめる一連のプロセス)を構築する必要がある場合などに使用すると、自前でEC2インスタンスを立ててバッチ処理を作るのに比べ、例外処理の設計・実装の手間が少なくインフラ運用の負荷も減らすことができます。