Edited at

Data PipelineでEMR Clusterが起動しない問題

More than 3 years have passed since last update.


概要

DynamoDBのデータをData PipelineでS3にエクスポートしようとしたら失敗した話。

data-pipeline.png

何故か TableBackupActivity コンポーネントの実行でコケる。ログを残すよう設定しているにも関わらず Logs not available が出る。


原因

AWSのデフォルトVPCを削除するとこの現象が起こるらしい。

対策としては、EMR Clusterのオプション (Edit Pipeline から変更可能) で インターネットゲートウェイが設定されたパブリックサブネット を指定してあげれば良い。

スクリーンショット_2016-04-11_20_09_18.png

ちなみにデフォルト以外のVPCでEMRクラスタを利用する場合、VPCの DNS ResolutionDNS Hostnames オプションをそれぞれ有効化しておかないといつまでたってもクラスタが起動しないので注意が必要。