input が多段の場合 * で指定
-input s3://hogefuga/2017/04/04/*/
※ を指定
Kinesis FirehoseからS3にログを投げると時間(hh)のディレクトリーを作ってしまうので * を利用
output は存在しないものを指定
出力フォルダーを作るところまでがEMR
エラー内容:Output directory already exists.
Map から Reduce へ渡す時のデータは単一キーのソートにしかならない
A1 B1 C1
A1 B2 C2
A2 B1 C1
A2 B2 C2
A3 B1 C1
A3 B2 C2
上のような想定しているソートにはならない
やりたかったことはセカンダリーソートというらしいHadoop セカンダリソートについて
mapper から reducer に渡す時はKey-Valueにすること
デバッグしづらい
--scale-down-behavior TERMINATE_AT_INSTANCE_HOUR
サーバを殺さずにステップを追加して動作確認
最後は
--auto-terminate