LoginSignup
0
0

More than 5 years have passed since last update.

Amazon Elastic MapReduce(EMR)で躓いたところ

Last updated at Posted at 2017-04-04

input が多段の場合 * で指定

-input s3://hogefuga/2017/04/04/*/
を指定
Kinesis FirehoseからS3にログを投げると時間(hh)のディレクトリーを作ってしまうので * を利用

output は存在しないものを指定

出力フォルダーを作るところまでがEMR

エラー内容:Output directory already exists.

Map から Reduce へ渡す時のデータは単一キーのソートにしかならない

A1 B1 C1
A1 B2 C2
A2 B1 C1
A2 B2 C2
A3 B1 C1
A3 B2 C2

上のような想定しているソートにはならない
やりたかったことはセカンダリーソートというらしいHadoop セカンダリソートについて

mapper から reducer に渡す時はKey-Valueにすること

デバッグしづらい

--scale-down-behavior TERMINATE_AT_INSTANCE_HOUR
サーバを殺さずにステップを追加して動作確認

最後は

--auto-terminate

0
0
0

Register as a new user and use Qiita more conveniently

  1. You get articles that match your needs
  2. You can efficiently read back useful information
  3. You can use dark theme
What you can do with signing up
0
0