EMR
- 公式
- Amazon EMR は、業界をリードするクラウドネイティブなビッグデータプラットフォームです。大規模環境で大量のデータを迅速かつコスト効率よく処理できます
公式HPから引用
クラスター作成
- クラスター名を入力
- ログ記録するかチェック
- 今回はログ記録しない
- 起動モードは「クラスター」を選択
- リソース選択
-
emr-5.24.1
を選択
-
- アプリケーション
Core Hadoop: Hadoop 2.8.5 with Ganglia 3.7.2, Hive 2.3.4, Hue 4.4.0, Mahout 0.13.0, Pig 0.17.0, and Tez 0.9.1
- インスタンスタイプ
m3.xlarge
- インスタンス数
- 1
- EC2キーペア
- アクセス権限
- デフォルト
EC2ログイン
- 上記で指定したキーペアの権限を「400」に変更
- EMR用のEC2インスタンスを確認しログインする
- ex)
ssh -i "xxxx.pem" ec2-user@xxxx.xxxx.compute.amazonaws.com
- ex)
S3DistCp
- ドキュメント
- S3に対する様々な操作が可能
- 複数ファイル集約
- 圧縮
- 使用方法7つのヒント
ファイル集約
s3-dist-cp --src /data/incoming/hourly_table --dest s3://my-tables/processing/daily_table --targetSize=10 --groupBy=’.*/hourly_table/.*/(\d\d)/.*\.log’