LoginSignup
0
1

More than 3 years have passed since last update.

[AWS] EMR調査メモ

Last updated at Posted at 2019-07-16

EMR

  • 公式
  • Amazon EMR は、業界をリードするクラウドネイティブなビッグデータプラットフォームです。大規模環境で大量のデータを迅速かつコスト効率よく処理できます

公式HPから引用

クラスター作成

  1. クラスター名を入力
  2. ログ記録するかチェック
    • 今回はログ記録しない
  3. 起動モードは「クラスター」を選択
  4. リソース選択
    • emr-5.24.1 を選択
  5. アプリケーション
    • Core Hadoop: Hadoop 2.8.5 with Ganglia 3.7.2, Hive 2.3.4, Hue 4.4.0, Mahout 0.13.0, Pig 0.17.0, and Tez 0.9.1
  6. インスタンスタイプ
    • m3.xlarge
  7. インスタンス数
    • 1
  8. EC2キーペア
  9. アクセス権限
    • デフォルト

EC2ログイン

  • 上記で指定したキーペアの権限を「400」に変更
  • EMR用のEC2インスタンスを確認しログインする
    • ex) ssh -i "xxxx.pem" ec2-user@xxxx.xxxx.compute.amazonaws.com

S3DistCp

ファイル集約

s3-dist-cp --src /data/incoming/hourly_table --dest s3://my-tables/processing/daily_table --targetSize=10 --groupBy=’.*/hourly_table/.*/(\d\d)/.*\.log’
0
1
0

Register as a new user and use Qiita more conveniently

  1. You get articles that match your needs
  2. You can efficiently read back useful information
  3. You can use dark theme
What you can do with signing up
0
1