Edited at

[AWS] EMR調査メモ


EMR


  • 公式

  • Amazon EMR は、業界をリードするクラウドネイティブなビッグデータプラットフォームです。大規模環境で大量のデータを迅速かつコスト効率よく処理できます


公式HPから引用



クラスター作成


  1. クラスター名を入力

  2. ログ記録するかチェック


    • 今回はログ記録しない



  3. 起動モードは「クラスター」を選択

  4. リソース選択



    • emr-5.24.1 を選択



  5. アプリケーション


    • Core Hadoop: Hadoop 2.8.5 with Ganglia 3.7.2, Hive 2.3.4, Hue 4.4.0, Mahout 0.13.0, Pig 0.17.0, and Tez 0.9.1



  6. インスタンスタイプ


    • m3.xlarge



  7. インスタンス数


    • 1



  8. EC2キーペア

  9. アクセス権限


    • デフォルト




EC2ログイン


  • 上記で指定したキーペアの権限を「400」に変更

  • EMR用のEC2インスタンスを確認しログインする


    • ex) ssh -i "xxxx.pem" ec2-user@xxxx.xxxx.compute.amazonaws.com




S3DistCp


ファイル集約

s3-dist-cp --src /data/incoming/hourly_table --dest s3://my-tables/processing/daily_table --targetSize=10 --groupBy=’.*/hourly_table/.*/(\d\d)/.*\.log’