1
1

More than 5 years have passed since last update.

Amazon EMRでHiveのセットアップ

Posted at

TL;DR

  • Amazon EMR(Elastic MapReduce)をセットアップし,クエリエンジンHiveを実行して大規模データベース処理を実行します
    • Hiveは,MySQLのようにテーブルデータに対する問い合わせ(クエリ)処理を実行することができます
    • Amazon EMRのセットアップから,データの格納,クエリの実行までの一連の流れを紹介します

Amazon EMRのセットアップ

  • Amazon EMRから「コンソールにログイン」し,EMRサービスを選択する
  • [クラスターを作成]をクリック
  • 下記画像の通り設定(いじる部分はほとんどない)して「開始」ボタンをクリック
    • クラスター名を適当に設定
    • SSHログインするためのEC2キーペアの設定
  • クラスターが「実行中」になるまでしばらく(10分程度)要する
    • 「実行中」になったら,SSHでログインできる
    • 画像の[マスターパブリックDNS]に記載のホスト名にSSHする
  • 注意: セキュリティグループ設定で,22/TCPを開けておく必要があるかもしれない

実行

  • hadoopユーザと,設定したEC2秘密鍵を使用してSSHログイン
$ ssh -i ~/.ssh/keykey.pem hadoop@ec2-XXXX.ap-northeast-1.compute.amazonaws.com

Warning: Permanently added 'ec2-XXXX.ap-northeast-1.compute.amazonaws.com,' (ECDSA) to the list of known hosts.

       __|  __|_  )
       _|  (     /   Amazon Linux AMI
      ___|\___|___|

https://aws.amazon.com/amazon-linux-ami/2018.03-release-notes/
7 package(s) needed for security, out of 12 available
Run "sudo yum update" to apply all updates.

EEEEEEEEEEEEEEEEEEEE MMMMMMMM           MMMMMMMM RRRRRRRRRRRRRRR
E::::::::::::::::::E M:::::::M         M:::::::M R::::::::::::::R
EE:::::EEEEEEEEE:::E M::::::::M       M::::::::M R:::::RRRRRR:::::R
  E::::E       EEEEE M:::::::::M     M:::::::::M RR::::R      R::::R
  E::::E             M::::::M:::M   M:::M::::::M   R:::R      R::::R
  E:::::EEEEEEEEEE   M:::::M M:::M M:::M M:::::M   R:::RRRRRR:::::R
  E::::::::::::::E   M:::::M  M:::M:::M  M:::::M   R:::::::::::RR
  E:::::EEEEEEEEEE   M:::::M   M:::::M   M:::::M   R:::RRRRRR::::R
  E::::E             M:::::M    M:::M    M:::::M   R:::R      R::::R
  E::::E       EEEEE M:::::M     MMM     M:::::M   R:::R      R::::R
EE:::::EEEEEEEE::::E M:::::M             M:::::M   R:::R      R::::R
E::::::::::::::::::E M:::::M             M:::::M RR::::R      R::::R
EEEEEEEEEEEEEEEEEEEE MMMMMMM             MMMMMMM RRRRRRR      RRRRRR

[hadoop@ip-AAA-BBB-CCC-DDD ~]$ hive # hiveコマンドでHiveサーバに接続
Logging initialized using configuration in file:/etc/hive/conf.dist/hive-log4j2.properties Async: false
hive> show databases; # SQLライクなHive HPL/SQLでクエリ発行できる
OK
default
Time taken: 0.626 seconds, Fetched: 1 row(s)
  • hive コマンドでHiveサーバに接続できる
    • その後は,SQLライクなHive用クエリ言語 Hive HPL/SQLでクエリを実行することができます

参考

1
1
0

Register as a new user and use Qiita more conveniently

  1. You get articles that match your needs
  2. You can efficiently read back useful information
  3. You can use dark theme
What you can do with signing up
1
1