LoginSignup
1
2

More than 5 years have passed since last update.

EMRの基本的な利用手順

Last updated at Posted at 2017-05-20

Hadoopに関する基本的な内容をまとめてみたものです。Hadoopに関する、Web上にすでにある解説コンテンツをまとめたサイトの抜粋です。
各種BIツールが使えるAmzon EMR

Amazon EMRとは

Amazon EMRとは、AWS上でオープンソース型フレームワーク Hadoopが動作出来る環境を提供するものです。

一般的にはHadoopを使用するためには複数のサーバーを用意する必要がありますが、Amazon EMRを使えば新たにサーバーを購入したりシステムの構成を変更する必要はありません。
Amazon EMRがHadoopを常時使用可能な環境を構築しますので、容易にデプロイする事が可能となります。

Amazon EMRの特徴

Amazon EMRには、以下のような特徴があります。

・Amazon EMR でHadoopクラスターを実行した時の仮想サーバー数の増減が簡単に出来ます
・ハードウェア等のメンテナンス料金を支払う必要はなく、Amazon EMRでクラスターを使用した分だけの料金を払うだけです
・Hive、Pig、HBase などのHadoop アプリケーションの使用が可能
・Amazon EC2、Amazon S3、DynamoDB、Amazon RDSなどのAWSとAmazon EMRを統合する事が出来ます
・Microsoft Excel、MicroStrategy、QlikView、TableauなどのBIツールを使って、データの分析を行う事が出来ます

EMRの基本的な利用手順

EMRの基本的な利用手順は、次のようなものです。
EMRの入門者でも、比較的容易に操作する事が出来ます。

入出力データ・データ格納領域をS3等に用意
Amazon S3 を使って、Amazon EMRに入出力データやログファイルなどを格納出来ます。
S3コンソールを開きパケット名とデータのあるパス等を指定する事で、S3パケットを作成します。

クラスターの起動
Amazon EMRコンソールを開き、ソフトウェア・ファイルシステム・ハードウェア等の設定を行ってから、クラスターを作成します。

Hiveスクリプトを実行する
Amazon EMRコンソールを使って、Hiveスクリプトを実行します。
Hiveスクリプトをステップとして送信する事で、出力を確認する事が出来ます。
S3コンソールを開いて、出力したパケットのフォルダ内の出力ファイルで確認します。

Hue を使ってクエリを送信する
Hadoop用オープンソースウェブユーザーインターフェイスであるHueにログインして、クエリを送信します。
Hueを使う事で簡単にクエリを送信したり、スクリプトが作成出来るようになります。

EMRを使用した後の処理

EMRを使用した後は追加料金が発生しないように、不要なリソースは削除しなくてはなりません。

Amazon S3のバケットの削除
Amazon S3 コンソールを使えば、選択したオブジェクトを削除出来ます。

Amazon EMRクラスターの終了
Amazon EMRクラスターを終了するには、Amazon EMRコンソールを開いてCluster Listページで終了したいクラスターのチェックボックスをオンにして、Terminateを選択します。

1
2
0

Register as a new user and use Qiita more conveniently

  1. You get articles that match your needs
  2. You can efficiently read back useful information
  3. You can use dark theme
What you can do with signing up
1
2