EMRの基本的な利用手順

  • 0
    いいね
  • 0
    コメント

    Hadoopに関する基本的な内容をまとめてみたものです。Hadoopに関する、Web上にすでにある解説コンテンツをまとめたサイトの抜粋です。
    各種BIツールが使えるAmzon EMR

    Amazon EMRとは

    Amazon EMRとは、AWS上でオープンソース型フレームワーク Hadoopが動作出来る環境を提供するものです。

    一般的にはHadoopを使用するためには複数のサーバーを用意する必要がありますが、Amazon EMRを使えば新たにサーバーを購入したりシステムの構成を変更する必要はありません。
    Amazon EMRがHadoopを常時使用可能な環境を構築しますので、容易にデプロイする事が可能となります。

    Amazon EMRの特徴

    Amazon EMRには、以下のような特徴があります。

    ・Amazon EMR でHadoopクラスターを実行した時の仮想サーバー数の増減が簡単に出来ます
    ・ハードウェア等のメンテナンス料金を支払う必要はなく、Amazon EMRでクラスターを使用した分だけの料金を払うだけです
    ・Hive、Pig、HBase などのHadoop アプリケーションの使用が可能
    ・Amazon EC2、Amazon S3、DynamoDB、Amazon RDSなどのAWSとAmazon EMRを統合する事が出来ます
    ・Microsoft Excel、MicroStrategy、QlikView、TableauなどのBIツールを使って、データの分析を行う事が出来ます

    EMRの基本的な利用手順

    EMRの基本的な利用手順は、次のようなものです。
    EMRの入門者でも、比較的容易に操作する事が出来ます。

    入出力データ・データ格納領域をS3等に用意
    Amazon S3 を使って、Amazon EMRに入出力データやログファイルなどを格納出来ます。
    S3コンソールを開きパケット名とデータのあるパス等を指定する事で、S3パケットを作成します。

    クラスターの起動
    Amazon EMRコンソールを開き、ソフトウェア・ファイルシステム・ハードウェア等の設定を行ってから、クラスターを作成します。

    Hiveスクリプトを実行する
    Amazon EMRコンソールを使って、Hiveスクリプトを実行します。
    Hiveスクリプトをステップとして送信する事で、出力を確認する事が出来ます。
    S3コンソールを開いて、出力したパケットのフォルダ内の出力ファイルで確認します。

    Hue を使ってクエリを送信する
    Hadoop用オープンソースウェブユーザーインターフェイスであるHueにログインして、クエリを送信します。
    Hueを使う事で簡単にクエリを送信したり、スクリプトが作成出来るようになります。

    EMRを使用した後の処理

    EMRを使用した後は追加料金が発生しないように、不要なリソースは削除しなくてはなりません。

    Amazon S3のバケットの削除
    Amazon S3 コンソールを使えば、選択したオブジェクトを削除出来ます。

    Amazon EMRクラスターの終了
    Amazon EMRクラスターを終了するには、Amazon EMRコンソールを開いてCluster Listページで終了したいクラスターのチェックボックスをオンにして、Terminateを選択します。