Hadoopに関する基本的な内容をまとめてみたものです。Hadoopに関する、Web上にすでにある解説コンテンツをまとめたサイトの抜粋です。
[各種BIツールが使えるAmzon EMR] (https://www.techcrowd.jp/bigdata/amazon-emr/)
[Amazon EMRとは] (https://www.techcrowd.jp/bigdata/amazon-emr/)
Amazon EMRとは、AWS上でオープンソース型フレームワーク Hadoopが動作出来る環境を提供するものです。
一般的にはHadoopを使用するためには複数のサーバーを用意する必要がありますが、Amazon EMRを使えば新たにサーバーを購入したりシステムの構成を変更する必要はありません。
Amazon EMRがHadoopを常時使用可能な環境を構築しますので、容易にデプロイする事が可能となります。
[Amazon EMRの特徴] (https://www.techcrowd.jp/bigdata/amazon-emr/)
Amazon EMRには、以下のような特徴があります。
・Amazon EMR でHadoopクラスターを実行した時の仮想サーバー数の増減が簡単に出来ます
・ハードウェア等のメンテナンス料金を支払う必要はなく、Amazon EMRでクラスターを使用した分だけの料金を払うだけです
・Hive、Pig、HBase などのHadoop アプリケーションの使用が可能
・Amazon EC2、Amazon S3、DynamoDB、Amazon RDSなどのAWSとAmazon EMRを統合する事が出来ます
・Microsoft Excel、MicroStrategy、QlikView、TableauなどのBIツールを使って、データの分析を行う事が出来ます
[EMRの基本的な利用手順] (https://www.techcrowd.jp/bigdata/process/)
EMRの基本的な利用手順は、次のようなものです。
EMRの入門者でも、比較的容易に操作する事が出来ます。
入出力データ・データ格納領域をS3等に用意
Amazon S3 を使って、Amazon EMRに入出力データやログファイルなどを格納出来ます。
S3コンソールを開きパケット名とデータのあるパス等を指定する事で、S3パケットを作成します。
クラスターの起動
Amazon EMRコンソールを開き、ソフトウェア・ファイルシステム・ハードウェア等の設定を行ってから、クラスターを作成します。
Hiveスクリプトを実行する
Amazon EMRコンソールを使って、Hiveスクリプトを実行します。
Hiveスクリプトをステップとして送信する事で、出力を確認する事が出来ます。
S3コンソールを開いて、出力したパケットのフォルダ内の出力ファイルで確認します。
Hue を使ってクエリを送信する
Hadoop用オープンソースウェブユーザーインターフェイスであるHueにログインして、クエリを送信します。
Hueを使う事で簡単にクエリを送信したり、スクリプトが作成出来るようになります。
[EMRを使用した後の処理] (https://www.techcrowd.jp/bigdata/process/)
EMRを使用した後は追加料金が発生しないように、不要なリソースは削除しなくてはなりません。
Amazon S3のバケットの削除
Amazon S3 コンソールを使えば、選択したオブジェクトを削除出来ます。
Amazon EMRクラスターの終了
Amazon EMRクラスターを終了するには、Amazon EMRコンソールを開いてCluster Listページで終了したいクラスターのチェックボックスをオンにして、Terminateを選択します。