Hadoopに関する基本的な内容をまとめてみたものです。Hadoopに関する、Web上にすでにある解説コンテンツをまとめたサイトの抜粋です。
[AWS上のマネージド型のHadoopフレームワーク] (https://www.techcrowd.jp/bigdata/hadooponaws/)
[短時間でHadoopクラスターが立ち上げられるEMR] (https://www.techcrowd.jp/bigdata/hadooponaws/)
Amazon EMRは、マネージド型のHadoopフレームワークを提供するAWSです。
Amazon EMRクラスターは数分間で起動させる事が可能で、
・Hadoopの設定
・クラスター設定や調整
・ノードのプロビジョニング
などの作業を行う必要はありません。
使ったコンピューティングインスタンスに対する料金が請求される従量料金金制なので、無駄な費用を支払わなくても済みます。
料金は1時間単位で計算されますから、インスタンスコストを削減する事も可能です。
[Hadoop用の各種ツールや他のフレームワークも実行可能] (https://www.techcrowd.jp/bigdata/hadooponaws/)
・Hive
・Pig
・Hbase
・DistCp
・Ganglia
などHadoop用のツールは数多く存在しますが、Amazon EMRではそれらのツールも使用可能となっています。
さらに、
・インメモリ処理を行うApache Spark
・インタラクティブSQL用の Presto
などのフレームワークもAmazon EMRで使う事が出来ます。
[Amazon EMRを使用する事のメリット] (https://www.techcrowd.jp/bigdata/emrstructure/)
Amazon EMR は、HadoopクラスターをAWSで実行する時に利用出来るサービスです。
Hadoopクラスターが起動すると、Amazon EC2の仮想サーバーで処理が実行されますが、Amazon EMRによってAWSが円滑に利用出来るようになっています。
その他にもAmazon EMRを利用する事で、
・複数のクラスターへの同時アクセス
・Hadoop用アプリケーションの使用
・一般的なBIツールの使用
・Amazon EMR コンソールでの管理
・セキュリティの強化
などのメリットを享受出来ます。
[ノードやステップなどの新しい技術が使われている] (https://www.techcrowd.jp/bigdata/emrstructure/)
Amazon EMRは、単にHadoopとAWSを統合するだけではなく、ノードやステップなどの新しい技術を使って分散処理が行われます。
ノードに関しては、ノードタイプとして参照される3種類のロールが定義されています。
マスターノード
クラスターを管理するノードで、各クラスターに一つしか存在しません。
各タスクのステータスやインスタンスグループの状態を監視し、正しい状態を維持するように管理を行います。
コアノード
Hadoopスレーブノードにマップされるノードで、Hadoop Distributed File System(HDFS)を使ってタスクの実行とデータの格納を行います。
タスクノード
Hadoop スレーブノードにマップされるノードで、タスクを実行します。
ステップはデータを操作する指示の事で、一つ以上のHadoop ジョブが指定出来ます。
・データの復号化
・データの処理
・データの暗号化
・データの保存
などの内容がステップで指示されます。
[Amazon EMR以外のAWSとの連携が可能] (https://www.techcrowd.jp/bigdata/emrstructure/)
Amazon EMR はHDFSを利用出来るだけでなく、
・Amazon EC2
・Amazon S3
・DynamoDB
・Amazon RDS AWS
などのAWSと統合する事も可能です。
そのため、AWSに保存されているデータにクラスターからアクセスしたり、AWSの機能を利用してクラスターの管理や出力を行う事も出来ます。