・Amazon EMR(旧Amazon Elastic MapReduce)
ビッグデータの処理や分析を行うサービス。ビッグデータを処理する既存のフレームワークであるHadoop(ハドゥープ)やSpark(スパーク)を用いています。
さらに、ビッグデータを分析し経営に役立てることを「BI:Business Intelligence」といい、代表的なBIツールにはMicrosoft ExcelやMicroStrategyなどがあります。Amazon EMRはこれらのツールにも対応しています・
EMRのアーキテクチャ
データを複数のサーバーに配置して並列に処理する「分散処理」により、迅速かつ効率の良い処理を実現しています。
「分散処理」という名の通り、EMRでは3つの役割を持つノード(EC2インスタンス)でクラスターを構成し、処理を分散します。
・マスターノード
クラスター全体を管理するノード。コアノードおよびタスクノードへ処理を投入したり分散処理の調整を行う。
・コアノード
演算処理を実行するノード。データを保存するファイルシステムHDFS(Hadoop Distributed File System)を持つ。
・タスクノード(オプション)
コアノードと同様に演算処理を実行する。ファイルシステムを持たない、演算処理専用のノード。
クラスター内のコアノードまたはタスクノードは、手動、または定めたポリシーなどに従って自動でスケーリングすることができます。
■HDFSとEMRFS(EMR File System)
EMRでは、ファイルシステムとしてHDFSとEMRFSを利用できます。
・HDFS(Hadoop Distributed File System)
分散処理ソフトウェア「Hadoop」のファイルシステムです。EMRではマスターノードとコアノードで利用します。
EMRクラスターが終了すると、HDFS上のデータは失われます。
・EMRFS(EMR File System)
Amazon S3をEMRクラスターからファイルシステムとして利用できるようにした機能です。
データを永続的に保持でき、EMRクラスターが終了してもデータは失われません。また、S3が持つ機能(データの暗号化やデータ読み込み時の強い一貫性のサポートなど)も備わっています。
なお、EMRの旧名称「Elastic MapReduce」の「MapReduce」とは、Googleが開発した、ビッグデータを分散処理するフレームワークのことです。