More than 1 year has passed since last update.

AWS EMRの用語要点まとめ（自分用メモ

Posted at 2022-07-07

・Amazon EMR（旧Amazon Elastic MapReduce）
ビッグデータの処理や分析を行うサービス。ビッグデータを処理する既存のフレームワークであるHadoop（ハドゥープ）やSpark（スパーク）を用いています。
さらに、ビッグデータを分析し経営に役立てることを「BI：Business Intelligence」といい、代表的なBIツールにはMicrosoft ExcelやMicroStrategyなどがあります。Amazon EMRはこれらのツールにも対応しています・

EMRのアーキテクチャ
データを複数のサーバーに配置して並列に処理する「分散処理」により、迅速かつ効率の良い処理を実現しています。

「分散処理」という名の通り、EMRでは3つの役割を持つノード（EC2インスタンス）でクラスターを構成し、処理を分散します。
・マスターノード
　クラスター全体を管理するノード。コアノードおよびタスクノードへ処理を投入したり分散処理の調整を行う。
・コアノード
　演算処理を実行するノード。データを保存するファイルシステムHDFS（Hadoop Distributed File System）を持つ。
・タスクノード（オプション）
　コアノードと同様に演算処理を実行する。ファイルシステムを持たない、演算処理専用のノード。

クラスター内のコアノードまたはタスクノードは、手動、または定めたポリシーなどに従って自動でスケーリングすることができます。

■HDFSとEMRFS（EMR File System）
EMRでは、ファイルシステムとしてHDFSとEMRFSを利用できます。

・HDFS（Hadoop Distributed File System）
分散処理ソフトウェア「Hadoop」のファイルシステムです。EMRではマスターノードとコアノードで利用します。
EMRクラスターが終了すると、HDFS上のデータは失われます。

・EMRFS（EMR File System）
Amazon S3をEMRクラスターからファイルシステムとして利用できるようにした機能です。
データを永続的に保持でき、EMRクラスターが終了してもデータは失われません。また、S3が持つ機能（データの暗号化やデータ読み込み時の強い一貫性のサポートなど）も備わっています。

なお、EMRの旧名称「Elastic MapReduce」の「MapReduce」とは、Googleが開発した、ビッグデータを分散処理するフレームワークのことです。

You get articles that match your needs
You can efficiently read back useful information
You can use dark theme

What you can do with signing up