1
1

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?

More than 1 year has passed since last update.

AWS EMRの用語要点まとめ(自分用メモ

Posted at

・Amazon EMR(旧Amazon Elastic MapReduce)
ビッグデータの処理や分析を行うサービス。ビッグデータを処理する既存のフレームワークであるHadoop(ハドゥープ)やSpark(スパーク)を用いています。
さらに、ビッグデータを分析し経営に役立てることを「BI:Business Intelligence」といい、代表的なBIツールにはMicrosoft ExcelやMicroStrategyなどがあります。Amazon EMRはこれらのツールにも対応しています・

EMRのアーキテクチャ
データを複数のサーバーに配置して並列に処理する「分散処理」により、迅速かつ効率の良い処理を実現しています。

「分散処理」という名の通り、EMRでは3つの役割を持つノード(EC2インスタンス)でクラスターを構成し、処理を分散します。
・マスターノード
 クラスター全体を管理するノード。コアノードおよびタスクノードへ処理を投入したり分散処理の調整を行う。
・コアノード
 演算処理を実行するノード。データを保存するファイルシステムHDFS(Hadoop Distributed File System)を持つ。
・タスクノード(オプション)
 コアノードと同様に演算処理を実行する。ファイルシステムを持たない、演算処理専用のノード。

クラスター内のコアノードまたはタスクノードは、手動、または定めたポリシーなどに従って自動でスケーリングすることができます。

■HDFSとEMRFS(EMR File System)
EMRでは、ファイルシステムとしてHDFSとEMRFSを利用できます。

・HDFS(Hadoop Distributed File System)
分散処理ソフトウェア「Hadoop」のファイルシステムです。EMRではマスターノードとコアノードで利用します。
EMRクラスターが終了すると、HDFS上のデータは失われます。

・EMRFS(EMR File System)
Amazon S3をEMRクラスターからファイルシステムとして利用できるようにした機能です。
データを永続的に保持でき、EMRクラスターが終了してもデータは失われません。また、S3が持つ機能(データの暗号化やデータ読み込み時の強い一貫性のサポートなど)も備わっています。

なお、EMRの旧名称「Elastic MapReduce」の「MapReduce」とは、Googleが開発した、ビッグデータを分散処理するフレームワークのことです。

1
1
0

Register as a new user and use Qiita more conveniently

  1. You get articles that match your needs
  2. You can efficiently read back useful information
  3. You can use dark theme
What you can do with signing up
1
1

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?