Amazon EMR

Posted at 2025-05-17

Amazon EMR（Elastic MapReduce）は、

ビッグデータの処理・解析を簡単・スケーラブルに実行できるマネージドサービスです。

HadoopやSparkなどのオープンソースのビッグデータフレームワークを使って、大量データの処理、分析、変換、機械学習などをAWS上で簡単に実行できます。

🧠 一言でいうと…

「HadoopやSparkをAWS上で手間なく実行できるサービス」

特徴	説明
✅ スケーラブル	数台〜数百台までノードを自動でスケーリング可能
✅ 安価	スポットインスタンスでコスト削減も可能
✅ 柔軟な構成	クラスタの構成（マスターノード、コア、タスクノード）を自由に選べる
✅ S3連携	入出力データをS3と連携可能（EMRFS）
✅ セキュア	IAMやVPC、Kerberosなどのセキュリティ機能も完備
✅ ステップ実行	バッチ処理をステップとして順に実行できる

ユースケース	説明
ビッグデータ処理	ログやIoTデータのバッチ分析（Hadoop, Spark）
データレイク分析	S3上のデータをPrestoやHiveで分析
機械学習	Spark MLlibやJupyterでの分散学習
ETLパイプライン	データ抽出・変換・ロード処理（Glue代替）

S3（データ） ←→ EMRクラスタ（Spark/Hadoopなど） ←→ 分析結果をS3やRDSへ

クラスタは必要なときだけ起動して、処理が終わったら削除することもできます（コスト最適化）。

ポイント	説明
何ができる？	HadoopやSparkなどを用いたビッグデータ分析
何が便利？	自動スケーリング、S3連携、豊富なOSSサポート
向いている用途	ログ集計、機械学習前処理、大規模バッチ分析など