0

【SAS対策】Amazon EMR（Elastic MapReduce）

Posted at 2025-09-18

概要

マネージドなビッグデータ分析基盤
Apache Hadoop / Spark / Hive / Presto / HBase などのフレームワークを簡単にAWS上で実行可能
数百〜数千台のノードにスケールアウトして大規模データ処理ができる
オンプレのHadoopクラスターをAWSに移行したい場合にもよく利用

特徴

フルマネージド
- クラスターのプロビジョニング、設定、スケーリングを自動化
スケーラブル
- 数ノードから数千ノードまで動的に拡張/縮小
コスト効率
- スポットインスタンスを利用し、コストを大幅削減可能
- EMR Serverless（オンデマンドでジョブ実行、インフラ管理不要）も利用可能
ストレージ統合
- S3をデータレイクとして利用（HDFSの代替）
- EBS、EMRFS（S3への透過アクセス）、Glue Data Catalogとも統合

ユースケース

ビッグデータ分析（ログ解析、Webクリック分析など）
機械学習前処理（Spark MLlib, TensorFlow連携）
データETL（抽出・変換・ロード）
レコメンデーション、金融リスク分析

アーキテクチャの考え方

コンピュート層：EC2インスタンス（またはEMR Serverless）
ストレージ層：S3を利用（HDFSより安価 & 耐久性）
データカタログ：AWS Glue Data Catalogと統合してメタデータ管理

ポイント

オンプレHadoopの代替 → EMR
S3をストレージに使う → 安価で拡張性大
EMR Serverless = インフラ管理不要でジョブ単位実行
スポットインスタンスでコスト最適化可能
他のサービスとの使い分け：
- Athena → サーバレスでSQLクエリ（簡易・アドホック分析）
- Redshift → DWH（構造化データ中心、BI向け）
- EMR → 複雑な分散処理（Spark, Hadoopなど）

0

Register as a new user and use Qiita more conveniently

You get articles that match your needs
You can efficiently read back useful information
You can use dark theme

What you can do with signing up

0