概要
- マネージドなビッグデータ分析基盤
- Apache Hadoop / Spark / Hive / Presto / HBase などのフレームワークを簡単にAWS上で実行可能
- 数百〜数千台のノードにスケールアウトして大規模データ処理ができる
- オンプレのHadoopクラスターをAWSに移行したい場合にもよく利用
特徴
-
フルマネージド
- クラスターのプロビジョニング、設定、スケーリングを自動化
-
スケーラブル
- 数ノードから数千ノードまで動的に拡張/縮小
-
コスト効率
- スポットインスタンスを利用し、コストを大幅削減可能
- EMR Serverless(オンデマンドでジョブ実行、インフラ管理不要)も利用可能
-
ストレージ統合
- S3をデータレイクとして利用(HDFSの代替)
- EBS、EMRFS(S3への透過アクセス)、Glue Data Catalogとも統合
ユースケース
- ビッグデータ分析(ログ解析、Webクリック分析など)
- 機械学習前処理(Spark MLlib, TensorFlow連携)
- データETL(抽出・変換・ロード)
- レコメンデーション、金融リスク分析
アーキテクチャの考え方
- コンピュート層:EC2インスタンス(またはEMR Serverless)
- ストレージ層:S3を利用(HDFSより安価 & 耐久性)
- データカタログ:AWS Glue Data Catalogと統合してメタデータ管理
ポイント
-
オンプレHadoopの代替 → EMR
-
S3をストレージに使う → 安価で拡張性大
-
EMR Serverless = インフラ管理不要でジョブ単位実行
-
スポットインスタンスでコスト最適化可能
-
他のサービスとの使い分け:
- Athena → サーバレスでSQLクエリ(簡易・アドホック分析)
- Redshift → DWH(構造化データ中心、BI向け)
- EMR → 複雑な分散処理(Spark, Hadoopなど)