0
0

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?

【SAS対策】Amazon EMR(Elastic MapReduce)

Posted at

概要

  • マネージドなビッグデータ分析基盤
  • Apache Hadoop / Spark / Hive / Presto / HBase などのフレームワークを簡単にAWS上で実行可能
  • 数百〜数千台のノードにスケールアウトして大規模データ処理ができる
  • オンプレのHadoopクラスターをAWSに移行したい場合にもよく利用

特徴

  1. フルマネージド

    • クラスターのプロビジョニング、設定、スケーリングを自動化
  2. スケーラブル

    • 数ノードから数千ノードまで動的に拡張/縮小
  3. コスト効率

    • スポットインスタンスを利用し、コストを大幅削減可能
    • EMR Serverless(オンデマンドでジョブ実行、インフラ管理不要)も利用可能
  4. ストレージ統合

    • S3をデータレイクとして利用(HDFSの代替)
    • EBS、EMRFS(S3への透過アクセス)、Glue Data Catalogとも統合

ユースケース

  • ビッグデータ分析(ログ解析、Webクリック分析など)
  • 機械学習前処理(Spark MLlib, TensorFlow連携)
  • データETL(抽出・変換・ロード)
  • レコメンデーション、金融リスク分析

アーキテクチャの考え方

  • コンピュート層:EC2インスタンス(またはEMR Serverless)
  • ストレージ層:S3を利用(HDFSより安価 & 耐久性)
  • データカタログ:AWS Glue Data Catalogと統合してメタデータ管理

ポイント

  • オンプレHadoopの代替 → EMR

  • S3をストレージに使う → 安価で拡張性大

  • EMR Serverless = インフラ管理不要でジョブ単位実行

  • スポットインスタンスでコスト最適化可能

  • 他のサービスとの使い分け:

    • Athena → サーバレスでSQLクエリ(簡易・アドホック分析)
    • Redshift → DWH(構造化データ中心、BI向け)
    • EMR → 複雑な分散処理(Spark, Hadoopなど)
0
0
0

Register as a new user and use Qiita more conveniently

  1. You get articles that match your needs
  2. You can efficiently read back useful information
  3. You can use dark theme
What you can do with signing up
0
0

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?