LoginSignup
0
1

More than 1 year has passed since last update.

ソリューションアーキテクト対策_EMR篇

Last updated at Posted at 2022-09-20

はじめに

試験勉強した際のメモを自分用に記事化。
内容は公式やBlack Beltの写経ですので目新しいことはありません:pray:

Amazon EMR

EMRはビッグデータの解析などに使われるサービス。
HadoopやApache SparkなどのビッグデータフレームワークをAWS上で実行して、大量のデータを処理および分析プロセスを構築できるマネージド型のフレームワーク。
S3やDynamoDBのデータを解析できる。

なので、
S3 Glacierに保存したデータは解析できない。Glacierはデータをアーカイブして保存するためのストレージであるため。
S3 Selectでも同様のことはできるけど、大量のデータを解析する点でAmazon EMRに劣る。
Dynamoのデータを解析できるけど、アプリケーションのログファイルとかの大量のデータは不向き。Lambdaを使って解析するのも非効率。

ちなみにEC2インスタンスを利用して構成されるので、EC2のOSにアクセスが可能です。

EMRのコンポーネント

EMRの中心的なコンポーネントはクラスター。クラスターはEC2インスタンスのコレクションのことで、クラスター内の各インスタンスはノードと呼ばれる。
EMRはこのノード(EC2インスタンス)にソフトウェアコンポーネントをインストールすることで、Apache Hadoopなどの分散型アプリケーションでの役割を各ノードに付与する。

ノードの実態はEC2インスタンスなので、セットアップする際にオンデマンド・スポット・リザーブドインスタンスの選択が可能。
EMRを中長期的に使うか、短期的に使うのかでコストを意識した選択ができる。

おわりに

引き続き追記します!
以上です。

0
1
0

Register as a new user and use Qiita more conveniently

  1. You get articles that match your needs
  2. You can efficiently read back useful information
  3. You can use dark theme
What you can do with signing up
0
1