More than 3 years have passed since last update.

ソリューションアーキテクト対策_EMR篇

Last updated at 2022-09-20Posted at 2022-09-20

はじめに

試験勉強した際のメモを自分用に記事化。
内容は公式やBlack Beltの写経ですので目新しいことはありません

Amazon EMR

EMRはビッグデータの解析などに使われるサービス。
HadoopやApache SparkなどのビッグデータフレームワークをAWS上で実行して、大量のデータを処理および分析プロセスを構築できるマネージド型のフレームワーク。
S3やDynamoDBのデータを解析できる。

なので、
S3 Glacierに保存したデータは解析できない。Glacierはデータをアーカイブして保存するためのストレージであるため。
S3 Selectでも同様のことはできるけど、大量のデータを解析する点でAmazon EMRに劣る。
Dynamoのデータを解析できるけど、アプリケーションのログファイルとかの大量のデータは不向き。Lambdaを使って解析するのも非効率。

ちなみにEC2インスタンスを利用して構成されるので、EC2のOSにアクセスが可能です。

EMRのコンポーネント

EMRの中心的なコンポーネントはクラスター。クラスターはEC2インスタンスのコレクションのことで、クラスター内の各インスタンスはノードと呼ばれる。
EMRはこのノード(EC2インスタンス)にソフトウェアコンポーネントをインストールすることで、Apache　Hadoopなどの分散型アプリケーションでの役割を各ノードに付与する。

ノードの実態はEC2インスタンスなので、セットアップする際にオンデマンド・スポット・リザーブドインスタンスの選択が可能。
EMRを中長期的に使うか、短期的に使うのかでコストを意識した選択ができる。

おわりに

引き続き追記します！
以上です。

You get articles that match your needs
You can efficiently read back useful information
You can use dark theme

What you can do with signing up