はじめに
試験勉強した際のメモを自分用に記事化。
内容は公式やBlack Beltの写経ですので目新しいことはありません
Amazon EMR
EMRはビッグデータの解析などに使われるサービス。
HadoopやApache SparkなどのビッグデータフレームワークをAWS上で実行して、大量のデータを処理および分析プロセスを構築できるマネージド型のフレームワーク。
S3やDynamoDBのデータを解析できる。
なので、
S3 Glacierに保存したデータは解析できない。Glacierはデータをアーカイブして保存するためのストレージであるため。
S3 Selectでも同様のことはできるけど、大量のデータを解析する点でAmazon EMRに劣る。
Dynamoのデータを解析できるけど、アプリケーションのログファイルとかの大量のデータは不向き。Lambdaを使って解析するのも非効率。
ちなみにEC2インスタンスを利用して構成されるので、EC2のOSにアクセスが可能です。
EMRのコンポーネント
EMRの中心的なコンポーネントはクラスター。クラスターはEC2インスタンスのコレクションのことで、クラスター内の各インスタンスはノードと呼ばれる。
EMRはこのノード(EC2インスタンス)にソフトウェアコンポーネントをインストールすることで、Apache Hadoopなどの分散型アプリケーションでの役割を各ノードに付与する。
ノードの実態はEC2インスタンスなので、セットアップする際にオンデマンド・スポット・リザーブドインスタンスの選択が可能。
EMRを中長期的に使うか、短期的に使うのかでコストを意識した選択ができる。
おわりに
引き続き追記します!
以上です。