勉強前イメージ
DB的なもののイメージではある
調査
Amazon EMR とは
Elastic MapReduce の略で大量のデータを迅速に効率よく処理するためのサービスです。
ビッグデータフレームワーク(Hadoop、Spark)の構築や運用、また分散アプリケーションの実行を行ってくれます
- そもそもHadoopとは?
巨大なデータを処理するため、アプリケーションの実行をハードウェアのクラスター上で行う
オープンソースのソフトウェアフレームワークです。
EMRの特徴
- 伸縮自在
オンプレのクラスタのような伸縮性の低いインフラとはおこなり、
EMRのコンピューティングとストレージは分離されているため、
スケーリングができます。
- 安全性
EMRではインスタンスへのアクセスは自動的に制御されており、またKMSを使用して暗号化を行うことが可能です
伝送中の暗号化や保管時の暗号化、強力な認証など暗号化オプションも簡単に利用できます
- 信頼性
EMRはクラウド向けに調整されており、パフォーマンスの低いインスタンスは自動的に置き換わります。
それによりクラスター内の可用性が高まり、安定してリリースできるため環境の維持に力を使うことが少なくなります
用語の確認
- クラスター
EC2インスタンスの塊のことを指し、クラスター内の各インスタンスはノードと呼ばれます。
ノードはEMR用のデフォルトAMIとカスタムAMIを選べます。
- マスターノード
クラスター内のまとめ役で、ノード間のデータや分散したタスクを管理するノード。
最小構成では、マスターノードだけでも可能
- コアノード
タスクを実行するHDFSにデータを保存するノード
- タスクノード
タスクを実行するだけでデータの保存する機能はないノード
勉強後イメージ
hadoopをAWSで動かせるのか・・・
なんとなくイメージはわかったけど、Dynamoとかと何が違うんだろう
次まとめてみよう