はじめに
Amazon EMRを勉強するためにBlack Belt Online Seminerを視聴したので内容をまとめます。
背景
本記事はAWSソリューションアーキテクトプロフェッショナルに合格するために、Udemyの模擬試験を解いて分からなかった部分を勉強してまとめるものです。
試験対策用のため、分からない知識を補足したり試験で問われなさそうなところを省略したりしながらまとめています。
なるべくわかりやすい記載を心がけますが、最終目的は自己学習用であるということをご容赦ください。
Amazon EMR
- クラウドを利用したマネージドなHadoopとApark
- 最新のエコシステムに対応。
- 必要なオープンソースのサービスをEMRにインストールして使用する。
- S3に保存されたデータを分析する。
構成図
ネットワーク
- プライベートサブネットに配置する場合はS3にはエンドポイントから、外部へはNATゲートウェイを利用する。
- パブリックサブネットの場合はinternet gatesayを利用してアクセスする。
EMRノード
- マスターノード:クラスターを管理し分散アプリケーションのマスターコンポーネントを実行する
- コアノード:Hadoop Distributed File System (HDFS)の一部としてデータストレージを調整する
- タスクノード:データに対して並列計算タスクを実行するためのパワーを追加するオプション機能。HDFSでデータを保存しない。スポットインスタンスが使われる。
他のAWSサービスとの統合
- IAMロールによりKinesis、DynamoDB、Redshift等との読み書きの通信が可能。
- LambdaからEMRクラスタを起動することも可能。
用語集
- HDFS:Apache Hadoop向けの分散ファイルシステム。EBSが使用される。
- EMRFS:HDFSと同様にデータを保存するが、S3が使用される。
- Hadoop:分散処理のフレームワーク。大規模処理に使う。
- Spark:分散処理のフレームワーク。メモリでの高速処理に使う。
- Apache Hive:Hadoop上のDWH構築環境。
- S3DistCp:大量のデータをコピーするときに使用するツール。