0
0

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?

More than 1 year has passed since last update.

【SAP-C01試験対策】Amazon EMRのBlack Belt を文章でまとめてみた

Posted at

はじめに

Amazon EMRを勉強するためにBlack Belt Online Seminerを視聴したので内容をまとめます。

背景

本記事はAWSソリューションアーキテクトプロフェッショナルに合格するために、Udemyの模擬試験を解いて分からなかった部分を勉強してまとめるものです。

試験対策用のため、分からない知識を補足したり試験で問われなさそうなところを省略したりしながらまとめています。
なるべくわかりやすい記載を心がけますが、最終目的は自己学習用であるということをご容赦ください。

Amazon EMR

  • クラウドを利用したマネージドなHadoopとApark
  • 最新のエコシステムに対応。
  • 必要なオープンソースのサービスをEMRにインストールして使用する。
  • S3に保存されたデータを分析する。

構成図

ネットワーク

image.png

  • プライベートサブネットに配置する場合はS3にはエンドポイントから、外部へはNATゲートウェイを利用する。
  • パブリックサブネットの場合はinternet gatesayを利用してアクセスする。

EMRノード

image.png

  • マスターノード:クラスターを管理し分散アプリケーションのマスターコンポーネントを実行する
  • コアノード:Hadoop Distributed File System (HDFS)の一部としてデータストレージを調整する
  • タスクノード:データに対して並列計算タスクを実行するためのパワーを追加するオプション機能。HDFSでデータを保存しない。スポットインスタンスが使われる。

他のAWSサービスとの統合

image.png

  • IAMロールによりKinesis、DynamoDB、Redshift等との読み書きの通信が可能。
  • LambdaからEMRクラスタを起動することも可能。

用語集

  • HDFS:Apache Hadoop向けの分散ファイルシステム。EBSが使用される。
  • EMRFS:HDFSと同様にデータを保存するが、S3が使用される。
  • Hadoop:分散処理のフレームワーク。大規模処理に使う。
  • Spark:分散処理のフレームワーク。メモリでの高速処理に使う。
  • Apache Hive:Hadoop上のDWH構築環境。
  • S3DistCp:大量のデータをコピーするときに使用するツール。
0
0
0

Register as a new user and use Qiita more conveniently

  1. You get articles that match your needs
  2. You can efficiently read back useful information
  3. You can use dark theme
What you can do with signing up
0
0

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?