More than 1 year has passed since last update.

【個人用】AWS Solution Architect Associate対策ノート(分析編)

Last updated at 2025-02-10Posted at 2025-01-14

扱う内容

・Kinesis
・EMR
・Glue
・Athena
・Data Pipeline

・ビッグデータの分析や処理を行うサービス

・ビッグデータ処理用のフレームワークであるHadoopやSparkを用いている

・３つのノードを持ち、分散処理を行う

・データの保存先にはHDFSとEMRFSいうファイルシステムを利用する。HDFSはEMRクラスター終了時にデータが吹っ飛ぶが、EMRFSはデータが永遠に保存される

・複数のデータソース(S3やDynamoDB)からデータを抽出し、変換・統合したデータをターゲット(Redshiftやオンプレミスなど)に渡すという、データ分析における橋渡しの役割を果たす

・クローラーがデータソースからデータを抽出し、まとまりであるデータカタログを作成する

・データカタログを基に、ETLエンジンがデータソースからデータを抽出し、ターゲットに渡す

・データカタログは。EMRやAthenaなどの分析サービスからも参照できる

・サーバーレスである

・あらかじめCSVやJSONなどのデータを基にテーブルを作成することで、クエリを実行できるようになる

S3からDynamoDBへのデータ取り込みなど、データの移動や変換を自動化するサービス
EC2インスタンスを移動して使うので、サーバーレスではない