SAA対策の自分用のメモ。
7/13にSAA合格
SOA対策の自分用のメモ。
どんどん更新して加筆修正していく予定。
Kinesis
大量のストリーミングの収集処理を行う。IoTなどからのリアルタイムデータを分析。
Kinesis Data Streams
ストリーミングデータをリアルタイムで保存。EMRやLambdaで処理させる。
DBの負荷分散のため、大量のデータをシャードという単位で分割し、複数ノードで並列処理を行う。
シャードは時間あたりの処理数に制限あり。シャード数を増やすことでストリームデータの並列処理ができ、効率よくストリーミングできる。
Kinesis Data Firehose
データ蓄積に向けてデータ変換や別サービスへの配信を行う。ストリーミングデータをデータレイクやデータストア、分析ツールにロード。ストリーミングデータをキャプチャして変換し、Amazon S3、Amazon Redshift、Amazon Elasticsearch Service、Splunk にロードして、BIツールでほぼリアルタイムに分析可能
Kinesis Data Analytics
ストリーミングデータに対してSQLクエリを投げてリアルタイム分析が可能。DBにデータを移すことなく分析可能。
Kinesis Video Streams
ビデオストリームを取り込み、アプリによって動画を解析できるようにする。防犯カメラとか。
EMR(Elastic MapReduce)
Hadoopのマネージドサービス。Hadoopとは、大量のデータを処理する分散処理フレームワーク。(非)構造データを変換する。
Data Pipeline
DBからデータの**取り出し(Extract)、変換(Transform)、保存(Load)**の順次処理を行う。
Glue
ETLとデータカタログのマネージドサービス。
データカタログとは、メタデータを集中管理するもの。
データレイクであるS3に保存されたデータ構造をRedshift用に変換する。
Athena
S3データにテーブルを作成し、直接SQLを投げる。
QuickSight
BIツール。
RedshiftやAthena、S3などと接続。