More than 1 year has passed since last update.

AWS SAA備忘録記事⑦〜データベースとデータ分析サービス〜

Last updated at 2025-04-24Posted at 2025-03-13

はじめに

本記事では、NoSQLデータベースサービスのDynamoDBとデータウェアハウスサービスのRedshift等について解説します。

DynamoDBは、フルマネージドのNoSQLデータベースサービスで、高速かつ予測可能なパフォーマンスを提供する。

DynamoDBテーブル内のデータ更新イベントをキャプチャする機能。
データ項目の追加・変更・削除の発生時に、その履歴を保持し、それをトリガーにしてLambda関数などを実行できる。

[トランザクションデータ] → DynamoDBテーブル → DynamoDBストリーム → Lambda関数 → 他のアプリケーションと共有

DynamoDBテーブルへの書き込みなどのトランザクション発生時に特定の処理を実行させることができる機能。
1つのオペレーションとして複数の項目の追加、更新、または削除が必要となる複雑なビジネスワークフローを管理できる。

DynamoDB専用のインメモリ型のキャッシュクラスタを追加して、レスポンスをミリ秒単位からマイクロ秒単位まで高速化する機能。

クエリ処理の柔軟性を高めるための機能。
特定の属性に基づいて効率的に検索を行いたい場合に使用する。

大規模なデータウェアハウス向けに設計された、ペタバイト規模のデータを高速に分析できるマネージドサービス。

S3バケット上に保存されたファイルに対して直接、高度なクエリ処理を実行可能。S3バケットをRedShiftの解析用のデータレイクとして構成することができる。ビッグデータ解析などの高負荷な大量データ解析を実現する。

オンプレミスとAWSストレージサービス間のデータ移動を自動化するサービス。
ユースケースとしては、オンプレミスのNFSファイルシステムなどをAmazon EFSに移行する際に使用。

AWSサービス間のデータ転送や変換処理に利用されるサービス。
AWSサービス間のデータ転送や変換処理を自動化するマネージドサービス。

ストリームデータを取得・変換する際には利用できない。
（代わりにAmazon Kinesisを使用）

大量のデータを処理することができるサービス。Hadoop、Spark、HiveなどのビッグデータフレームワークをAWS上で簡単に実行できる。
ユースケースとしては、トランザクションデータを処理して、データをDynamoDBテーブルに保存する

リアルタイムデータ解析を実施する場合はAmazon KinesisシリーズまたはAmazon EMRを利用することが最適。
Amazon EMRによりApache Spark Streamingを構成することで、Kinesis Data Streamsからのデータを処理できる。

毎日1TB以上のデータを処理するような大規模なデータ分析プラットフォームに適している。