こんにちは。miyoshiです。
AWSでは、データの収集・処理・分析・可視化までを支える「Analytics(分析)」サービスが用意されています。
この記事では、それらを3つのステージに分けて体系的に学びます!
🧭 全体像:3つのステージでデータを扱う
Collection(データの収集)
Process(データの加工・変換)
Analysis & Visualization(分析・可視化)
この流れで、IoTやログ、ECサイトのデータなどをリアルタイムに扱えるようになります。
📦 1. Collection(データの収集)
🔹 Amazon Kinesis
- リアルタイムでデータを収集・ストリーミング配信
- ログ、クリックデータ、IoTデータなどを即時取り込み
- モジュール構成:
- Kinesis Data Streams:データを一時保管
- Kinesis Data Firehose:S3やRedshiftなどに自動送信
- Kinesis Data Analytics:リアルタイム分析
🔹 Amazon MSK(Managed Streaming for Apache Kafka)
- Kafka互換のマネージドストリーミングサービス
- 既存のKafkaワークロードをAWSに安全に移行可能
- 大規模分散環境に向く、柔軟かつ高機能
🔧 2. Process(処理・変換)
🔸 AWS Glue
- ETL(抽出・変換・ロード)処理の自動化サービス
- PySparkライクなコードで処理ロジックを記述
- メタデータカタログ(Glue Data Catalog)でテーブル定義を管理
- S3、RDS、Redshift、Athenaなどと連携
🔸 Amazon EMR(Elastic MapReduce)
- Hadoop・Sparkベースのビッグデータ処理クラスタ
- 巨大なログデータや機械学習に最適
- クラスタ制御に柔軟性があり、コストを抑えた処理が可能
📊 3. Analysis & Visualization(分析・可視化)
🔹 Amazon Athena
- S3上のデータを直接SQLクエリできるサービス
- 完全サーバレス、クエリ実行ごとに課金
- Glue Data Catalog と連携してメタデータ管理
- データレイクアーキテクチャと抜群の相性!
🔹 Amazon OpenSearch Service(旧Elasticsearch Service)
- ログやイベントデータの全文検索・可視化
- Kibanaベースのダッシュボードが利用可能
- CloudWatch Logsやアプリログとの組み合わせが◎
🔹 Amazon QuickSight
- AWS純正のBIツール(ビジュアル分析)
- Excel、Redshift、Athenaなどに接続してグラフ化
- ダッシュボード共有や権限管理も可能
- サーバレスでスケーラブル
✅ 全体フロー図
[ Kinesis / MSK ]
↓
[ Glue / EMR ]
↓
[ Athena / OpenSearch / QuickSight ]
🧠 まとめ
ステージ | サービス | 役割 |
---|---|---|
Collection | Kinesis / MSK | リアルタイムデータの収集 |
Process | Glue / EMR | データの加工・変換・ETL |
Analysis & Visualization | Athena / OpenSearch / QuickSight | クエリ分析、ログ検索、可視化 |
📌 学習ポイント(クラウドプラクティショナー試験向け)
- Kinesis:リアルタイムストリーミング処理
- Glue:ETL処理の自動化
- Athena:S3上のデータをSQLで分析
- QuickSight:グラフ・ダッシュボード作成
- EMR:Hadoopベースの大規模処理
💬 補足:データレイクって何?
データをそのまま保存し、あとで分析する考え方。S3を中心に構成されることが多く、Athena・Glueと非常に相性が良い。
この記事が、AWSのAnalyticsサービスの全体像をつかむ助けになれば幸いです📊✨