【SQLで簡単ビッグデータ分析】Amazon Athenaとは?
「大量のログをSQLでさくっと分析したい」
「ETLやサーバー管理は面倒…」
そんなあなたにおすすめなのが Amazon Athena です。
🔸 Amazon Athenaとは?
Amazon Athena は、AWSが提供するサーバーレスのインタラクティブクエリサービスです。
S3に保存されたCSVやJSON、Parquetなどのデータを、SQLを使って直接分析できます。
- サーバー構築不要
- クエリ実行ごとの従量課金($5/TBスキャン)
- Presto(現Trino)ベースの標準SQL対応
🔸 主なユースケース
ユースケース | 説明 |
---|---|
ログ分析 | ELBやCloudFrontなどのアクセスログを直接分析 |
IoTデータの可視化 | センサーデータを定期的にS3へ保存し、SQLで集計 |
BIツールとの連携 | QuickSightやTableauと連携してダッシュボード作成 |
データレイクアーキテクチャ | Glueと組み合わせて、ETLレスな分析基盤を構築 |
🔸 実行例(クエリ)
SELECT user_id, COUNT(*) AS access_count
FROM logs
WHERE status = '200'
GROUP BY user_id
ORDER BY access_count DESC
LIMIT 10;
上記のようなクエリを、S3のデータに直接実行できます。
🔸 Athenaのメリット
- ✅ サーバーレスで簡単導入、すぐ使える
- ✅ S3にあるデータをそのままクエリ
- ✅ コスト効率が高い(スキャン量ベース課金)
- ✅ SQLベースなので、学習コストが低い
🔸 使用時のベストプラクティス
- ParquetやORCなど列指向フォーマットで保存すると高速&低コスト
- Glue Data Catalogと連携すればスキーマ管理も可能
- クエリ結果は自動的にS3に保存される(保存先は設定可)
🔸 まとめ
Athenaは、S3のデータをSQLで簡単に分析できる強力なサービスです。
分析基盤の初期構築コストを大幅に削減できるため、ログ解析やIoTデータ分析、データレイク設計において非常に有効です。
まずは無料枠で試してみるのがおすすめです!
🔗 公式リンク
📘 AWS関連のQiita投稿も今後していく予定です。ぜひフォロー&いいねお待ちしています!