こいつに入門します。
シンプルなサービスのため今回の記事も簡素です。
一言でいうと?
S3のデータをSQLで検索できるマネージドサービスです。
- 分散型SQLクエリエンジンのOSS「Presto」がベース
- CSV、JSONをはじめ様々なフォーマットのデータソースに対応
※また最近、Pythonを使ってSparkによるデータ分析も行えるようになりました。
主な機能
クエリエディタ
Athenaのメイン機能。データソースに対してSQLを記述して実行できます。
クエリを保存して再利用したり、実行履歴から再度実行することもできます。
データソースにはS3やDynamoDBをはじめ、様々なAWSサービスから選べます。
S3の場合はAWS GlueのデータカタログやApache Hiveなど複数の形式が利用できます。
ノートブックエディタ
Re:Invent 2022で発表された新機能。
いわゆるノートブック形式でApache Sparkのコーディングおよびアプリケーション実行ができます。
その他の便利機能
ワークグループ
ユーザーごとにAthenaの利用状況を分けて管理したり、利用制限を行うことができます。
料金
スキャンしたデータ量に応じて課金されます。
ハンズオン
なぜか部分的に翻訳前の原文が残っていたりしますがご愛嬌。
結構古いですがこちらは完全な日本語版です。