Amazon Athena とは
re:Invent で今日発表された Amazon Athena。
S3 に配置されたデータをSQLライクな命令で検索できるというもの。
さながら Amazon版 BigQuery といった風合いで、なかなか興味深かったので早速試してみました。
料金について
いちばん大事なやつですね。
Price Per Query
$5 per TB of data scanned.
というわけで、1TBのデータスキャンあたり 5ドルかかるようです。
おっと、怪しい記述があるぞ。
You are charged standard S3 rates for storage, requests, and data transfer. By default, query results are stored in an S3 bucket of your choice and are also billed at standard Amazon S3 rates.
ということなので、標準のS3の利用料金もかかるようです。
Athena が裏でGETリクエストを発行したりデータ転送したりしますが、それは標準のS3のレートで計算されますよ。と。
リージョンについて
今は N.Virginia にのみデプロイされているようで、Oregon その他。と展開してくようです。
データセットの配置について
N.Virginia にのみデプロイされている。ということですが
データセットのリージョンはどこにあってもいいようです。
ただし、クエリの実行時間が増加し、リージョンが異なるのでデータ転送に課金されます。(同一リージョンの場合は課金されないはずです)
Try It!
早速使ってみましょう。
データセットの準備
日本郵政のサイトで提供されている郵便番号データベースを使うことにしました
http://www.post.japanpost.jp/zipcode/dl/kogaki-zip.html
ここから各都道府県のcsvファイルを取得します。
全国版もありますが、Athena の使い心地を試すにも複数のファイルをスキャンさせたいので、今回はバラバラに取ってS3にアップロードします。
※ DLできるファイルは zip ですが、Athena は gzip しか食えないので変換してます
最初にテーブルを定義する必要があるようです。
テーブル名とか S3 のパスとかを聞かれますので、先程アップロードした内容を入力します。
お前が指定した場所にあるファイルはなんだ?と聞かれるので、CSV だよ。って書きます。
各カラムに名前と型をつけろ。と言ってくるので適当に設定します。
パーティションを設定しろ と言われます。
どうやら、パーティションというのは データセットの下にさらに YYYY-MM-DD/ みたいに日付で掘ってデータを置いておくことで
スキャン時に余分なデータを検索させないような仕組みっぽいです。
スキャン容量課金なので BigQuery と同じようなノウハウが生きてきますね。
というわけで、完了!うおー。文字化けしてるうううう。
CSV ファイルは Shift JIS なのが悪いようです。UTF-8 にしてアップロードし直しましょう。
いえーい。これでデータセットの準備が整いました。
あっ…カラムがずれてる(お約束
おまけ:カラム定義の変更
できないっぽいので、一旦テーブルをドロップしましょう。
…おわらない!初日なんてそんなもんさ!
クエリを発行
3秒ほどで返ってきました。BigQuery と同じような感じかな。もっとでかいデータで試さないとわからないけど。
CSV が " でエスケープされてても、Athena はいい感じにしてくれないみたいなので、注意が必要そう。