はじめに
DynamoDBのデータをAthenaで分析したい、という話です。
基本的には以下の記事の内容そのままですが、一部そのままだと使いにくい部分があるので補足しています。
新機能 – Amazon DynamoDB テーブルデータを Amazon S3 のデータレイクにエクスポート。コードの記述は不要
DynamoDBのデータをS3にエクスポートする
まず、DynamoDBのデータをS3に保存します。
Athenaから直接DynamoDBにつなぐ方法もありますが、DynamoDBのキャパシティを消費するので今回は候補から除外しました。
Amazon Athena DynamoDB コネクタ
DynamoDBデータをS3に保存するためにはS3エクスポートの機能を使います。
「S3へのエクスポート」をクリックします。
テーブルにPITRを有効化する必要があるため、「PITRの有効化」をクリックします。
保存先のS3バケットを選択して「エクスポート」をクリックします。
エクスポートが完了すると以下のような構成でS3にファイルが保存されます。
対象とするデータは「data/」に保存されます。
Athena分析用にGlueの設定を実施する
AWS Glueの「クローラ」を選択し、「クローラの追加」をクリックします。
今回はクローラがテーブルを作成する構成のため、以下の画像の設定で「次へ」をクリックします。
データストアの追加では対象とするS3バケットを選択し、エクスクルードパターンには以下のように設定します。
クローラの出力はデフォルトのままで「次へ」をクリックします。
クローラができたら、選択して「クローラの実行」をクリックします。
Athenaでデータを検索する
前述のクローラの実行でAthena側に一つ新規テーブルが作成されていると思います。
S3に出力されるデータ形式がDynamoDB JSONのため、クエリ形式は少し工夫する必要があります。
SELECT Item.Id.S as id, Item.name.S as name, Item.age.N FROM "default"."athena_sample_12345" where limit 10;
再度S3エクスポートを実施してS3には以下のようにデータが保存されているとします。
パーティションが設定されているので、partition_1で検索すると検索対象のデータ数が半分になっていることが確認できます。
※Athenaは検索対象のデータ量に応じて課金されるため、パーティションをうまく利用することで料金を押させることができます。
Step Functionsで自動化する
今回の一連の作業を自動化してみたいと思います。
一連の流れを整理すると以下になります。
- 対象のS3バケット内のデータを空にする
- DB内のデータが重複してS3に保存されるのを避けるため
- DynamoDBのS3エクスポートでデータをS3に出力する
- Glueのクローラを実行する
今回の入力値としては以下のようになります。
複数テーブルに対応できるようにしてみました。
※今回は検証のため同じテーブルのデータを別のS3のディレクトリに出力するようにしています。
Athenaでデータ検索すると以下のようになります。
しっかりパーティションも設定されているのでテーブルデータごとの検索もできますね。
まとめ
DynamoDBのテーブルをS3に保存してS3に保存されている他のデータを組み合わせて分析したい、というユースケースは結構あるかと思います。
今回はマネジメントサービスのみを使ってノーコードで実装してみました。
もちろん、Lambdaなどを作っても同じようなことはできるかと思いますが、ノーコードでの実装だとLambdaの実装になれていない人でも簡単に分析基盤を作れそう、というのは理解頂けたのかなと思います。