AWS Data Exchange
「データを自分で集めるのは大変だから、信頼できる人が作ったデータをすぐ使える形で買える直売所」
要するに、AWS上で外部データ(有料/無料)を購入・購読できるマーケットプレイス
用途
株価、位置情報、天候、企業データなどを
→ S3 / Redshift / Lake Formation に直接連携
ポイントは
- データの取得・更新はAWSが管理
- ETLではなく「データ調達」のサービス
AWS Data Exchangeの基本
-
コンシューマ
→ 自分のような利用者(AWSアカウント) -
何ができるか
→ 外部データ(金融・気象・地理など)を購入・取得できる -
データの置き場所
→ 購入後、指定した自分のS3バケットにエクスポート -
使い方
→ S3上のデータをAthena / Glue / SageMakerなどで自由に利用
料金・購入形態
Data Exchange全体で定額ではなく、データプロダクト単位で課金。
月額サブスクリプションが多いが無料データも存在している。
サブスク中は
→ そのデータプロダクト内のデータは使い放題(再配布は禁止)
利用イメージ
🧑「札幌市の気象データを使って農業に役立てたいんだけど、質の良いデータないかな?」
🐐「それならAWS Data Exchangeで、気象データのデータプロダクトを検索するメェー。」
🧑「検索したら、次は?」
🐐「対象地域が札幌市なのか、更新頻度は毎日なのか毎時なのか、料金はいくらかを確認するメェー。」
🧑「条件が良さそうなら?」
🐐「サブスクするメェー。
すると、指定したS3バケットにデータをエクスポートできるようになるメェー。」
🧑「サブスクしたら、気象データって勝手にずっと S3 に送られてくる?」
🐐「それは違うメェー。常時リアルタイムで流れ続けるわけじゃないメェー。」
🧑「じゃあ更新はどうやって受け取るの?」
🐐「データプロバイダが新しいリビジョンを公開すると、そのリビジョンをエクスポートできるメェー。」
🧑「自動でS3に入ることもある?」
🐐「データプロダクトによるメェー。
新リビジョン公開時に自動でS3に配信される設定が用意されている場合もあるメェー。」
🧑「つまり?」
🐐「サブスクしただけで常時配信 ❌
新しいリビジョンが出たら取得できる ✅
これが正解メェー。」
まとめ
AWS Data Exchange は、世界中のデータプロバイダが提供する多様なデータセットを、マーケットプレイス上で発見・サブスクライブし、利用できるサービス。顧客は「データを配ってもらう権利をサブスクする」形でデータ製品を購読し、取得したデータを Amazon S3 に出力して分析や機械学習などに活用できる。