背景・目的
しばらく前ですが、AWS Clean Roomsが一般提供となりました。
以前から気になっていたので、基本の整理と試してみました。
まとめ
- Clean Roomsは、互いのアカウントデータを明らかにすることなく、新しいインサイトを得ることが出来る。
- 参加者の選定、データを移動せずに共有させる。
- SQLクエリや出力を制限する分析ルールや暗号が備わっている。
- 料金は、CRPUという単位で最低1分単位で課金される。
概要
AWSドキュメントのAWS Clean Rooms の概要をもとに整理します。
AWS Clean Rooms基盤となるデータを互いに明らかにすることなく、パートナーと共同で新しい洞察を得ることができます。を使用するとAWS Clean Rooms、数分で独自のクリーンルームを作成でき、ほんの数ステップで集合データセットの分析を開始できます。コラボレーションするパートナーを選択したり、パートナーのデータセットを選択したり、参加者に制限を設定したりできます。
AWS Clean Roomsを使用すると、AWSをすでに使用している何千もの企業とコラボレーションできます。コラボレーションでは、AWSデータを別のプラットフォームから移動したり、別のプラットフォームに読み込んだりする必要はありません。クエリを実行すると、AWS Clean Rooms元の場所からデータを読み取り、組み込みの分析ルールを適用して、データを管理しやすくなります。
AWS Clean Roomsには、設定可能なデータアクセス制御と監査サポート制御が組み込まれています。これらのコントロールには以下が含まれます。
・ SQL クエリを制限し、出力制限を設ける分析ルール
・Clean Rooms厳しいデータ処理ポリシーに準拠するために、クエリが処理されている間もデータを暗号化しておくための暗号コンピューティング
・クエリを確認して監査に役立つクエリログ
まとめると、下記の特徴があるようです。
- データを互いに明らかにせずに、パートナーと共同(共有)できる。
- パートナーの選択、及びパートナーのデータセットを選択、参加者の制限が可能
- データの移動することなく、共有することが可能。
- アクセス制御と監査制御が可能。
- SQLクエリや出力を制限する分析ルール
- 暗号化
AWS Clean Roomsのコンセプト
コラボレーション
| 概念 | 定義 |
|---|---|
| コラボレーション | ・メンバーが構成されたテーブルに対して SQL クエリを実行できる、AWS Clean Room の安全な論理境界。 ・コラボレーションはコラボレーション作成者によって作成されます。 ・コラボレーションに招待されたメンバーのみがコラボレーションに参加できます。 ・コラボレーションには、データをクエリして結果を受け取ることができるメンバーは 1 人だけです。 ・すべてのメンバーは、コラボレーションに参加する前に、コラボレーションに招待された参加者のリストを見ることができます。 |
メンバー
| 概念 | 定義 |
|---|---|
| メンバー | ・コラボレーションに参加している AWS の顧客。 ・メンバーは AWS アカウントを使用して識別されます。 ・すべてのメンバーがデータを投稿できます。 |
| メンバーシップ | ・メンバーがコラボレーションに参加すると作成されるリソース。 ・メンバーがコラボレーションに関連付けるすべてのリソースは、メンバーシップの一部であるか、メンバーシップに関連付けられています。 ・メンバーシップを所有するメンバーのみが、そのメンバーシップ内のリソースを追加、削除、または編集できます。 |
| コラボレーションクリエーター | ・コラボレーションを作成するメンバー。 ・コラボレーション作成者は 1 つのコラボレーションにつき 1 人だけです。 ・コラボレーションからメンバーを削除したり、コラボレーションを削除したりできるのは、コラボレーションの作成者だけです。 |
| クエリできるメンバー | ・コラボレーション内のデータをクエリできるメンバー。 ・コラボレーションごとにクエリを実行して結果を受け取ることができるメンバーは 1 人だけで、そのメンバーは変更できません。 ・管理者ユーザーは AWS Identity and Access Management (IAM) 権限を使用して、どのIAMプリンシパル (ユーザーやロールなど) がコラボレーション内のデータをクエリできるかを制御できます。 クエリできるメンバーは、結果を受け取ることができるメンバーと同じでなければなりません。 |
| 結果を受け取ることが出来るメンバー | ・クエリ結果を受け取ることができるメンバー。 ・現在、結果を受け取ることができるメンバーは、クエリできるメンバーと同じでなければなりません。 |
分析ルール
| 概念 | 定義 |
|---|---|
| 分析ルール | 特定のタイプのクエリを許可するクエリ制限。 分析ルールには、集約とリストがあります。 分析ルールのタイプによって、設定されたテーブルで実行できる分析の種類が決まります。各タイプには定義済みのクエリ構造があります。クエリコントロールを使用して、テーブル列を構造内でどのように使用できるかを制御します。 |
| 集約分析ルール | COUNT、SUM、または AVG 関数を使用してオプションのディメンションに沿って分析を集約するクエリを実行できます。これらのクエリでは、行レベルの情報は表示されません。 キャンペーン計画、メディアリーチ、頻度、コンバージョン測定などのユースケースをサポートします。 |
| リスト分析ルール | このテーブルとクエリを実行できるメンバーのテーブルとの重複について、行レベルの属性分析を出力するクエリを許可します。 エンリッチメントやオーディエンスの構築や抑制などのユースケースをサポートします。 |
- 分析ルールは、各データ所有者が設定したテーブルに設定するプライバシーを強化するコントロール
- 分析ルールは、構成されたテーブルで実行できるクエリのタイプと仕様を決定
- データを保護するには、コラボレーションで有効にするユースケースと制限するクエリを決定
- 分析ルールが設定されていない場合、設定したテーブルをコラボレーションに関連付けることはできますが、クエリはできない。
- 選択した分析ルールのタイプによって、設定されたテーブルで実行できるクエリのタイプが決まる。分析ルールのタイプは下記の2つがある。
- 集計分析ルール
- クエリを実行できるコラボレーションメンバーは、集計統計を取得するクエリを実行可能
- リスト分析ルール
- クエリを実行できるコラボレーションメンバーは、行レベルのリストを取得するクエリを実行可能
- クエリを実行できるメンバーは、分析ルールタイプが異なる複数のテーブルに対してクエリを実行することはできない。
- 集計分析ルール
設定済みテーブル
| 概念 | 定義 |
|---|---|
| 設定済みテーブル | 設定済みの各テーブルは、AWS Clean Roomsで使用するように設定されている既存のテーブルへの参照を表します。AWS Glue Data Catalog設定されたテーブルには、データの使用方法を決定する分析ルールが含まれています。 |
| 現在、AWS Glueでカタログ化された Amazon シンプルストレージサービス (Amazon S3) AWS Clean Rooms に保存されているデータの関連付けをサポートしています。 |
暗号コンピューティング
| 概念 | 定義 |
|---|---|
| 暗号化 | キーと呼ばれる秘密の値を使用して、データをランダムに見える形式にエンコードするプロセス。キーにアクセスしなければ、元のプレーンテキストを判別することはできません。 |
| 復号 | 暗号化されたデータを元の形式に戻すプロセス。復号化は、秘密鍵にアクセスできる場合にのみ実行できます。 |
| C3R 暗号化クライアント | The Cryptographic Computing for Clean Rooms(C3R) 。データの暗号化と復号化に使用されるC3Rは、コマンドラインインターフェイスを備えたクライアント側の暗号化SDKです。 |
| Fingerprint カラム | JOIN SQL コンストラクト用に暗号化保護されているカラム。 |
| Sealed カラム | SELECT SQL コンストラクト用に暗号化保護されているカラム。 |
| Cleartext カラム | JOIN または SELECT SQL 構文のどちらに対しても暗号化保護されていないカラム。 |
- C3Rにより、組織は機密データをまとめてデータ分析から新しい洞察を引き出すことができると同時に、その過程で学習できる内容を暗号的に制限できる。
料金
2023年8月時点の料金について整理しています。最新情報や正確な情報はこちらのドキュメントをご確認ください。
- Clean Roomでは、Clean Rooms Processing Unit (CRPU) と呼ばれる単位でコンピューティング能力を測定します。
- 実行したCRPU時間単位で1秒ごとに支払われます。(最低料金は60秒)
- 基本容量は、32CRPU
- AWSの無料利用枠があります。
- 集約、分析ルールは、最初の12ヶ月の9CRPU時間/月
- 実行したクエリのコンピューティング容量に対してのみ支払いが発生します。
- カスタム分析ルールでは、東京リージョンの場合、CRPU 時間あたり 2.63 ドルです。
実践
AWS Clean Roomsの仕組みを元に試してみます。
前提
S3にデータを用意する
下記のようなデータセットをS3バケットに配置します。(事前にS3バケットを作成しています。)
- ID
- 氏名
- 郵便番号
- 住所
- 電話番号
- 性別
- 生年月日
Glueでテーブルを作成する
AWS Clean Rooms でのコラボレーションの作成
- Clean Roomのナビゲーションペインで「コラボレーション」をクリックします。
- コラボレーション画面で、「コラボレーションを作成」をクリックします。
1. コラボレーションを定義する
-
下記を設定します。
-
メンバー能力には、クエリを実行して結果を受け取ることが出来るメンバーを選択します。ここでは招待したアカウントを指定します。

-
ここでは、クエリログ記録を有効化します。
-
暗号化コンピューティングを入力し、「次へ」をクリックします。
- クリアテキスト列を許可
- Yes:暗号化されたテーブルでは、クリアテキスト列が許可される。特定列に対してSUM、AVGを実行するためには列がクリアテキストである必要がある。
- No:暗号化されたテーブルではクリアテキスト列は許可されません。すべてのデータは暗号化されて保護されています。
- 重複を許可
- 名前の異なる列のJOINを許可
- 異なる名前を持つフィンガープリント列の結合するか
- NULL値を許可
- NULLがNULLエントリとして表示される
- クリアテキスト列を許可
2.メンバーシップ
-
下記を入力し、「次へ」をクリックします。
-
確認画面で「コラボレーションとメンバーシップを作成」をクリックします。
Invitationを受け入れる
-
招待されたアカウントにサインインし、Clean Roomsで、コラボレーションをクリックします。
-
「メンバーシップを作成」をクリックします。
-
メンバーシップを作成画面で「メンバーシップを作成」をクリックします。
-
提供側のアカウントにサインインします。
Creating a configured table in AWS Clean Rooms
-
Clean Roomsのナビゲーションペインで、「設定済みのテーブル」をクリックします。
-
「新しいテーブルを設定」をクリックします。
-
予め作成したデータベースとテーブルを選択します。またスキーマを表示する場合は、「AWS Glueのスキーマ」を表示を有効にします。

-
最後に、「新しいテーブルを設定」をクリックします。
Configuring an analysis rule to a configured table
分析ルールを定義すると、クエリを実行して結果を受け取ることができるメンバーに、AWS Clean Rooms でサポートされている特定の分析ルールに一致するクエリを実行する権限を与えることが可能。
- AWS Clean Rooms は、次のタイプの分析ルールをサポートしています
- Aggregation
- List
- Custom
- 構成されたテーブルごとに存在できる分析ルールは 1 つだけです。
テーブルへの集計分析ルールの構成
-
結合コントロール、ディメンジョンコントロールやスカラー関数はデフォルトのままとします。
-
最後に分析ルールを設定をクリックします。
Associating a configured table to a collaboration
-
Clean Roomsのナビゲーションペインで「設定済みのテーブル」をクリックし、該当テーブルを選択します。
-
下記を設定(デフォルトのまま)、「テーブルを関連付ける」をクリックします。
Querying data in a collaboration
-
コラボレーションに参加しているメンバーアカウントにサインインします。
-
Clean Roomsのナビゲーションペインで「コラボレーション」をクリックし、アクティブメンバーシップタブのコロボレーション名をクリックします。
-
分析のアクション>「結果設定」をクリックします。
-
下記のクエリを実行してみます。
SELECT COUNT(DISTINCT "customer_list"."address"), COUNT(DISTINCT "customer_list"."name"), COUNT(DISTINCT "customer_list"."phone") FROM "customer_list" -
なお、下記のようにルールに設定されていないクエリを実行した場合は、エラーになります。
SELECT address FROM "customer_list"
考察
今回は、Clean Roomsを使用して2つのアカウント間でデータ連携をしてみました。
クエリの実行時間が遅かったのがやや気になりましたが、
提供側でルールを設定することで、異なるアカウント間で安全にデータ共有が出来るので有用そうです。
今回は、提供先のジョインや暗号化などは試していませんが、今後試してみたいと思います。
参考
























