Introducing Data Cleanrooms for the Lakehouse - The Databricks Blogの翻訳です。
本書は抄訳であり内容の正確性を保証するものではありません。正確な内容に関しては原文を参照ください。
プライバシーが保護された状態で任意のクラウドで、企業がお客様やパートナーと容易にコラボレーションできるレイクハウスにおけるデータクリーンルームを発表できることを嬉しく思います。データクリーンルームの参加者は既存のデータを共有、結合することができ、データのプライバシーを保ちつつも任意の言語、Python、R、SQL、Java、Scalaを用いて複雑なワークロードを実行することができます。
外部データに対する需要が高まりを受けて、企業はデータドリブンのイノベーションを醸成するために自身のデータをセキュアに交換し、外部データを活用する方法を探しています。これまでは、企業はデータプライバシーを保つために、相互信頼に基づいてパートナーとデータを共有するためにデータ共有ソリューションを活用していました。しかし、企業は共有後のコントロールは断念しており、様々なプラットフォームにまたがってパートナーによってどのようにデータが使用されるのかに関してはほとんどわからない状況でした。これによって、データの誤用やプライバシー侵害のリスクが高まることになりました。厳格なデータプライバシー規制によって、企業は機微なデータがどのように使用されているのかに関するコントロールや可視性を持つことが必要となりました。このため、企業はデータ上でコラボレーションするために、セキュアかつコントロールされたプライベートな手段を必要としており、ここでデータクリーンルームが登場します。
本記事では、データクリーンルーム、データクリーンルームの必要性、Databricksレイクハウスプラットフォームにおけるスケーラブルなデータクリーンルームのビジョンについて議論します。
データクリーンルームとは何?どうしてこれがビジネスで重要なのでしょうか?
データクリーンルームは、セキュアかつ統治されたプライバシー上安全な環境を提供し、複数の参加者は他の参加者に自分のデータを公開するリスクを引き起こすことなしに、自分のファーストパーティのデータにアクセスでき、データに対する分析を行うことができます。参加者は自分のデータに対するフルコントロールを持ち、個人識別情報(PII)のような機微なデータを公開するのことなしに、自分のデータに対してどの参加者がどのような分析を行えるようにするのかを決定することができます。
データクリーンルームは、業界横断の様々ななユースケースの可能性を解き放ちます。例えば、消費財(CPG)メーカーは、リテールパートナーから提供されるPOSデータと自分のファーストパーティの広告データを組み合わせることで、売上のアップリフトを確認することができます。メディア業界においては、広告主とマーケターはデータのプライバシーを保護しつつも、よりターゲティングされた広告、幅広いリーチ、より優れた広告の効果の透明性を提供することができます。金融サービス企業では、プロアクティブな不正検知やアンチマネーロンダリング戦略を実現するために、バリューチェーン横断でコラボレーションすることが可能となります。実際のところ、IDCは2024年までに、G2000企業の65%がデータのプライバシーを保護しつつも相互依存性を高めるために、データクリーンルームを通じて外部のステークホルダーとデータ共有のパートナシップを結ぶことを予測しています。
プライバシーが保護されたデータクリーンルーム
クリーンルームが必要となる不可避な理由を見ていきましょう。
セキュリティ、コンプライアンス、プライバシー状況の急激な変化: GDPRやCCPAのような厳格なデータプライバシー規制やサードパーティの指標の全体的な変化は、特に広告やマーケティングのユースケースにおいて、企業がどのようにデータを収集、活用、共有するのかを変化させました。例えば、AppleのApp Tracking Transparency Framework (ATT)では、Appleデバイスのユーザーに対してアプリのトラッキングをオプトアウトする柔軟性が提供されています。また、Googleも2023年後半までにはChromeにおけるサードパーティcookieのサポート終了を計画しています。これらプライバシーに関する法規制やプラクティスが進化するにつれて、業界がUID2.0のような新たなPIIベースのIDに移行することで、データクリーンルームの重要性が高まる可能性が高くなります。cookieの利用が減った世界でビジネス目的を達成するために、企業はプライバシー中心な方法でパートナーのデータと結合するための新たなソリューションを見つけ出そうとしています。
分断されたデータエコシステムにおけるコラボレーション: 現在では顧客は、どこで、いつ、どのようにコンテンツにエンゲージするのかに到達するはるか前の時点で多くの選択肢を持っています。このため、顧客のデジタルフットプリントは異なるプラットフォームに存在することになり、企業は顧客の要求や要件に対する統合されたビューを作成するためには、自分達のパートナーとコラボレーションしなくてはなりません。企業間でのコラボレーションを促進するために、クリーンルームは新たな洞察や能力を解放するために、他のデータと自分のデータを組み合わせるためのセキュアかつプライベートな方法を提供します。
データをマネタイズする新たな手段: 多くの企業は、自分の既存のデータや知的財産をマネタイズするための戦略を既に持っているか、作り出そうとしています。現在のプライバシーに関する法規制によって、企業はブライバシーの規制を侵害するリスクを引き起こすことなしに、自分のデータをマネタイズするために可能性のある方法を探し出そうとしています。これによって、データに直接アクセスすることなしにビッグデータ分析のためにデータを結合する機会をデータベンダーや公開者に生み出しています。
既存のデータクリーンルームソリューションには非常に大きな欠点があります
企業が様々なクリーンルームソリューションを探索することで、既存のソリューションには企業にビジネス要件を満たせず、「クリーンルーム」の完全なポテンシャルを実現することができない明確な欠点があることがわかります。
データの移動と複製: 既存のデータクリーンルームベンダーは、参加者に対してデータをベンダーのプラットフォームに移動することを要求し、プラットフォームのロックインと参加者における追加のデータストレージコストを引き起こします。さらに、参加者が集計データに対する様々な分析を実行する前に標準フォーマットに変換するまでの時間を浪費することになります。加えて、別のクラウドやリージョンの参加者とコラボレーションするために、参加者は異なるクラウドやリージョンにデータを複製しなくてはならず、オペレーションおよびコストのオーバーヘッドを生み出します。
SQLのみに限定: 既存のクリーンルームソリューションは、様々なワークロードや分析を実行するための十分な柔軟性を提供せず、多くの場合シンプルなSQL文に限定されます。SQLはパワフルで、間違いなくクリーンルームに必要なものですが、SQLが適さない機械学習、APIとの連携、その他の分析ワークロードのような複雑な計算処理が必要となる時があります。
スケールが困難: 既存のクリーンルームソリューションの多くは、単一のベンダーに紐づけられており、同時に2人の参加者以上のコラボレーションに拡張することができません。例えば、広告主が異なるプラットフォームにまたがる広告パフォーマンスの証左なビューを必要とした際、複数のデータパブリッシャーからの集計データの分析が必要となります。2つの参加者のみにコラボレーションが限定されると、一つのクリーンルームプラットフォームでは部分的な洞察しか得ることができないため、別のクリーンルームベンダーに移動しなくてはならず、複数の部分的な洞察を手動で突き合わせなくてはならなくなりオペレーションのオーバヘッドが増加します。
Databricksレイクハウスプラットフォームを用いたスケーラブル、フレキシブルなデータクリーンルームのデプロイ
Databricksのレイクハウスプラットフォームは、皆様のデータプライバシー、ガバナンスの要件に基づいてスケーラブルかつフレキシブルなデータクリーンルームを構築、提供、デプロイするための包括的なツールセットを提供します。
複製なしにセキュアなデータ共有: Delta Sharingを用いることで、クリーンルームの参加者は自分のデータレイクから他の参加者に対して、クラウド、リージョン横断でデータを複製することなしにセキュアにデータを共有することができます。お使いのデータはあなたと共にあり続け、いかなるプラットフォームにロックインされることはありません。さらに、クリーンルームの参加者は集中的に監査され、データの使用がモニタリングされます。
任意のワークロード、言語の完全なサポート: Databricksのレイクハウスプラットフォームは、機械学習や、データに対してSQL、R、Scala、Java、Pythonのような任意の言語を用いたデータワークロードといった任意の複雑な計算処理を実行する柔軟性をクリーンルームの参加者に提供します。
ガイドされたオンボーディング体験を通じた容易なスケーリング: Databricksレイクハウスプラットフォーム上のクリーンルームは、いかなるクラウド、リージョンにおける複数の参加者に容易にスケールします。事前に定義されたテンプレート(ジョブ、ワークフロー、ダッシュボードなど)を用いた一般的なユースケースを通じて参加者をガイドすることで、簡単に利用を開始することができ、洞察に至る時間を短縮します。
きめ細かいアクセス制御によるプライバシー保護: Unity Catalogを用いることで、データに対するきめ細かいアクセス制御を実現し、ご自身のプライバシー要件を満たすことができます。統合されたガバナンスによって、参加者は自分のデータに対して実行されるクエリーやジョブに対してフルコントロールを持つことができます。データに対する全てのクエリーやジョブは、Databricksがホストする信頼された計算資源によって処理されます。参加者は決して他の参加者の生データにアクセスすることはなく、データのプライバシーを保証します。また、参加者はオープンソース、あるいはサードパーティの異なるプライバシーフレームワークを活用することができ、クリーンルームを将来に渡っての利用に耐えるものにします。
Databricksレイクハウスのデータクリーンルームの詳細に関しては、Databricksの担当者にお問合せください。