Top Three Data Sharing Use Cases With Delta Sharing - The Databricks Blogの翻訳です。
本書は抄訳であり内容の正確性を保証するものではありません。正確な内容に関しては原文を参照ください。
様々な規模の企業が自身の顧客、サプライヤー、パートナーとデータをセキュアにやり取りする方法を模索しており、データ共有はビジネス価値を生み出すための重要なコンポーネントとなっています。Gartnerの最近の調査によると、データ共有を活用する企業は、多くのビジネス指標において競合から抜きん出ているとのことです。
既存のデータ共有ソリューションにおいては、企業内外におけるデータ共有を制限する様々な課題があり、データの真の価値の実現に失敗してしまいます。過去30年を通じて、データ共有ソリューションは主に二つの形態を取っています。内製のソリューションとサードパーティソリューションです。内製ソリューションにおいては、データ共有はSFTPやREST APIのようなレガシーテクノロジーを用いて構築され、維持管理が難しく、新規データ要件に対応してスケールすることが困難となります。一方で、商用のデータ共有ソリューションでは、相手も同じプラットフォームを使用する必要があり、データ共有を制限し、コストが高くつきます。
これらの課題を受け、我々Databricksがオープンなデータ共有の未来を再考することになりました。Data + AI Summit 2021において、我々は世界初のスケーラブルかつリアルタイムでデータ共有をセキュアに行うためのオープンプロトコル、Delta Sharingを発表しました。Delta Sharingの背後にある我々のビジョンは、企業間におけるセキュアかつライブのデータ共有をシンプルなものし、データを格納、処理する場所をプラットフォーム非依存にするというものです。Delta Sharingを用いることで、Apache ParquetとDelta Lakeフォーマットの既存の大規模データセットを移動することなしに容易に共有することができ、好きなツールを用いてデータに対するクエリー、可視化、補強を行える柔軟性を提供することでデータチームを強力に支援します。
Delta Sharingのエコシステム
プライベートプレビューでの立ち上げ以降、全てに対してオープン、かつ、目的に合わせたデータ共有を開発、コラボレーションするために、業種横断でお客様によるエンゲージメントを数多く目撃しています。すでにお客様はDelta Sharingを用いてペタバイトのデータを共有しています。発表以降、Delta Sharingのパートナーエコシステムも成長を続けており、PowerBI、Pandas、Apache Spark™などの商用ソフトウェア、オープンソースクライアントの両方でビルトインDelta Sharingコネクターが開発されています。
お客様との対話を通じて、データの商用化、外部パートナー・お客様とのデータ共有、事業部門(LOB)との内部データ共有という3つの一般的なユースケースを特定しました。この記事では、これらのユースケースを探索し、お客様から聞いたいくつかの洞察を共有します。
ユースケース1: データの商用化
お客様事例: 金融データプロバイダーは、レガシーなデータデリバリーチャンネルのオペレーションの非効率性を削減したいと考えており、大規模新規データセットに対して、エンドユーザーが容易かつシームレスにアクセスできるようにしたいと考えていました。
課題
データプロバイダーは、定期的にテラバイトが生成される大規模テキストデータセットを最近立ち上げました。データ受領者に対して大量データを提供するのが困難であるため、データプロバイダーにとってこれらの大規模データセットに対するクイックかつ容易なアクセスの提供は課題であり続けました。現状のソリューションでは、データプロバイダーは外部のSFTPサーバーにデータをコピーする必要があり、障害、遅延の潜在的な原因となっていました。
受領者側においては、データサイズと規模のためにこれらのデータの取り込み、管理は容易なものではありませんでした。データ受領者はデータ取り込みのためのインフラストラクチャをセットアップする必要があり、ITやデータベース管理者からの承認が必要となり、エンドユーザーがデータを利用開始するまでに数週間を要することになりました。
Delta Sharingの提供価値
Delta Sharingを用いることで、データプロバイダーは大規模データセットをシーム列に共有することができ、SFTPサーバーのスケーラビリティ問題を解決することができました。SFTPにバッチ処理で抽出する必要があったこれらのテラバイトの大規模データは、今ではDelta Sharingを通じてリアルタイムでアクセスすることができます。プロバイダーはデータを複製するのではなく、データ受領者に対してシンプルにアクセスを許可し管理するだけでよく、複雑性やレーテンシーを削減できました。スケーラビリティを改善することで、データ利用者は定期的にデータセットを取り出すのではなく、ライブデータにアクセスできるので、データ利用者が劇的に増加しました。
ユースケース2: 外部パートナー・お客様とのデータ共有
お客様事例: ある大規模小売業者は、同じデータ共有、クラウドコンピューティングプラットフォームを用いることなしに、製品データをパートナーと容易に共有できる方法を必要としていました。小売業者は、リアルタイムで適切なデータに容易にアクセスできるように、パートナーごとのSKUに基づいて分割されたデータセットを作成したいと考えていました。
課題
小売業者はデータをパートナーと共有するために内製のSFTPとAPIを使用していましたが、管理しきれなくなっていました。このソリューションは維持管理のために多大な開発リソースを必要としていました。小売業者は他のデータ共有ソリューションを探しましたが、これらのソリューションはパートナーに対して同じプラットフォームの利用を強制しており、異なる地域でデータを複製することによるコストや運用のオーバーヘッドによって全てのパートナーが実現できるものではありませんでした。
Delta Sharingの提供価値
Delta Sharingは小売業者に対して、異なる地域でデータを複製することなしに、クラウドプラットフォーム間で効率的にデータを管理、共有できるという素晴らしい価値を提供しました。小売業者はDelta Sharingを通じて100以上のパートナーとデータ共有が容易であること、データの管理、作成、監査が簡単にできることを発見しました。それぞれのパートナーに対して、小売業者は容易にパーティションを作成し、同じデータプラットフォームを用いる必要なしにセキュアにデータを共有できます。データ共有の管理を容易にすることに加え、データプロバイダーは背後のクラウドプロバイダーの外向き通信コストのみを必要とし、データ共有に要する計算コストを支払う必要がないので、Delta Sharingはコストを最小化します。
ユースケース3: 事業部門(LOB)との内部データ共有
お客様事例: ある製造業者は予測モデルを構築するために、15以上の部署、子会社にいるデータサイエンティストが許可されたデータにアクセスできるようにしたいと考えていました。製造業者はデータが機微なものであったため、強力なガバナンス、コントロール、監査機能を用いてこれを実現したいと考えていました。
課題
製造業者は数多くのデータレイクを持っており、チームはデータにセキュアかつ効率的にアクセすることが困難でした。企業の全データは、エンタイトルメント、ガバナンスに対する強力な制御がないその場凌ぎの方法でなされていました。さらに、これらのデータセットの多くはペタバイトのサイズであり、スケーラブルにデータを共有することに関して懸念がありました。管理層はデータに対する適切なコントロール、ガバナンスなしにデータを共有することに消極的でした。結果として、製造業者はデータサイエンスチームから得られるかけがえのない洞察を得る機会を逃していました。
Delta Sharingの提供価値
Delta Sharingを用いることで、製造業者はデータを移動することなしに、異なる内部エンティティでデータを管理し、共有する能力を手に入れました。Delta Sharingを用いて製造業者は一つポイントで共有データに対するアクセスを許可、追跡、監査することができます。これらの大規模データセットを移動することがないため、製造業者はデータを複製するために異なるサービスを管理する心配が不要となりました。Delta Sharingによって、製造業者は期待したよりもクイックにデータをセキュアに共有することができ、以前はデータセットはサイロ化されていましたが、エンドユーザーは単一のデータセットを活用できるので、すぐにメリットを享受することができます。さらに、彼らがデータの可視化に使っているPowerBIに対するビルトインDelta Sharingコネクターを活用できることを喜びました。
Delta Sharingを使ってみる
Delta Sharingを用いることで、使用するデータプラットフォームに関係なく他の企業とのデータ共有をシンプルにすることができます。プロプライエタリなロックインなしにオープンかつセキュアな初めてのソリューションを提供することができることを嬉しく思っています。これによって、データチームは容易にデータを共有し、企業におけるプライバシー、セキュリティ、コンプライアンスを管理することができます。
Databricks上でDelta Sharingをトライするには、アーリーアクセスにサインアップするか、Databricksの営業にコンタクトしてください。我々のお客様の多くにおいては、データを共有する際のガバナンスが最も注意すべき事項となっています。Delta Sharingは、きめ細かいガバナンス、セキュリティコントロールをお客様に提供するUnity Catalogとネイティブにインテグレーションされており、社内外でのデータ共有を容易かつ安全に行うことができます。お使いのDatabricksアカウントでUnity Catalogを有効化したあとで、Databricks上のDelta Sharingを試すために、以下のクイックスタートノートブックを使ってみてください。
- Creating a share and granting access to a data recipient
- Connecting to a share and accessing the data
オープンソース版のDelta Sharingリリースを活用するには、delta.io/sharingの手順に従ってください。
Delta Sharingオープンソースプロジェクトに興味がありますか?
Delta Sharingプロジェクトに対するフィードバック、新機能に対するアイデア、サポートは大歓迎です。こちらの手順に従ってDelta Sharingコミュニティに参加してみませんか。