Introducing Lakehouse Federation Capabilities in Unity Catalog | Databricks Blogの翻訳です。
本書は抄訳であり内容の正確性を保証するものではありません。正確な内容に関しては原文を参照ください。
あなたのデータがどこにあろうとも、発見、クエリー、制御します
データチームは、データの断片化、データ統合に要する時間とコスト、さまざまなシステムにおけるデータガバナンスの管理の困難さによって、クイックに適切なデータにアクセスすることが困難となっています。
だからこそ、我々は本日Data+AI Summitにおいて、企業が統合されたガバナンスを用いて高度にスケーラブルで高性能なデータメッシュアーキテクチャを構築できるようにする、Unity Catalogにおけるレイクハウスフェデレーションを発表できることを嬉しく思っています。
Unity Catalogは、データとAIに対する統合ガバナンスソリューションを提供します。Unity Catalogのレイクハウスフェデレーション機能によって、MySQL、PostgreSQL、Amazon Redshift、Snowflake、Azure SQL Database、Azure Synapse、GoogleのBigQueryなどを含むデータプラットフォームに対して、データをコピーすることなしに、簡素化され統合された体験を通じてすべてをDatabricksから発見、クエリー、制御を行えるようになります。これは、行列レベルのアクセスコントロールのようなUnity Catalogの高度なセキュリティ機能、タグやデータリネージのような発見機能を外部のデータソースからでも利用することができ、一貫性のあるガバナンスを保証することを意味します。
Unity Catalogのレイクハウスフェデレーション
「データサイエンティストやビジネスユーザーたちは、一つの場所で管理された一貫性のある権限を用いた統一のユーザーインタフェースを通じてさまざまなデータソースにアクセスできるようになります。」BayerのテックリードであるJelle de Jongはこう述べます。「我々は継続的に我々のデータフォーマットをDelta Lakeに標準化していますが、レイクハウスフェデレーションによって、データ抽出に投資する前に俊敏性を持ったイテレーションを可能とすることをに興奮しています。」
データの断片化はイノベーションをスローダウンします
すべての規模の数千の企業は、Databricksレイクハウス上のデータとAIを用いて、世界中そしてすべての業界でイノベーションを起こしています。しかし、歴史的には組織的、技術的な理由から、データは数多くのオペレーション、分析システムに分散しており、数多くの課題を引き起こしています:
- すべてのデータを発見、アクセスすることが困難: 多くの企業では、複数のデータソースに価値のあるデータが分散しています。いくつかのデータベース、データウェアハウス、オブジェクトストレージシステムかもしれません。これは、不完全なデータや洞察につながり、情報に基づく意思決定や革新を迅速に行うためのお客様の能力の妨げとなります。
- エンジニアリングのボトルネックによって実行が遅延: 複数のデータソースのデータにクエリーを行うには、通常お客様は最初に外部データソースから自分たちが使っているプラットフォームにデータを移動する必要があります。いくつかのデータはその工数に見合う価値がないかもしれません。いくつかのデータが単一の統合ロケーションに到着する前に非常に長い時間を要し、イノベーションをスローダウンさせます。
- サイロ化されたシステムにおける貧弱なコンプライアンス: 分断されたガバナンスは工数の重複につながり、不適切なアクセスや漏洩に対する監視や防御ができないというリスクを増加させ、コラボレーションやデータの民主化の妨げとなります。
Unity Catalogにおけるレイクハウスフェデレーションであなたのデータ資産を統合する
レイクハウスフェデレーションはこれらの重要なペインポイントに取り組み、皆様のレイクハウスの拡張として、サイロ化されたデータシステムの公開、クエリー、制御を容易にします。これらの新機能によって以下のことが可能となります:
- お使いのデータ資産の統合ビューを構築: 一つの場所で構造化データ、非構造化データを含むすべてのデータを自動で分類・発見することで、データがどこにあっても、皆様の組織の誰でも利用できるすべてのデータをセキュアにアクセス、探索できるようになります。
- 単一エンジンですべてのデータを効率的にクエリー、結合: 取り込み不要の最も完全なデータと単一エンジンを用いることで、あなたのすべてのデータ、分析、AIユースケースにおけるアドホック分析やプロトタイピングを加速します。ソースに対する高度なクエリー計画とキャッシュによって、単一のクエリーに対する複数プラットフォームのデータへのアクセスや結合を行う際に最適なクエリー性能が得られることを確実にします。
- データソースのデータに対する保護: アクセスルールを設定、適用し、データソースにあるすべてのデータを保護するために単一の権限モデルを使用します。プラットフォームに対する行列レベルのセキュリティ、タグベースのポリシー、定常的な集中管理監査のようなルールを適用し、データ利用を追跡し、ビルトインのデータリネージと監査可能性を用いてコンプライアンス要件に適合します。
「レイクハウスフェデレーションによって、複数のソース、複数のクラウドにある使用量、売上、ゲームテレメトリーデータのようなデータを、一つの場所から結合、参照、クエリーできるようになります。今では、データをオリジナルのデータソースに置いていますが、Databricksレイクハウスからそれらを活用することができます。」SEGA EuropeのHead of Data ServicesであるFelix Bakerはこう述べます。「頻繁に更新される財務データを移動する必要がなくなったので、貴重な時間を節約することができ、お客様に可能な限りベストなゲーム体験を提供することにフォーカスできています。」
データソース横断のクエリーとビルトインのデータリネージによるメリット
レイクハウスフェデレーションによって既存のデータランドスケープをよりクイックにUnity Catalogに統合できるようになりました。これによって、Shellのデータガバナンスをよりシンプルにし、一つの場所からより多くのデータセットを発見できるようになり、認証が標準化され、一般的なプログラミング言語によるデータセットへのクエリーが可能となりました。」ShellのChief Digital Technology AdvisorであるBryce Bartmannはこう述べます。「究極的には、現在のエネルギーセクターで起きているトランスフォーメーションを効果的にナビゲーションできるようにしてくれています。」
これらの新機能を最近発表したオープンHiveインタフェースと組み合わせることで、企業はUnity Catalogで自分たちのデータ管理、発見、制御を集中することができ、Amazon EMR、Apache Spark、Amazon Athena、Presto、Trinoなどを含む幅広い計算プラットフォームから接続できることを意味します。この新たなインタフェースは、複数データカタログを管理する必要性を排除し、これらのプラットフォームにおける一貫性のあるデータガバナンスを確実なものとします。
次に来るのは?
これらの新機能は現在プライベートプレビューです。7月のパブリックプレビューにサインアップすることが可能です。
また、我々はDelta Universal Format ("UniForm")のパブリックプレビューによって、Apache IcebergやHudiを含むさまざまなオープンストレージフォーマットにUnity Catalogのガバナンス機能を拡張します。このインテグレーションによって、DeltaテーブルをあたかもIcebergテーブル(Apache Hudiも間も無く)のように読み込むことができ、Unity Catalogを3つの主要なオープンレイクハウスストレージフォーマットをサポートする唯一のユニバーサルカタログにします。
最後に、将来的には、データがどこからアクセスされようとも一貫性のある強制をデータソースにフェデレーションするために、Unity Catalogで定義されたアクセスポリシーをプッシュできるようにもなります。これによって、異なるガバナンスツールにおいて冗長なポリシー定義を維持管理する必要性を排除します。
詳細は、共同創始者でChief Technology OfficerであるMatei ZahariaのData+AI Summit 2023のキーノートをご覧ください。
対面あるいはバーチャルで最新のデータ、分析、AIの最新情報をチェックするには、こちらからData + AI Summitに登録してください!