Databricks + Tabular | Databricks Blogの翻訳です。
本書は抄訳であり内容の正確性を保証するものではありません。正確な内容に関しては原文を参照ください。
Ryan Blue、Daniel Weeks、Jason Reidによって創業されたデータ管理企業であるTabular, Incの買収の合意を発表できることを嬉しく思っています。この買収によって、Apache Iceberg™とLinux FoundationのDelta Lakeの二つの最先端のオープンソースレイクハウスフォーマットを団結させることになります。皆様がデータを格納しているレイクハウスフォーマットがどれであるのかに限定されることのない様に、一体となってデータ互換性の道を先導していきます。この記事では、フォーマットの互換性をレイクハウスにもたらすというIcebergとDelta Lakeのコミュニティがどの様に密接に連携しようとしているのかを説明します。短期的にはDelta LakeのUniForm、長期的には単一かつオープン、相互運用性の共通標準を通じたものとなります。契約がクローズしたらチームの皆様を歓迎することを楽しみにしており、オープンレークハウスに向けた共有ビジョンに向けて取り組みを行えることを嬉しく思っています。
レイクハウスアーキテクチャの勃興とフォーマットの非互換性
レイクハウスアーキテクチャは、単一かつ統治されたデータのコピーに対するAIワークロードと従来のデータウェアハウスのワークロードのインテグレーションを可能にするために、2020年にDatabricksによって開発されました。これを実現するためには、すべてのデータはオープンフォーマットで格納される必要があります。これによって、様々なワークロード、アプリケーション、エンジンは同じデータにアクセスすることができます。レイクハウスアーキテクチャはデータへのアクセスを民主化することで企業の生産性を最大化します。これは、プロプライエタリなSQLエンジンがデータの読み書き、共有を行い、他のアプリケーションがアクセスするにはコピーやエクスポートが必要で、非常に厳しいベンダーロックインを引き起こすプロプライエタリなデータウェアハウスとは対極をなすものです。4年後、レイクハウスアーキテクチャは市場に荒らしを引き起こしました。MIT Technology Reviewによって実施されたサーベイによると、企業の74%がレイクハウスをデプロイしています。
レイクハウスの基盤は、オブジェクトストレージに格納されているデータに対するACIDトランザクションを実現するオープンソースのデータフォーマットです。これらのフォーマットは、データレイクにおけるデータオペレーションの信頼性とパフォーマンスを劇的に改善し、Apache Spark™、Trino、Prestoのようなオープンソースエンジンに特化して設計されました。これらの課題に取り組むために、Delta Lakeの立ち上げではLinux Foundationと連携しました。誕生以来のDelta Lakeの導入の流れには恐縮しています: このオープンソースプロジェクトでは、様々な組織からの500のコードコントリビュータがおり、日々平均4エクサバイト以上のデータを処理するためにグローバルで10,000以上の企業がDelta Lakeを活用しています。
Delta Lakeが開発されたのと同時期に、RyanとDanielはNetflixでIcebergプロジェクトを立ち上げ、Apache Software Foundationに寄贈しました。これらの2つのプロジェクトは、レイクハウスフォーマットにおける2つの最先端のオープンソース標準として出現しました。残念なことですが、これらのフォーマットの両方がApache Parquetをベースとしており、同じ様なゴールやデザインを共有しているのにも関わらず、それら独立した開発によって互換性がないものとなりました。
時が経つにつれて、数多くの他のオープンソース、プロプライエタリエンジンはこれらのフォーマットに適応しました。しかし、それらは通常どちらかの標準のみに適応し、多くの場合、その標準の一部のみをサポートしていました。これは、結果として企業のデータを分断、サイロ化することになり、レイクハウスアーキテクチャの価値を弱体化させることになりました。
相互運用性への道
基本的に、企業はレイクハウスのメリットを実現するためにデータの相互運用性を持つことができるべきです。フォーマット自身に相互運用性をもたらすために、我々はIcebergとDelta Lakeのコミュニティと密に連携しようとしています。これは、長い道のりであり、これらのコミュニティで達成するには数年を要するものもあることでしょう。だからこそ、昨年我々は皆様にDelta Lake UniFormをご紹介したのです。UniFormテーブルは、Delta Lake、Iceberg、Hudiに対する相互運用性を提供し、企業の皆さまがご自身のすべてのデータに対して、慣れ親しんでいる分析エンジンやツールを活用できる様に、IcebergのRESTfulインタフェースをサポートしています。UniFormを用いることで、今時点でも互換性を手に入れることができ、オリジナルのIcebergチームと共に、Delta Lake UniFormの目標を現実にするために多大なる投資を行う予定です。本日GA(正式提供)となったUniFormによって、企業は互換性を実現することができます。オリジナルのIcebergチームと共に、DatabricksはDelta Lake UniFormの目標の達成を推進していきます。
オープンさに向けた共有のコミットメント
最後になりますが、DatabricksとTabularはオープンソースフォーマットにおけるチャンピオンの歴史を共有しています。両方の企業は、オープンソースフォーマットを商用化するために、現在でも在籍している創業者によって開発されたものであり、Databricksは収益面で最も成功している独立オープンソース企業であり、オープンソースプロジェクトに1,200万のコードで貢献しています。この買収は、クラウドにおけるオープンフォーマットとオープンソースデータに対する我々のコミットメントをハイライトするものであり、プロプライエタリなベンダー所有のフォーマットによって引き起こされるロックインから企業を解放し、ご自身のデータに対するコントロールを確実にすることを支援するものであります。
DatabricksとTabular連合についての詳細が知りたいのであれば、6/10から13に開催されるData + AIサミットに登録していください: databricks.com/dataaisummit