LoginSignup
5
2

Data + AI Summit 2024 - Databricks 現地レポート(Keynote Day2)#1

Last updated at Posted at 2024-06-20

はじめに

株式会社NTTデータグループ技術革新統括本部技術開発本部IOWN推進室のOSSチームの内藤です。普段は、HadoopやSparkなどの並列分散処理に関連するOSSを用いたシステム基盤の開発支援やサポートデスクの業務を担当しています。

Data + AI Summitは、Databricks社が毎年開催する最大規模のカンファレンスです。今年のテーマは 「DATA INTELLIGENCE FOR ALL」 であり、6月10日から6月13日までの4日間にわたって行われました。今年は過去最高の16,000人以上が現地から参加しており、500以上のセッションと130以上のスポンサーブースが展示されていました。

6月13日のKeynoteでは、Data Intelligence の機能に関するアップデートが発表されました!

1日目(6月12日)の振り返り

IMG_3340.jpg

Data AI + Summit 2024の1日目のキーノートでは、DatabricksがデータとAIの民主化に向けたビジョンを示しました。DatabricksのCEOであるAli Ghodsi氏の講演では、生成AIの導入、データのセキュリティ、データの断片化の課題に対する戦略が紹介されました。Fei-Fei Li氏は、AIの進化とその重要性を語り、NVIDIAのJensen Huang氏は、計算環境の強化とAIモデルの重要性を強調しました。また、生成AIとDatabricks SQL/BIの新機能が発表され、データ分析の効率と使いやすさが向上しました。最後に、Mosaic AIのアップデートにより、高品質かつ安全な生成AIシステムの構築がより簡単になり、DatabricksがAIの民主化とデータインテリジェンスの向上を目指していることを示しました。1日目のKeynoteの記事については、以下をご覧ください。

Keynote (Day2)

YEJIN CHOI氏講演

ワシントン大学の教授であるYEJIN CHOI氏による、AIのトレーニングデータの質と将来AIがどのようなデータを生成して利用するかに関する講演が行われました!

スクリーンショット 2024-06-19 16.34.37.png

AIは、学習するデータの質に依存しており、主に人間が生成したデータに依存しています。YEJIN CHOI氏の推測では、将来的にAIは、AI自身が生成したデータに依存するようになると考えています。現在、学習に使用することデータは膨大になってきており、それらの細かい管理や処理は大変なコストになってきています。 実際に必要なAIというのは、各ユースケースにおける特定のタスクに対応できるAIです。 AIによるデータの生成が進むことで、特定のタスクに特化した高性能なAIモデルの開発が可能となるでしょう。 重要なのは、規模だけでなく、ユースケースに対応できる質や新規性、データの多様性です。

IMG_3458.jpg

RYAN BLUE氏講演

TabularのRYAN BLUE氏による、Tabular買収に関する対談が行われました!

スクリーンショット 2024-06-19 16.41.16.png

Tabularの買収は、データフォーマットの統合の一環として行われました。TabularはApache Icebergを作ってきたエンジニアを抱えており、彼らとの協力がDelta Lakeとのフォーマットの統合を可能にしました。 この買収により、データフォーマットとクラスタリングの統合が進み、フォーマット間の互換性と一貫性が大きく向上しました。 これにより、データ管理の効率化と透明性が高まり、データの運用もよりスムーズになります。

関連記事:Databricks + Tabular|Databricks Blog

Delta Lake UniFormの発表

昨年のDATA+AI Summitで発表されたDelta Lake UniFormが一般公開になりました。UniFormは、Universal Formatの略です。

IMG_3469.jpg

Apache Icebergなどの異なるデータフォーマットとの互換性と一貫性を確保するための統合ソリューションです。 主要なデータフォーマットであるDelta、Iceberg、Hudiをサポートし、それらをシームレスに連携させることを目的としています。

IMG_3472.jpg

  • データフォーマットの一元管理: Delta Lake UniFormを使用することで、異なるデータフォーマットを一元的に管理でき、データの一貫性と信頼性が向上します。
  • パフォーマンスの向上: 統合されたでーたフォーマットやLiquid Clusteringのサポートにより、データ処理のパフォーマンスが最適化され、クエリの実行速度が向上します。
  • 運用の簡素化: 一つのフォーマットでデータを管理できるため、運用が簡素化され、データエンジニアやアナリストの作業負担が軽減されます。

IMG_3481.jpg

Delta FlinkやDelta Trino、Delta Rust、Delta Lake Python、Apache Druid、DuckDBなど他のエコシステムとの連携もできるようになっています。これはDelta Kernelという小さなライブラリを介してプラグ&プレイすることで、Delta Lakeのフォーマットに変換・統合しています。

関連記事:Iceberg との互換性を実現する Delta Lake Universal Format (UniForm) が GA に|Databricks Blog

DuckDB v1.0の発表

DuckDBはのバージョン1.0が発表されました。

IMG_3497.jpg

DuckDBは、軽量で高速な分析用データベースエンジンであり、データサイエンスや分析用途に適しています。 DuckDBはインメモリデータベースとして動作し、高速なクエリ処理が可能です。これにより、Delta Lake上のデータを迅速に分析できます。Delta Lakeのトランザクショナルサポートにより、データの整合性が確保され、DuckDBを使用しても信頼性の高いデータ分析が可能です。

IMG_3504.jpg

DuckDBは、Delta Lakeをサポートし、Delta Kernelを使ってDelta Lakeと統合されます。これにより、メタデータを含むParquetファイルのDeltaテーブルの読み書きが可能となります。また、拡張によりUnity Catalogとやりとりできるようになっており、ローカルのテーブルと同じように読み込めるようになります。

Delta 4.0の発表

Delta 4.0についても発表があり、その中で2つの新機能について紹介がありました。

IMG_3516.jpg

VARIANT型

新たに VARIANT データ型が導入されました。このデータ型は、スパースな半構造化データの取り扱いに特化しており、非構造データやスパースなテキストデータの利用が増加する中で、エンジニアが直面するトレードオフを解消するために設計されています。従来、エンジニアは、Flexible(柔軟性)、Fast(速さ)、Open(標準化)のトレードオフに悩まされます。

  1. FlexibleとOpenを満たす場合: String型を使用することで扱いやすくなるが、処理が遅い。
  2. OpenとFastを満たす場合: 全てのフィールドを個々のカラムで解析するが、スパースなデータがある場合に非効率。
  3. FastとFlexibleを満たす場合: プロプライエタリなフォーマットを使用するが、これによりシステムが特定のフォーマットにロックインされるリスク。

IMG_3533.jpg

VARIANT型は、これらのトレードオフを解決するために、JSONデータを柔軟かつ高パフォーマンスで処理することが可能です。 具体的には、VARIANT データ型を使用することで、String型に比べてJSONデータの処理速度が8倍に向上します。この新しいデータ型は、DeltaLake 4.0およびSpark 4.0で使用することができます。このように、Delta 4.0 の VARIANT データ型は、エンジニアにとって柔軟性、速度、オープンスタンダードのバランスを保ちながら、効率的にデータを扱うための強力なツールとなります。

Liquid Clustering

IMG_3520.jpg

新たにLiquid Clusteringが導入されました。この機能はデータのパーティショニングに関する課題を解決し、データの処理速度と効率性を大幅に向上させるものです。 従来のデータパーティショニングに伴う複雑さと手間を排除し、ユーザーにとってシンプルかつ効率的なデータ管理を提供するソリューションです。 以下のような特徴があります。

  • パーティショニングの自動化
    • ユーザーが手動でパーティショニングを行う必要がなくなります。自動的に最適なデータレイアウトを選択し、データの読み書きパフォーマンスを最適化します。
  • パフォーマンスの向上
    • データの書き込みが従来の7倍速くなります。これにより、大規模データセットの迅速な処理が可能になります。また、データの読み取りも従来の12倍速くなります。これにより、クエリの応答時間が大幅に短縮され、リアルタイム分析が容易になります。
  • スキーマの進化が容易
    • スキーマの変更が容易になり、新しいデータ形式やフィールドを迅速に取り入れることができます。データ管理の柔軟性が向上し、ビジネスの変化に迅速に対応できます。

Unity CatalogのOSS化

Unity CatalogはMATEI氏によりこの発表中にv0.1が公開されました。

IMG_3594.jpg

現代のデータ活用とAIの分野では、ガバナンス、セキュリティ、品質、コンプライアンスが大きな課題となっています。 どのアプリケーションでも最初から高い基準のガバナンスが求められ、規制に適応しつつ、データの出所を把握し、モデルを作成する必要があります。多くの企業がガバナンスの問題でAIを活用できない状況にあります。規制は絶えず変化し、その対応が求められる中で、最初から理想的なガバナンスのソリューションが必要とされています。これを満たすために達成したい3つの目標があります。

  1. オープンコネクティビティ: プラグインがあれば誰でも利用できること。
  2. 統一されたガバナンス: DataとAIに対して管理統一できるガバナンスがあること。
  3. オープンアクセス: どのPCやクライアントからでもアクセス可能であること。

IMG_3604.jpg

そこで、Unity Catalogが作られました。それぞれの目標への対応は以下になります。

  • オープンコネクティビティ
    • Lakehouse Federation: データソースを効率的に接続し、管理する機能が一般提供されました。これにより、分散したデータを一元的に管理できます。
    • Apache HiveとAWS Glueのサポート: 既存のHive MetastoreやGlueデータカタログとの統合が可能となり、既存のデータ資産を効率的に活用できます。
  • 統一されたガバナンス
    • データ品質モニタリング: データテーブルやモデルの品質を自動的に監視し、品質に関するダッシュボードを提供します。
    • 属性ベースアクセス制御: タグを使用してデータにアクセス制御ポリシーを設定し、簡単にガバナンスを適用できます。
  • オープンアクセス
    • Unity CatalogのOSSとしての公開を行い、また、Linux Foundationへのプロジェクト提案がされ、受諾されました。
    • Iceberg Rest APIの実装により、他のエンジンからの接続が容易になります。

おわりに

Keynote Day2の前半は以上です!異なるデータフォーマットでも互換性を持ち取り込めるDelta Lake UniFormの発表、データとAIに統一なガバナンスを持たせるUnity CatalogのOSS化とその公開、Delta 4.0の発表と新機能であるVARIANT型のサポートやLiquid Clusteringについての紹介など、 Data Intelligenceを実現する上で必要な「Dataの民主化」と「AIの民主化」を実現していってることが分かる内容でした。 後半は、Databricks Clean RoomsやSpark 4.0の新機能など引き続き新しい内容が続くので、気になる方は今からでも是非チェックしてみてください。

関連リンク

OSSチーム紹介 | NTTデータグループ

私の所属する OSS(オープンソースソフトウェア)チーム は、Hadoop/Spark/Kafka/HBaseなどの高難易度なOSSプロダクトのサポートを提供 しています。OSSコミュニティ活動やプロジェクト支援を実施するとともに、OSSでは提供しきれない中長期的なサポートも提供しています。チームには、 Hadoop/Spark/Bigtopなどのコミッタも在籍 しております。OSSを扱う時にお困りの際にはぜひお気軽にお問い合わせください。

databricks | NTTデータ

NTTデータは、お客様企業のデジタル変革・DXの成功に向けて、「databricks」のソリューションの提供に加え、情報活用戦略の立案から、AI技術の活用も含めたアナリティクス、分析基盤構築・運用、分析業務のアウトソースまで、ワンストップの支援を提供いたします。

5
2
0

Register as a new user and use Qiita more conveniently

  1. You get articles that match your needs
  2. You can efficiently read back useful information
  3. You can use dark theme
What you can do with signing up
5
2