Data + AI Summit 2024 - Databricks 現地レポート（Keynote Day2）#1

Last updated at 2024-06-24Posted at 2024-06-20

はじめに

株式会社NTTデータグループ技術革新統括本部技術開発本部IOWN推進室のOSSチームの内藤です。普段は、HadoopやSparkなどの並列分散処理に関連するOSSを用いたシステム基盤の開発支援やサポートデスクの業務を担当しています。

Data + AI Summitは、Databricks社が毎年開催する最大規模のカンファレンスです。今年のテーマは「DATA INTELLIGENCE FOR ALL」であり、6月10日から6月13日までの4日間にわたって行われました。今年は過去最高の16,000人以上が現地から参加しており、500以上のセッションと130以上のスポンサーブースが展示されていました。

6月13日のKeynoteでは、Data Intelligence の機能に関するアップデートが発表されました！

1日目(6月12日)の振り返り

Data AI + Summit 2024の1日目のキーノートでは、DatabricksがデータとAIの民主化に向けたビジョンを示しました。DatabricksのCEOであるAli Ghodsi氏の講演では、生成AIの導入、データのセキュリティ、データの断片化の課題に対する戦略が紹介されました。Fei-Fei Li氏は、AIの進化とその重要性を語り、NVIDIAのJensen Huang氏は、計算環境の強化とAIモデルの重要性を強調しました。また、生成AIとDatabricks SQL/BIの新機能が発表され、データ分析の効率と使いやすさが向上しました。最後に、Mosaic AIのアップデートにより、高品質かつ安全な生成AIシステムの構築がより簡単になり、DatabricksがAIの民主化とデータインテリジェンスの向上を目指していることを示しました。1日目のKeynoteの記事については、以下をご覧ください。

Keynote (Day2)

YEJIN CHOI氏講演

ワシントン大学の教授であるYEJIN CHOI氏による、AIのトレーニングデータの質と将来AIがどのようなデータを生成して利用するかに関する講演が行われました!

AIは、学習するデータの質に依存しており、主に人間が生成したデータに依存しています。YEJIN CHOI氏の推測では、将来的にAIは、AI自身が生成したデータに依存するようになると考えています。現在、学習に使用することデータは膨大になってきており、それらの細かい管理や処理は大変なコストになってきています。 実際に必要なAIというのは、各ユースケースにおける特定のタスクに対応できるAIです。 AIによるデータの生成が進むことで、特定のタスクに特化した高性能なAIモデルの開発が可能となるでしょう。 重要なのは、規模だけでなく、ユースケースに対応できる質や新規性、データの多様性です。

RYAN BLUE氏講演

TabularのRYAN BLUE氏による、Tabular買収に関する対談が行われました！

Tabularの買収は、データフォーマットの統合の一環として行われました。TabularはApache Icebergを作ってきたエンジニアを抱えており、彼らとの協力がDelta Lakeとのフォーマットの統合を可能にしました。 この買収により、データフォーマットとクラスタリングの統合が進み、フォーマット間の互換性と一貫性が大きく向上しました。 これにより、データ管理の効率化と透明性が高まり、データの運用もよりスムーズになります。

Delta Lake UniFormの発表

昨年のDATA＋AI Summitで発表されたDelta Lake UniFormが一般公開になりました。UniFormは、Universal Formatの略です。

Apache Icebergなどの異なるデータフォーマットとの互換性と一貫性を確保するための統合ソリューションです。 主要なデータフォーマットであるDelta、Iceberg、Hudiをサポートし、それらをシームレスに連携させることを目的としています。

データフォーマットの一元管理：　Delta Lake UniFormを使用することで、異なるデータフォーマットを一元的に管理でき、データの一貫性と信頼性が向上します。
パフォーマンスの向上：　統合されたでーたフォーマットやLiquid Clusteringのサポートにより、データ処理のパフォーマンスが最適化され、クエリの実行速度が向上します。
運用の簡素化：　一つのフォーマットでデータを管理できるため、運用が簡素化され、データエンジニアやアナリストの作業負担が軽減されます。

Delta FlinkやDelta Trino、Delta Rust、Delta Lake Python、Apache Druid、DuckDBなど他のエコシステムとの連携もできるようになっています。これはDelta Kernelという小さなライブラリを介してプラグ＆プレイすることで、Delta Lakeのフォーマットに変換・統合しています。

DuckDB v1.0の発表

DuckDBはのバージョン1.0が発表されました。

DuckDBは、軽量で高速な分析用データベースエンジンであり、データサイエンスや分析用途に適しています。 DuckDBはインメモリデータベースとして動作し、高速なクエリ処理が可能です。これにより、Delta Lake上のデータを迅速に分析できます。Delta Lakeのトランザクショナルサポートにより、データの整合性が確保され、DuckDBを使用しても信頼性の高いデータ分析が可能です。

DuckDBは、Delta Lakeをサポートし、Delta Kernelを使ってDelta Lakeと統合されます。これにより、メタデータを含むParquetファイルのDeltaテーブルの読み書きが可能となります。また、拡張によりUnity Catalogとやりとりできるようになっており、ローカルのテーブルと同じように読み込めるようになります。

Delta 4.0の発表

Delta 4.0についても発表があり、その中で2つの新機能について紹介がありました。

VARIANT型

新たに VARIANT データ型が導入されました。このデータ型は、スパースな半構造化データの取り扱いに特化しており、非構造データやスパースなテキストデータの利用が増加する中で、エンジニアが直面するトレードオフを解消するために設計されています。従来、エンジニアは、Flexible（柔軟性）、Fast（速さ）、Open（標準化）のトレードオフに悩まされます。

FlexibleとOpenを満たす場合：　String型を使用することで扱いやすくなるが、処理が遅い。
OpenとFastを満たす場合：　全てのフィールドを個々のカラムで解析するが、スパースなデータがある場合に非効率。
FastとFlexibleを満たす場合：　プロプライエタリなフォーマットを使用するが、これによりシステムが特定のフォーマットにロックインされるリスク。

VARIANT型は、これらのトレードオフを解決するために、JSONデータを柔軟かつ高パフォーマンスで処理することが可能です。 具体的には、VARIANT データ型を使用することで、String型に比べてJSONデータの処理速度が8倍に向上します。この新しいデータ型は、DeltaLake 4.0およびSpark 4.0で使用することができます。このように、Delta 4.0 の VARIANT データ型は、エンジニアにとって柔軟性、速度、オープンスタンダードのバランスを保ちながら、効率的にデータを扱うための強力なツールとなります。

Liquid Clustering

新たにLiquid Clusteringが導入されました。この機能はデータのパーティショニングに関する課題を解決し、データの処理速度と効率性を大幅に向上させるものです。従来のデータパーティショニングに伴う複雑さと手間を排除し、ユーザーにとってシンプルかつ効率的なデータ管理を提供するソリューションです。以下のような特徴があります。

パーティショニングの自動化
- ユーザーが手動でパーティショニングを行う必要がなくなります。自動的に最適なデータレイアウトを選択し、データの読み書きパフォーマンスを最適化します。
パフォーマンスの向上
- データの書き込みが従来の7倍速くなります。これにより、大規模データセットの迅速な処理が可能になります。また、データの読み取りも従来の12倍速くなります。これにより、クエリの応答時間が大幅に短縮され、リアルタイム分析が容易になります。
スキーマの進化が容易
- スキーマの変更が容易になり、新しいデータ形式やフィールドを迅速に取り入れることができます。データ管理の柔軟性が向上し、ビジネスの変化に迅速に対応できます。

Unity CatalogのOSS化

Unity CatalogはMATEI氏によりこの発表中にv0.1が公開されました。

現代のデータ活用とAIの分野では、ガバナンス、セキュリティ、品質、コンプライアンスが大きな課題となっています。 どのアプリケーションでも最初から高い基準のガバナンスが求められ、規制に適応しつつ、データの出所を把握し、モデルを作成する必要があります。多くの企業がガバナンスの問題でAIを活用できない状況にあります。規制は絶えず変化し、その対応が求められる中で、最初から理想的なガバナンスのソリューションが必要とされています。これを満たすために達成したい3つの目標があります。

オープンコネクティビティ：　プラグインがあれば誰でも利用できること。
統一されたガバナンス：　DataとAIに対して管理統一できるガバナンスがあること。
オープンアクセス：　どのPCやクライアントからでもアクセス可能であること。

そこで、Unity Catalogが作られました。それぞれの目標への対応は以下になります。

オープンコネクティビティ
- Lakehouse Federation：　データソースを効率的に接続し、管理する機能が一般提供されました。これにより、分散したデータを一元的に管理できます。
- Apache HiveとAWS Glueのサポート：　既存のHive MetastoreやGlueデータカタログとの統合が可能となり、既存のデータ資産を効率的に活用できます。
統一されたガバナンス
- データ品質モニタリング：　データテーブルやモデルの品質を自動的に監視し、品質に関するダッシュボードを提供します。
- 属性ベースアクセス制御：　タグを使用してデータにアクセス制御ポリシーを設定し、簡単にガバナンスを適用できます。
オープンアクセス
- Unity CatalogのOSSとしての公開を行い、また、Linux Foundationへのプロジェクト提案がされ、受諾されました。
- Iceberg Rest APIの実装により、他のエンジンからの接続が容易になります。

おわりに

Keynote Day2の前半は以上です！異なるデータフォーマットでも互換性を持ち取り込めるDelta Lake UniFormの発表、データとAIに統一なガバナンスを持たせるUnity CatalogのOSS化とその公開、Delta 4.0の発表と新機能であるVARIANT型のサポートやLiquid Clusteringについての紹介など、 Data Intelligenceを実現する上で必要な「Dataの民主化」と「AIの民主化」を実現していってることが分かる内容でした。 後半は、Databricks Clean RoomsやSpark 4.0の新機能など引き続き新しい内容が続くので、気になる方は今からでも是非チェックしてみてください。

OSSチーム紹介 | NTTデータグループ

私の所属する OSS(オープンソースソフトウェア)チームは、Hadoop/Spark/Kafka/HBaseなどの高難易度なOSSプロダクトのサポートを提供 しています。OSSコミュニティ活動やプロジェクト支援を実施するとともに、OSSでは提供しきれない中長期的なサポートも提供しています。チームには、 Hadoop/Spark/Bigtopなどのコミッタも在籍 しております。OSSを扱う時にお困りの際にはぜひお気軽にお問い合わせください。

問い合わせ・HPはこちら：https://oss.nttdata.com/
登壇資料などSlideShareはこちら：https://www.slideshare.net/hadoopxnttdata

databricks | NTTデータ

NTTデータは、お客様企業のデジタル変革・DXの成功に向けて、「databricks」のソリューションの提供に加え、情報活用戦略の立案から、AI技術の活用も含めたアナリティクス、分析基盤構築・運用、分析業務のアウトソースまで、ワンストップの支援を提供いたします。

問い合わせ・HPはこちら：https://enterprise-aiiot.nttdata.com/service/databricks

You get articles that match your needs
You can efficiently read back useful information
You can use dark theme

What you can do with signing up