はじめに
株式会社NTTデータグループ技術革新統括本部技術開発本部IOWN推進室のOSSチームの内藤です。普段は、HadoopやSparkなどの並列分散処理に関連するOSSを用いたシステム基盤の開発支援やサポートデスクの業務を担当しています。
Data + AI Summitは、Databricks社が毎年開催する最大規模のカンファレンスです。今年のテーマは 「DATA INTELLIGENCE FOR ALL」 であり、6月10日から6月13日までの4日間にわたって行われました。今年は過去最高の16,000人以上が現地から参加しており、500以上のセッションと130以上のスポンサーブースが展示されていました。
6月13日のKeynoteでは、Data Intelligence の機能に関するアップデートが発表されました!
1日目(6月12日)の振り返り
Data AI + Summit 2024の1日目のキーノートでは、DatabricksがデータとAIの民主化に向けたビジョンを示しました。DatabricksのCEOであるAli Ghodsi氏の講演では、生成AIの導入、データのセキュリティ、データの断片化の課題に対する戦略が紹介されました。Fei-Fei Li氏は、AIの進化とその重要性を語り、NVIDIAのJensen Huang氏は、計算環境の強化とAIモデルの重要性を強調しました。また、生成AIとDatabricks SQL/BIの新機能が発表され、データ分析の効率と使いやすさが向上しました。最後に、Mosaic AIのアップデートにより、高品質かつ安全な生成AIシステムの構築がより簡単になり、DatabricksがAIの民主化とデータインテリジェンスの向上を目指していることを示しました。1日目のKeynoteの記事については、以下をご覧ください。
- Data + AI Summit 2024 - Databricks 現地レポート(Keynote Day1)#1
- Data + AI Summit 2024 - Databricks 現地レポート(Keynote Day1)#2
Keynote (Day2)
YEJIN CHOI氏講演
ワシントン大学の教授であるYEJIN CHOI氏による、AIのトレーニングデータの質と将来AIがどのようなデータを生成して利用するかに関する講演が行われました!
AIは、学習するデータの質に依存しており、主に人間が生成したデータに依存しています。YEJIN CHOI氏の推測では、将来的にAIは、AI自身が生成したデータに依存するようになると考えています。現在、学習に使用することデータは膨大になってきており、それらの細かい管理や処理は大変なコストになってきています。 実際に必要なAIというのは、各ユースケースにおける特定のタスクに対応できるAIです。 AIによるデータの生成が進むことで、特定のタスクに特化した高性能なAIモデルの開発が可能となるでしょう。 重要なのは、規模だけでなく、ユースケースに対応できる質や新規性、データの多様性です。
RYAN BLUE氏講演
TabularのRYAN BLUE氏による、Tabular買収に関する対談が行われました!
Tabularの買収は、データフォーマットの統合の一環として行われました。TabularはApache Icebergを作ってきたエンジニアを抱えており、彼らとの協力がDelta Lakeとのフォーマットの統合を可能にしました。 この買収により、データフォーマットとクラスタリングの統合が進み、フォーマット間の互換性と一貫性が大きく向上しました。 これにより、データ管理の効率化と透明性が高まり、データの運用もよりスムーズになります。
関連記事:Databricks + Tabular|Databricks Blog
Delta Lake UniFormの発表
昨年のDATA+AI Summitで発表されたDelta Lake UniFormが一般公開になりました。UniFormは、Universal Formatの略です。
Apache Icebergなどの異なるデータフォーマットとの互換性と一貫性を確保するための統合ソリューションです。 主要なデータフォーマットであるDelta、Iceberg、Hudiをサポートし、それらをシームレスに連携させることを目的としています。
- データフォーマットの一元管理: Delta Lake UniFormを使用することで、異なるデータフォーマットを一元的に管理でき、データの一貫性と信頼性が向上します。
- パフォーマンスの向上: 統合されたでーたフォーマットやLiquid Clusteringのサポートにより、データ処理のパフォーマンスが最適化され、クエリの実行速度が向上します。
- 運用の簡素化: 一つのフォーマットでデータを管理できるため、運用が簡素化され、データエンジニアやアナリストの作業負担が軽減されます。
Delta FlinkやDelta Trino、Delta Rust、Delta Lake Python、Apache Druid、DuckDBなど他のエコシステムとの連携もできるようになっています。これはDelta Kernelという小さなライブラリを介してプラグ&プレイすることで、Delta Lakeのフォーマットに変換・統合しています。
関連記事:Iceberg との互換性を実現する Delta Lake Universal Format (UniForm) が GA に|Databricks Blog
DuckDB v1.0の発表
DuckDBはのバージョン1.0が発表されました。
DuckDBは、軽量で高速な分析用データベースエンジンであり、データサイエンスや分析用途に適しています。 DuckDBはインメモリデータベースとして動作し、高速なクエリ処理が可能です。これにより、Delta Lake上のデータを迅速に分析できます。Delta Lakeのトランザクショナルサポートにより、データの整合性が確保され、DuckDBを使用しても信頼性の高いデータ分析が可能です。
DuckDBは、Delta Lakeをサポートし、Delta Kernelを使ってDelta Lakeと統合されます。これにより、メタデータを含むParquetファイルのDeltaテーブルの読み書きが可能となります。また、拡張によりUnity Catalogとやりとりできるようになっており、ローカルのテーブルと同じように読み込めるようになります。
Delta 4.0の発表
Delta 4.0についても発表があり、その中で2つの新機能について紹介がありました。
VARIANT型
新たに VARIANT データ型が導入されました。このデータ型は、スパースな半構造化データの取り扱いに特化しており、非構造データやスパースなテキストデータの利用が増加する中で、エンジニアが直面するトレードオフを解消するために設計されています。従来、エンジニアは、Flexible(柔軟性)、Fast(速さ)、Open(標準化)のトレードオフに悩まされます。
- FlexibleとOpenを満たす場合: String型を使用することで扱いやすくなるが、処理が遅い。
- OpenとFastを満たす場合: 全てのフィールドを個々のカラムで解析するが、スパースなデータがある場合に非効率。
- FastとFlexibleを満たす場合: プロプライエタリなフォーマットを使用するが、これによりシステムが特定のフォーマットにロックインされるリスク。
VARIANT型は、これらのトレードオフを解決するために、JSONデータを柔軟かつ高パフォーマンスで処理することが可能です。 具体的には、VARIANT データ型を使用することで、String型に比べてJSONデータの処理速度が8倍に向上します。この新しいデータ型は、DeltaLake 4.0およびSpark 4.0で使用することができます。このように、Delta 4.0 の VARIANT データ型は、エンジニアにとって柔軟性、速度、オープンスタンダードのバランスを保ちながら、効率的にデータを扱うための強力なツールとなります。
Liquid Clustering
新たにLiquid Clusteringが導入されました。この機能はデータのパーティショニングに関する課題を解決し、データの処理速度と効率性を大幅に向上させるものです。 従来のデータパーティショニングに伴う複雑さと手間を排除し、ユーザーにとってシンプルかつ効率的なデータ管理を提供するソリューションです。 以下のような特徴があります。
-
パーティショニングの自動化
- ユーザーが手動でパーティショニングを行う必要がなくなります。自動的に最適なデータレイアウトを選択し、データの読み書きパフォーマンスを最適化します。
-
パフォーマンスの向上
- データの書き込みが従来の7倍速くなります。これにより、大規模データセットの迅速な処理が可能になります。また、データの読み取りも従来の12倍速くなります。これにより、クエリの応答時間が大幅に短縮され、リアルタイム分析が容易になります。
-
スキーマの進化が容易
- スキーマの変更が容易になり、新しいデータ形式やフィールドを迅速に取り入れることができます。データ管理の柔軟性が向上し、ビジネスの変化に迅速に対応できます。
Unity CatalogのOSS化
Unity CatalogはMATEI氏によりこの発表中にv0.1が公開されました。
現代のデータ活用とAIの分野では、ガバナンス、セキュリティ、品質、コンプライアンスが大きな課題となっています。 どのアプリケーションでも最初から高い基準のガバナンスが求められ、規制に適応しつつ、データの出所を把握し、モデルを作成する必要があります。多くの企業がガバナンスの問題でAIを活用できない状況にあります。規制は絶えず変化し、その対応が求められる中で、最初から理想的なガバナンスのソリューションが必要とされています。これを満たすために達成したい3つの目標があります。
- オープンコネクティビティ: プラグインがあれば誰でも利用できること。
- 統一されたガバナンス: DataとAIに対して管理統一できるガバナンスがあること。
- オープンアクセス: どのPCやクライアントからでもアクセス可能であること。
そこで、Unity Catalogが作られました。それぞれの目標への対応は以下になります。
-
オープンコネクティビティ
- Lakehouse Federation: データソースを効率的に接続し、管理する機能が一般提供されました。これにより、分散したデータを一元的に管理できます。
- Apache HiveとAWS Glueのサポート: 既存のHive MetastoreやGlueデータカタログとの統合が可能となり、既存のデータ資産を効率的に活用できます。
-
統一されたガバナンス
- データ品質モニタリング: データテーブルやモデルの品質を自動的に監視し、品質に関するダッシュボードを提供します。
- 属性ベースアクセス制御: タグを使用してデータにアクセス制御ポリシーを設定し、簡単にガバナンスを適用できます。
-
オープンアクセス
- Unity CatalogのOSSとしての公開を行い、また、Linux Foundationへのプロジェクト提案がされ、受諾されました。
- Iceberg Rest APIの実装により、他のエンジンからの接続が容易になります。
おわりに
Keynote Day2の前半は以上です!異なるデータフォーマットでも互換性を持ち取り込めるDelta Lake UniFormの発表、データとAIに統一なガバナンスを持たせるUnity CatalogのOSS化とその公開、Delta 4.0の発表と新機能であるVARIANT型のサポートやLiquid Clusteringについての紹介など、 Data Intelligenceを実現する上で必要な「Dataの民主化」と「AIの民主化」を実現していってることが分かる内容でした。 後半は、Databricks Clean RoomsやSpark 4.0の新機能など引き続き新しい内容が続くので、気になる方は今からでも是非チェックしてみてください。
関連リンク
- Data + AI Summit 2024 - Databricks 現地レポート(Keynote Day1)#1
- Data + AI Summit 2024 - Databricks 現地レポート(Keynote Day1)#2
- Data + AI Summit 2024 - Databricks 現地レポート(Keynote Day2)#1 ※本記事
- Data + AI Summit 2024 - Databricks 現地レポート(Keynote Day2)#2
- Data + AI Summit 2024 - Databricks 現地レポート(EXPOブース) ※近日公開
- Data + AI Summit 2024 - Databricks Keynote(Demo for Mosaic AI Agent Framework)
OSSチーム紹介 | NTTデータグループ
私の所属する OSS(オープンソースソフトウェア)チーム は、Hadoop/Spark/Kafka/HBaseなどの高難易度なOSSプロダクトのサポートを提供 しています。OSSコミュニティ活動やプロジェクト支援を実施するとともに、OSSでは提供しきれない中長期的なサポートも提供しています。チームには、 Hadoop/Spark/Bigtopなどのコミッタも在籍 しております。OSSを扱う時にお困りの際にはぜひお気軽にお問い合わせください。
-
問い合わせ・HPはこちら:https://oss.nttdata.com/
-
登壇資料などSlideShareはこちら:https://www.slideshare.net/hadoopxnttdata
databricks | NTTデータ
NTTデータは、お客様企業のデジタル変革・DXの成功に向けて、「databricks」のソリューションの提供に加え、情報活用戦略の立案から、AI技術の活用も含めたアナリティクス、分析基盤構築・運用、分析業務のアウトソースまで、ワンストップの支援を提供いたします。