はじめに
株式会社NTTデータ テクノロジーコンサルティング事業本部 の nttd-inoutk です。
Databricksのエバンジェリスト資格 Databricks Champion 認定者でもあります。
現在、Databricks Data + AI Summit 2023に現地参加中です。Data + AI Summitは、Databricks社が年次で開催する最大規模のカンファレンスで、2023年は6月26日から6月29日までの4日間にわたり、アメリカ サンフランシスコ現地とバーチャルで開催されています。今年は過去最多の75,000人が登録し、現地にも12,000人が参加(現地参加はSold Out!)しているとのこと。
基調講演1日目の目玉は、自然言語のナレッジエンジンであるLakehouse IQと、自分たちの環境で生成AIモデルを構築するための機能を充実させるLakehouse AIでしょうか。
前者は本記事で、後者は#2(近日公開予定)にてお届けします。
基調講演(6月28日)
28日の基調講演のテーマは「Generation AI」です。
Welcome
Databricks社CEOのAli Ghodsi氏の挨拶から始まりました。
Live Virtual Q/A : Microsoft CEO
Microsoft社のCEO Satya Nadella氏がバーチャル出演するこのセッションでは、近年急速に普及した生成AIがもたらした利益と、その反面、ハルシネーションやそれに伴う誤情報の流布など課題があることをふまえ、両社のようなLLM技術のデベロッパーがコントロールし、「責任あるAI」を作る必要性があるという話がありました。
そして、これまで両社がこれまで築いてきたベストな関係性を再確認し、今後も生成AIの領域を始めとしてパートナーシップを強化していくとのことでした。
Microsoft社は、Lakehouseを実現するサービスである Microsoft Fablic を2023年5月に発表しているため、両社の協業によってLakehouseがどのように進化していくのかも楽しみです。
Fireside Customer Chat
JP Morgan Chaseでは、500PBに及ぶデータを活用した、データ駆動型の経営を実践しており、リアルタイムの機械学習による不正検知も行っているとのこと。
生成AIを始めとして、英語または各人のネイティブ言語でコンピュートを扱うことができるようになれば更に民主化が進んでいくと考えていること、また、AIのリスクやセキュリティについては厳格に対処し、チームとして責任をもって進めなくてはいけないと考えていることなど言及がありました。
Lakehouse IQ
UnityCatalogやダッシュボード、ノートブック、パイプラインやドキュメントまで、Databricksのレイクハウスを構成する要素において自然言語によるアクセスを可能とするナレッジエンジンです。
会場では、自然言語によるSQLクエリの作成から、ダッシュボードの一部データに不備を感じた際に自然言語ベースで原因の特定や修正を実施していくユースケースのデモが実施されました。他にも、検索を自然言語ベースで実施することも可能で、ドメイン知識や社内用語の解釈までカバーしているとのことなので、仕事の形が大きく変わる可能性を感じます。
詳細はDatabricks公式からも記事が投稿されているため、こちらも合わせてご確認ください。
Data Governance
詳細はDatabricks公式からも記事が投稿されているため、こちらも合わせてご確認ください。
Delta Lake 3.0
3.0でのアップデートはいくつか存在しますが、基調講演で触れられたDelta Universal Format (UniForm)がメインになると思います。
これまで、Lakehouseを自社の環境に導入する際、ファイルフォーマットをDelta lake、Apache Iceberg、Apache Hudiの3つの内から1つ選択する必要がありました。これらのフォーマットはコンセプトは近く、実データがParquetであることは共通している一方で、メタデータの持ち方が異なるために互換性を持たず、サードパーティ製品のコネクターの対応状況も異なるため、制約となる場合が多くありました。
しかし、UniFormの登場により、Delta lakeに保存されたデータに対して、Apache IcebergやApache Hudiのデータとして読み込むために必要なメタデータを自動的に生成することで、別のフォーマットと同じように読み取ることができるようになります。
その結果、ユーザーはDelta lakeを選択することで、ビジネスニーズが変化し別のフォーマットとしてデータを扱う必要が出てきた場合(例として、BigQueryを使用するニーズが発生しIcebergフォーマットとしてデータを読み込みたくなった場合)にも対応が可能であるため、安心してDelta lakeを選択することができるようになりました。
その他のアップデートについては以下を合わせて御覧ください。
Lakehouse Federation
UniFormがDelta lake内部のデータにアクセスさせるための機能である一方、こちらはDelta lake外部のデータにアクセスするための機能と理解していただければよいかと思います。
データは、他のEnterprise製品も含めて多くのサイロに別れてしまっていることが多いため、一元的にデータを管理可能なシングルポイントが必要であり、それを実現するための機能がLakehouse Federationとのことです。
PostgreSQLやSnowflakeなど、外部のデータベースをUnityCatalog上に登録することで、クエリの実行やDatabricksのアカウントレベルでのアクセス制御を行うことも可能です。キーノート後の個別セッションで確認したところ、データのマスキング等も可能なようでした。
Unity Catalog for AI
具体的には、MLflowで記録したモデル、Feature Table、そして、Volumesと呼ばれる非構造化データを始めとしたファイルを格納する領域の3点を、UnityCatalogのオブジェクトとして登録することができるようになります。
すると、アクセス制御が可能になることに加えて、これまでは、ソースとターゲットがともにUnityCatalogに登録されたテーブル同士の場合でないとリネージを取得することができなかったところ、モデルやFeature Table、ファイルまでを含めたリネージが取得できるようになるため、データの管理や分析業務がより効率的に実践可能になります。
Lakehouse Monitoring
Lakehouse Monitoringは、2023年5月頃に買収をしたとのアナウンスがされていたAI中心のデータ・ガバナンス・プラットフォーム Okeraをベースとした、データからモデルまでデータパイプライン全体をモニタリングするための機能です。
AIベースのデータ分類テクノロジーで、PII情報の自動識別や、データとMLモデルパイプラインの品質問題やエラーに対してアラートを発すること、また、ダッシュボードが自動生成されるため簡単にレポートとして共有することができます。
本機能を、Unity Catalogのリネージ機能と組み合わせることで、リネージの上流をたどることでアラートが発生した根源を特定・デバッグ、下流をたどることで影響範囲を効率的に見極めることができるようになるため、運用効率を最大限まで高めることが可能です。
Lakehouse Observability
Unity Catalogにおける監査、リネージ、コスト情報等のシステムテーブルを作成する機能です。このテーブルを活用することで、コストや使用状況の分析、また各オブジェクトの監査情報の分析が可能になります。
これまでもユーザー側でデータを取得しテーブルを作成することは可能であったため、プラットフォーム側で自動で作成してくれるようになった、というところが今回のアップデートで享受できるメリットかと思います。
Price & Performance
これまで、データを可視化するクエリを検討する際は「Fast(速さ)」「Easy(簡単さ)」「Cheap(コストの低さ)」の3つのうち、すべてを満たす事はできず、基本的には優先度に従い2つを選択し、1つを犠牲にする必要があるというのが通説でした。
ex) 速くて、コストが低いクエリを検討するためには、複雑なチューニングが必要になり、簡単さは損なわれる
その対策として、Databricksでは以下3つのAIドリブンな最適化を実施することが可能です。
項目 | 概要 | |
---|---|---|
1 | Indexless Index | Photonが有効化されたコンピューティングでは、Predictive I/Oによって、リッチなインデックスを作成しなくとも読み書きを安く、高速に実施する。 |
2 | Automatic Data Layout Optimization | ファイルサイズの選択やクラスタリングの自動実行、OPTIMYZE/VACUUMの実行によって、データのレイアウトをクエリのコストパフォーマンスが良い形に変更する。 |
3 | Intelligent Workload Management | 過去のワークロードから継続的に学習し、AIの力で、クエリをすぐ実行するか、クエリと並行してクラスターをスケールアップするか決定する。 |
Data Sharing
主なトピックはDatabricks MarketplaceのGA発表、Lakehouse Appsの発表です。そして、ここにデータのレプリケーションを必要としない複数社間でのコラボレーションを実現するClean Roomsも合わせると、ユーザーはデータやコード、ダッシュボードにAIモデル、そしてアプリケーションまでセキュアに共有する事ができるため、Data + AIの領域の大部分でお客様やパートナーとのセキュアなコラボレーションが可能になりました
上記3機能は、Delta Sharingというセキュアな共有の仕組みによって実現されています。
Databricks Marketplace
GAの発表とともに、これまでのデータやNotebook等の共有に加えて、AIモデルの共有が可能になりました。
Lakehouse Apps
Databricks上でネイティブアプリケーションを構築する新たな手段で、セキュリティやガバナンス機能を維持しつつ、Marketplaceを通じてAIアプリケーションを構築、配布、実行することができるようになります。
Closing
28日の基調講演のトピックは、大きく分けて3項目に分類されます。
1. 企業全体のデータ分析を民主化
- Lakehouse IQ
- Databricks Marketplace
- Lakehouse Apps
2. 生成AIアプリケーションの開発
- MosaicML
- Vector Search
- Model Serving
- Unity Catalog for AI
3. 全データに対して統一されたガバナンスの履行
- Unity Catalog
- Lakehouse Federation
- Lakehouse Monitoring
- Delta Lake 3.0
おわりに
基調講演のテーマは生成AIであるものの、これまでと一貫した「Data+AIの民主化」というキーワードも色濃く体現された内容になっていたと感じます。Lakehouse IQや、Lakehouse Appsなど、Data+AI業務の敷居を下げるアップデートも非常に印象的でした。
是非、本記事をご覧になられている皆様にも実際にそのパワーを体感いただき、組織や企業のデータ活用に役立てていただければと思います!
関連リンク(随時追加予定)
- Data and AI Summit 2023 - Databricks 現地レポート(6/27 Partner Summit)
- Data and AI Summit 2023 - Databricks 現地レポート(6/28 基調講演 #2)
- Data and AI Summit 2023 - Databricks 現地レポート(6/29 基調講演 #1)
- Data and AI Summit 2023 - Databricks 現地レポート(6/29 基調講演 #2)
- Data and AI Summit 2023 - Databricks 現地レポート(EXPO)
仲間募集
NTTデータ テクノロジーコンサルティング事業本部 では、以下の職種を募集しています。
1. クラウド技術を活用したデータ分析プラットフォームの開発・構築(ITアーキテクト/クラウドエンジニア)
クラウド/プラットフォーム技術の知見に基づき、DWH、BI、ETL領域におけるソリューション開発を推進します。https://enterprise-aiiot.nttdata.com/recruitment/career_sp/cloud_engineer
2. データサイエンス領域(データサイエンティスト/データアナリスト)
データ活用/情報処理/AI/BI/統計学などの情報科学を活用し、よりデータサイエンスの観点から、データ分析プロジェクトのリーダーとしてお客様のDX/デジタルサクセスを推進します。https://enterprise-aiiot.nttdata.com/recruitment/career_sp/datascientist
3.お客様のAI活用の成功を推進するAIサクセスマネージャー
DataRobotをはじめとしたAIソリューションやサービスを使って、 お客様のAIプロジェクトを成功させ、ビジネス価値を創出するための活動を実施し、 お客様内でのAI活用を拡大、NTTデータが提供するAIソリューションの利用継続を推進していただく人材を募集しています。4.DX/デジタルサクセスを推進するデータサイエンティスト《管理職/管理職候補》
データ分析プロジェクトのリーダとして、正確な課題の把握、適切な評価指標の設定、分析計画策定や適切な分析手法や技術の評価・選定といったデータ活用の具現化、高度化を行い分析結果の見える化・お客様の納得感醸成を行うことで、ビジネス成果・価値を出すアクションへとつなげることができるデータサイエンティスト人材を募集しています。ソリューション紹介
Trusted Data Foundationについて
~データ資産を分析活用するための環境をオールインワンで提供するソリューション~https://enterprise-aiiot.nttdata.com/tdf/
最新のクラウド技術を採用して弊社が独自に設計したリファレンスアーキテクチャ(Datalake+DWH+AI/BI)を顧客要件に合わせてカスタマイズして提供します。
可視化、機械学習、DeepLearningなどデータ資産を分析活用するための環境がオールインワンで用意されており、これまでとは別次元の量と質のデータを用いてアジリティ高くDX推進を実現できます。
TDF-AM(Trusted Data Foundation - Analytics Managed Service)について
~データ活用基盤の段階的な拡張支援(Quick Start) と保守運用のマネジメント(Analytics Managed)をご提供することでお客様のDXを成功に導く、データ活用プラットフォームサービス~https://enterprise-aiiot.nttdata.com/service/tdf/tdf_am
TDF?-AMは、データ活用をQuickに始めることができ、データ活用の成熟度に応じて段階的に環境を拡張します。プラットフォームの保守運用はNTTデータが一括で実施し、お客様は成果創出に専念することが可能です。また、日々最新のテクノロジーをキャッチアップし、常に活用しやすい環境を提供します。なお、ご要望に応じて上流のコンサルティングフェーズからAI/BIなどのデータ活用支援に至るまで、End to Endで課題解決に向けて伴走することも可能です。
NTTデータとDatabricksについて
NTTデータは、お客様企業のデジタル変?・DXの成功に向けて、「databricks」のソリューションの提供に加え、情報活?戦略の?案から、AI技術の活?も含めたアナリティクス、分析基盤構築・運?、分析業務のアウトソースまで、ワンストップの?援を提供いたします。NTTデータとSnowflakeについて
NTTデータでは、Snowflake Inc.とソリューションパートナー契約を締結し、クラウド・データプラットフォーム「Snowflake」の導入・構築、および活用支援を開始しています。 NTTデータではこれまでも、独自ノウハウに基づき、ビッグデータ・AIなど領域に係る市場競争力のあるさまざまなソリューションパートナーとともにエコシステムを形成し、お客さまのビジネス変革を導いてきました。 Snowflakeは、これら先端テクノロジーとのエコシステムの形成に強みがあり、NTTデータはこれらを組み合わせることでお客さまに最適なインテグレーションをご提供いたします。NTTデータとInformaticaについて
データ連携や処理方式を専門領域として10年以上取り組んできたプロ集団であるNTTデータは、データマネジメント領域でグローバルでの高い評価を得ているInformatica社とパートナーシップを結び、サービス強化を推進しています。NTTデータとTableauについて
ビジュアル分析プラットフォームのTableauと2014年にパートナー契約を締結し、自社の経営ダッシュボード基盤への採用や独自のコンピテンシーセンターの設置などの取り組みを進めてきました。さらに2019年度にはSalesforceとワンストップでのサービスを提供開始するなど、積極的にビジネスを展開しています。これまでPartner of the Year, Japanを4年連続で受賞しており、2021年にはアジア太平洋地域で最もビジネスに貢献したパートナーとして表彰されました。
また、2020年度からは、Tableauを活用したデータ活用促進のコンサルティングや導入サービスの他、AI活用やデータマネジメント整備など、お客さまの企業全体のデータ活用民主化を成功させるためのノウハウ・方法論を体系化した「デジタルサクセス」プログラムを提供開始しています。
NTTデータとAlteryxについて
Alteryxは、業務ユーザーからIT部門まで誰でも使えるセルフサービス分析プラットフォームです。 Alteryx導入の豊富な実績を持つNTTデータは、最高位にあたるAlteryx Premiumパートナーとしてお客さまをご支援します。導入時のプロフェッショナル支援など独自メニューを整備し、特定の業種によらない多くのお客さまに、Alteryxを活用したサービスの強化・拡充を提供します。