はじめに
株式会社NTTデータ デザイン&テクノロジーコンサルティング事業本部 の nttd-yuan です。
Databricksのエバンジェリスト資格 Databricks Champion の認定を受けています。
現在、サンフランシスコで開催されているData + AI Summit 2024に参加しています!
Data and AI Summitは、Databricks社が毎年開催する最大規模のカンファレンスです。今年のテーマは 「DATA INTELLIGENCE FOR ALL」 であり、6月10日から6月13日までの4日間にわたって行われています。今年は過去最高の60,000人以上が視聴、16,000人以上が現地から参加しており、600以上のセッションと140以上のスポンサーブース展示があります。
本日(6月12日)のKeynoteでは、Generative AI と Databricks SQL/BI の機能に関するアップデートが発表されました!
Generative AI については本記事で、Databricks SQL/BIについてはData + AI Summit 2024 - Databricks 現地レポート(Keynote Day1)#2でお届けします!
その他の「Data + AI Summit 2024 - Databricks」のコンテンツについては、関連リンクからご参照ください。
Keynote (Day1)
CEO講演
DatabricksのCEOであるAli Ghodsi氏の講演から始まりました!
講演の内容を以下にまとめます。
データとAIの企業戦略
すべての企業がデータとAIを活用したいと考えています。過去18ヶ月間で、フォーチュン500企業から中小企業まで、データとAIの重要性が大幅に増加しました。Databricks社はデータの民主化をミッションとして掲げ、このニーズに応えています。
民主化の課題と解決策
-
課題1: ジェネレーティブAI(Gen AI)の導入
多くの企業がGen AIを活用したいと考えていますが、85%のユースケースはまだ本番環境に入っていません。高品質なAIの構築、コスト削減、プライバシーの確保が求められています。 -
課題2: データのセキュリティとプライバシー
データとAIのセキュリティに対する懸念やサイバー攻撃のリスクが依然として大きな課題です。 -
課題3: データの断片化
多くの異なるソフトウェアとデータプラットフォームが存在し、それに伴う複雑性とコストの増加が問題となっています。
Databricks社の戦略
Databricks社は以下の戦略でこれらの課題に対処しています。
- データを一元管理し、標準化されたフォーマット(Uniform)で保存します
- データガバナンス、セキュリティ、アクセスコントロールを提供し、ストレージレイヤ、セキュリティレイヤの標準化を目指しています(Unity Catalog)
- オープンソースプロジェクトへの貢献と拡張: Databricks社はオープンソースコミュニティに積極的に貢献し、その成果を広く利用可能にしています
- データとAIの民主化を進め、誰でも自然言語でデータにアクセスし、質問できる環境を提供しています(AI Assistant)
- カスタムAIモデルの構築と運用を容易にするためのツールも整備しています(Mosaic AI)
今後のビジョン
Databricks社はデータインテリジェンスを通じてデータとAIの利用を拡大し、より多くのユースケースの実現とイノベーションの促進を目指しています。
Generative AIの機能アップデート
MosaicML Incは、昨年Databricks社により買収したLLM開発企業であり、そのシナジーを活かして、Generative AIの 本番稼働品質の実装(Mosaic AI) に向けて待望の新機能が多く発表されました。
本番稼働品質の ML と生成 AI アプリケーションを構築、デプロイを機能群を Mosaic AI と呼びます。
なぜ本番稼働品質の複合的なAIシステム(Mosaic AI)が必要ですか?
近年、汎用的な大規模言語モデルは驚異的な速度で発展し、精度が飽和状態に近づいています。しかし、これらのモデルはパブリックインターネットから学習しているため、実際のビジネス業務に適用すると精度が大きく劣化することが多々あります。
このようなGeneral Intelligenceの状態から、企業のドメイン知識などのデータを適用するData Intelligenceに移行する必要があります。Data Intelligenceを実現するためには、複合的な(Compound)AIシステムの構築が必要です。
金融調査会社 FactSet の事例が挙げられました。テキストから財務数式へのユースケースに商用LLMを導入した際、生成された数式の精度は55%にとどまりました。モデルを複合システムにモジュール化し、各タスクを特化させることで、精度を85%に向上させることができました!(FactSet事例の詳細についてこちらをご参照ください。)
昨年のSummitでも、このような複合的な(Compound)AIシステムを構築するための機能ラインアップが発表されていましたが、今年はさらなるAIの民主化に向けてより効率的、高度な機能リリースが多く発表し、より高度な生成AIアプリケーションをより簡単に作成することができるようになります!
昨年のSummitにおける発表したAI/LLM機能の概要についてはこちらの記事をご参照ください。
複合的なAIシステムの構築には、一般的な上図に示すData -> Build -> Deploy -> Evaluate -> Dataのサイクルと、全体のGovernから構成されています。
各要素の機能アップデートを解説していきます!
Buildに関する機能アップデート
Mosaic AI Model Training Fine-tuning (NEW)
LLMモデルのファインチューニングは、これまでノートブックなどで複雑なコーディングが必要でしたが、GUIからノーコードで実施できるようになりました。
性能もGPT-4に匹敵するとのことで、非常にニーズの高い機能ではないでしょうか。大いに期待しています。
Deployに関する機能アップデート
RAG with Mosaic AI Vector Search (GA & Update)
RAG型生成AIアプリ構築に使用するベクトルDBの機能であるVector SearchはGAになりました。
8K のコンテキスト長をサポートする GTE-large 埋め込みモデル、およびデータの制御を強化するためにカスタマー管理キー、検索の品質を向上させるためのハイブリッド検索もサポートするようになりました。
Mosaic AI Tool Catalog (NEW)
共通関数のエンタープライズ レジストリを作成し、これらのツールを組織全体で共有して AI アプリケーションで使用できるようにする機能です。Unity Catalogに統合されています。
Mosaic AI Agent Framework (NEW)
RAG型生成AIアプリを迅速に開発・デプロイできるよう、エージェントフレームワークが提供されました。
開発者がRAGアプリの本番運用品質のエージェントを構築、展開、評価できるように設計された、 Databricks上の一連のツールで構成されています。
- 任意のライブラリとMLflowでエージェントを作成し、ログを記録し、パラメータ化で迅速に反復・拡張するツール
- トークンストリーミング、リクエスト/レスポンスログ、ユーザーフィードバック用レビューアプリを備えたエージェントを本番環境にデプロイするツール
- エージェントトレースで、コード全体のトレースをログに記録、分析、比較し、応答方法をデバッグするツール
会場ではTool Catalog、Agent Frameworkのデモンストレーションも行われていました。その解説記事もこちらで公開しているので、ぜひ合わせてご参照ください。
Evaluateに関する機能アップデート
Mosaic AI Agent Evaluation (NEW)
個人的に実に嬉しい新機能です!
LLMから高品質と高安全性の回答を得るために、正しくモデルを評価し、再調整することが必要です。
モデルのテストにおいて、回答をレビューおよびラベル付けし、運用品質評価を行い、拡張評価データセットを構築することができるようになります。
会場ではデモが行われ、この評価機能を利用することで簡単にハルシネーションが解消され、会場が大いに盛り上がりました!
さらに、AI システムにとっての高品質な回答がどのようなものか定義することで評価プロセスの自動化もできます。
MLflow 2.14 (NEW)
MLflow 2.14では、MLflow Tracing が発表されました。Tracing を使用すると、開発者はモデルとエージェントの推論の各ステップを記録して、パフォーマンスの問題をデバッグし、将来の改善をテストするための評価データセットを構築できます。
Governに関する機能アップデート
Mosaic AI Gateway (NEW)
モデルの管理、ガバナンス、評価、切り替えを簡単に行うための統合インターフェースを提供します。
- モデルAPI(外部または内部)のレート制限、権限管理、認証情報管理を可能にする
- 基盤モデルAPIを照会するための単一のインターフェースも提供し、システム内のモデルを簡単に交換し、ユースケースに最適なモデルを迅速に実験できる
- Gateway Usage Trackingで各モデルAPIを呼び出しているユーザーを追跡し、Inference Tablesで送受信データをキャプチャします。これにより、プラットフォームチームはレート制限の調整、チャージバックの実装、データ漏洩の監査方法を理解できる
その他参考情報
Mosaic AIの詳細についてはDatabricks公式からも記事が投稿されているため、こちらも合わせてご確認ください。
複合的なAIシステムについては、Matei Zaharia氏が執筆した以下のブログも合わせてお読みいただくと良いでしょう。
おわりに
Keynote Day1の前半パートは以上です!
新しく発表されたMosaic AIの機能群を通じて、Databricks社が掲げる「AIの民主化」が大きく進展していることが強く伝わってきました。昨年のSummitでの発表と比較して、特に「本番稼働品質」が印象に残りました。RAGアプリやファインチューニングアプリの構築だけでなく、本番稼働までの成熟度も向上していると実感しています。
関連リンク
- Data + AI Summit 2024 - Databricks 現地レポート(Keynote Day1)#1 ※本記事
- Data + AI Summit 2024 - Databricks Keynote(Demo for Mosaic AI Agent Framework)
- Data + AI Summit 2024 - Databricks 現地レポート(Keynote Day1)#2
- Data + AI Summit 2024 - Databricks 現地レポート(Keynote Day2)#1
- Data + AI Summit 2024 - Databricks 現地レポート(Keynote Day2)#2
仲間募集
NTTデータ テクノロジーコンサルティング事業本部 では、以下の職種を募集しています。
1. クラウド技術を活用したデータ分析プラットフォームの開発・構築(ITアーキテクト/クラウドエンジニア)
クラウド/プラットフォーム技術の知見に基づき、DWH、BI、ETL領域におけるソリューション開発を推進します。https://enterprise-aiiot.nttdata.com/recruitment/career_sp/cloud_engineer
2. データサイエンス領域(データサイエンティスト/データアナリスト)
データ活用/情報処理/AI/BI/統計学などの情報科学を活用し、よりデータサイエンスの観点から、データ分析プロジェクトのリーダーとしてお客様のDX/デジタルサクセスを推進します。https://enterprise-aiiot.nttdata.com/recruitment/career_sp/datascientist
3.お客様のAI活用の成功を推進するAIサクセスマネージャー
DataRobotをはじめとしたAIソリューションやサービスを使って、 お客様のAIプロジェクトを成功させ、ビジネス価値を創出するための活動を実施し、 お客様内でのAI活用を拡大、NTTデータが提供するAIソリューションの利用継続を推進していただく人材を募集しています。4.DX/デジタルサクセスを推進するデータサイエンティスト《管理職/管理職候補》
データ分析プロジェクトのリーダとして、正確な課題の把握、適切な評価指標の設定、分析計画策定や適切な分析手法や技術の評価・選定といったデータ活用の具現化、高度化を行い分析結果の見える化・お客様の納得感醸成を行うことで、ビジネス成果・価値を出すアクションへとつなげることができるデータサイエンティスト人材を募集しています。ソリューション紹介
Trusted Data Foundationについて
~データ資産を分析活用するための環境をオールインワンで提供するソリューション~https://enterprise-aiiot.nttdata.com/tdf/
最新のクラウド技術を採用して弊社が独自に設計したリファレンスアーキテクチャ(Datalake+DWH+AI/BI)を顧客要件に合わせてカスタマイズして提供します。
可視化、機械学習、DeepLearningなどデータ資産を分析活用するための環境がオールインワンで用意されており、これまでとは別次元の量と質のデータを用いてアジリティ高くDX推進を実現できます。
TDFⓇ-AM(Trusted Data Foundation - Analytics Managed Service)について
~データ活用基盤の段階的な拡張支援(Quick Start) と保守運用のマネジメント(Analytics Managed)をご提供することでお客様のDXを成功に導く、データ活用プラットフォームサービス~https://enterprise-aiiot.nttdata.com/service/tdf/tdf_am
TDFⓇ-AMは、データ活用をQuickに始めることができ、データ活用の成熟度に応じて段階的に環境を拡張します。プラットフォームの保守運用はNTTデータが一括で実施し、お客様は成果創出に専念することが可能です。また、日々最新のテクノロジーをキャッチアップし、常に活用しやすい環境を提供します。なお、ご要望に応じて上流のコンサルティングフェーズからAI/BIなどのデータ活用支援に至るまで、End to Endで課題解決に向けて伴走することも可能です。
OSSチーム紹介 | NTTデータグループ
株式会社NTTデータグループ OSS(オープンソースソフトウェア)チームは、Hadoop/Spark/Kafka/HBaseなどの高難易度なOSSプロダクトのサポートを提供 しています。OSSコミュニティ活動やプロジェクト支援を実施するとともに、OSSでは提供しきれない中長期的なサポートも提供しています。チームには、 Hadoop/Spark/Bigtopなどのコミッタも在籍 しております。OSSを扱う時にお困りの際にはぜひお気軽にお問い合わせください。
-
問い合わせ・HPはこちら:
https://oss.nttdata.com/ -
登壇資料などSlideShareはこちら:
https://www.slideshare.net/hadoopxnttdata
NTTデータとDatabricksについて
NTTデータは、お客様企業のデジタル変⾰・DXの成功に向けて、「databricks」のソリューションの提供に加え、情報活⽤戦略の⽴案から、AI技術の活⽤も含めたアナリティクス、分析基盤構築・運⽤、分析業務のアウトソースまで、ワンストップの⽀援を提供いたします。NTTデータとSnowflakeについて
NTTデータでは、Snowflake Inc.とソリューションパートナー契約を締結し、クラウド・データプラットフォーム「Snowflake」の導入・構築、および活用支援を開始しています。 NTTデータではこれまでも、独自ノウハウに基づき、ビッグデータ・AIなど領域に係る市場競争力のあるさまざまなソリューションパートナーとともにエコシステムを形成し、お客さまのビジネス変革を導いてきました。 Snowflakeは、これら先端テクノロジーとのエコシステムの形成に強みがあり、NTTデータはこれらを組み合わせることでお客さまに最適なインテグレーションをご提供いたします。NTTデータとInformaticaについて
データ連携や処理方式を専門領域として10年以上取り組んできたプロ集団であるNTTデータは、データマネジメント領域でグローバルでの高い評価を得ているInformatica社とパートナーシップを結び、サービス強化を推進しています。NTTデータとTableauについて
ビジュアル分析プラットフォームのTableauと2014年にパートナー契約を締結し、自社の経営ダッシュボード基盤への採用や独自のコンピテンシーセンターの設置などの取り組みを進めてきました。さらに2019年度にはSalesforceとワンストップでのサービスを提供開始するなど、積極的にビジネスを展開しています。これまでPartner of the Year, Japanを4年連続で受賞しており、2021年にはアジア太平洋地域で最もビジネスに貢献したパートナーとして表彰されました。
また、2020年度からは、Tableauを活用したデータ活用促進のコンサルティングや導入サービスの他、AI活用やデータマネジメント整備など、お客さまの企業全体のデータ活用民主化を成功させるためのノウハウ・方法論を体系化した「デジタルサクセス」プログラムを提供開始しています。
NTTデータとAlteryxについて
Alteryxは、業務ユーザーからIT部門まで誰でも使えるセルフサービス分析プラットフォームです。 Alteryx導入の豊富な実績を持つNTTデータは、最高位にあたるAlteryx Premiumパートナーとしてお客さまをご支援します。導入時のプロフェッショナル支援など独自メニューを整備し、特定の業種によらない多くのお客さまに、Alteryxを活用したサービスの強化・拡充を提供します。