はじめに
本記事では、Databricksのイベント「Databricks Data + AI Summit 2024」で発表されたKeynoteの内容、特にMosaic AIのアップデートに関する日本語訳を紹介します。
Mosaic AI Model Training Fine-tuningの発表
LLMモデルに対して、GUI上でノーコードでファインチューニングが可能になりました。ビジネスにおいて特定のタスクに特化したモデルを作成する場合、この機能は非常に有用です。セッション内で言及された2つの例を以下に紹介します。
FOX SPORTSによるAIモデルのファインチューニング
FOX SPORTSは、過去100年間のプレイバイプレイコンテンツを活用してAIモデルをファインチューニングしています。これにより、スポーツイベントで以下の内容を自動的に識別し、視聴者に提供することが可能になりました。
- 重要度が高い場面:「The highs」とラベル付けされた勝利の瞬間や重要なプレイのシーン
- 重要度が低い場面:「The lows」とラベル付けされた敗北や失敗のシーン
ATLASIANによるクエリ生成モデルのファインチューニング
ATLASIANは、顧客のためにクエリを生成するモデルをファインチューニングしています。これにより、ユーザーの要求に応じた効率的なクエリ生成が可能になりました。
HTMLドキュメントの抽出:コード生成のために必要なHTMLドキュメントを抽出
- JSONディスクリプタへの変換:抽出したドキュメントをJSONディスクリプタに変換
- 入力/出力ペアの生成(LLM):大規模言語モデル(LLM)を用いて入力と出力のペアを生成
- パラフレーズおよび変異体の作成(LLM):LLMを用いて異なるバリエーションのクエリを生成
- 入力と出力の収集:生成されたクエリの入力と出力を収集
- 曖昧なクエリの自動フィルタリング(LLM):曖昧なクエリを自動的にフィルタリング
- 必要に応じた手動フィルタリング:手動でフィルタリングすることで精度をさらに向上
Mosaic AI Vector Searchの発表
Mosaic AI Vector Searchは、エンタープライズデータを迅速に検索可能にするソリューションです。完全に管理された埋め込み生成を提供し、新たにGTE埋め込みモデルを導入しています。
セッション内では Vector Search の例として Corning 社の例が言及されていました。
Corning 社における研究支援の例
- 材料研究はコーニング社の知的財産の中心であり、彼らは研究を容易に利用できるようにするためのAIツールを構築しています
- Mosaic AI Vector Searchを使用して、特許データを活用した拡張モデルが研究者を支援します
コーニング社が材料研究においてVector Searchを活用し、特許データを利用して研究を支援するためのAIツールを構築していることが強調されていました。
Mosaic AI Tool Catalogの発表
企業向けAIツールを簡単に作成、公開、共有するためのプラットフォームです。UnityCatalogに統合されるため、ガバナンスを担保しながら利用可能な点が特徴です。
Mosaic AI Agent Frameworkの発表
エージェントおよび RAG(Retrieval-Augmented Generation)アプリケーションを迅速に構築および展開するためのフレームワークです。主な機能として以下の点が言及されていました。
- Agent SDK:エンドツーエンドのエージェントおよびRAGアプリケーションを迅速に構築
- Agent Serving:リアルタイムAPIエンドポイントとしてエージェントとRAGアプリケーションを展開
Mosaic AI Agent Evaluationの発表
AIアプリケーションの品質を評価し、フィードバックを収集して問題を特定および改善するためのツールです。
具体的には以下のフローを繰り返すことでアプリケーションの質の評価を実施します。
1.基準を定義する(Define ground truth):評価の基準を定義。
2.人間による評価(Human grading):人間の評価者からのフィードバックを収集。
3.AI評価者(AI evaluators):AIによる自動評価。
4.低品質を追跡してデバッグする(Track and debug low quality):低品質の部分を追跡しデバッグ。
MLflow 2.14の発表
Tracing が発表されており、使用することでモデルとエージェントの推論についての記録やパフォーマンス問題のデバッグが可能になるといった、開発者をサポートする機能となっています。
Mosaic AI Gatewayの発表
AIの利用において、レート制限や使用状況などの利用に関する管理、権限やクレデンシャルの管理などセキュリティに関する制御を強化するツールとなっています。
まとめ
昨今の市場においては、生成AIの導入がある程度進んでおり、自社データに対して生成AIをどのように最適化するかが重要な課題となっています。その中で、今回のアップデートは開発者の負担を軽減するものと思います。個人的には、プロジェクト実行時に性能の評価が問題になることが多いため、Mosaic AI Agent Evaluationに非常に注目しています。
Databricks Champion からのコメント
LLM の Evaluation は確かに課題になることは多いですね。
Databricks ではただモデルを作るだけのプラットフォームにとどまらず、今後評価・改善していくフェーズを見据えた機能が続々とアップデートしていくのが非常に魅力的です。
これらのアップデートによってモデル開発者の負担を減らし、各企業のビジネスにバリューをだしてくれるモデルが誕生してくれることに期待です!