はじめに
株式会社NTTデータ テクノロジーコンサルティング事業本部 の nttd-inoutk です。
Databricksのエバンジェリスト資格 Databricks Champion 認定者でもあります。
本記事では、Databricksの年次イベント「Data + AI Summit 2023」の基調講演1日目(6月28日)の内容のうち、Generation AIに特化した内容をお届けします。
本記事は#2になります。前回の記事はこちらから御覧ください。
概要
今回発表されたGenerative AIに関するトピックは大きく2つに分けられ、OSS LLMプロジェクトMPTを開発する MosaicML の買収、および自社のプラットフォーム上でのLLMモデル開発を助ける機能群の Lakehouse AI の発表です。
MosaicML
Data+AI Summit 2023 初日の6月26日に、DatabricksがMosaicMLを買収するとのリリースが出ました。
MosaicMLはダウンロード数が330万を超えた大規模言語モデルであるMPT-7B等の開発元として知られており、企業がいかにコスト効率の良い方法で、自社のデータを使って独自の最先端モデルを素早く構築できるのかを紹介してきました。
この理念はDatabricksがDollyをアナウンスした際に言及されていたものとかなり近しいため、親和性はかなり高く、「自社で構築した特化型AIモデル」が身近になり、すべての企業が活用をしているような世界観を実現するために大きく前進したと感じました。
基調講演ではMosaicML CEOの Naveen Rao 氏が、当初のスピーカー予定には含まれていなかったもののサプライズ登壇し、Gen AIの構築においては Control, Privacy, Cost の検討が必須であることや、MosaicMLのMPTモデルを利用すれば効果的なAIモデルがいかに手頃なコストで構築可能かについて言及しました。
項目 | 概要 |
---|---|
Control | 自社のIPをもって競合と差別化する |
Privacy | 自社のデータの完全なプライバシーを維持する |
Cost | より低コストで、自社のモデルを訓練・使用する |
Lakehouse AI
ChatGPTを始めとするGenerative AIの登場によって、AI活用は以前にも増して爆発的な注目を集めましたが、今後のAI活用戦略において重要なことは、「自社データをいかに活用するか」 を検討することです。
Generative AI は、今後SaaS型モデルの価格が下落すると予想されること、すでに高品質なOSSモデルが登場していることにより、どの企業もLLMの活用に手を出しやすい土壌が出来上がり、そのモデリング技術自体は急速に陳腐化していくと思われます。
そこで他社との差別化を図るために重要となるのは、自社しか知り得ないデータの活用 や、そのデータを活用した 自社でしか作成できない特定領域特化型のAIアプリ による競争優位性を獲得すること、となります。
今回のアップデート内容も、各企業が自社で独自のモデルを活用するためのフローを促進するための機能が中心となりました。
上記画像のように、Generative AIの活用フローは大きく以下の3つに分類されます。
- データの収集・加工
- 既存のモデル活用、または自身によるモデル構築
- モデルのサービング・監視
これらを、UnityCatalogの機能をベースに、データとAIアセット両方の総合的なガバナンスとリネージトラッキングを行った上で実現可能とした、Databricksにおけるデータ中心のAIプラットフォームの概念を指して Lakehouse AI と命名しているようです。
以降は、Lakehouse AIを構成する新機能の詳細について紹介します。
詳細は以下記事も合わせて御覧ください。
データの収集・加工
以下の2機能は、どちらもオンラインかつリアルタイムで実行するLLMアプリにおいて、自身が所有しているデータを利用できる状態に準備するための機能です。
Feature Serving
ソースとなるDeltaテーブルと自動で同期され、継続的に更新されるFeature Tableの機能です。
最新のデータを含めた特徴量をリアルタイムで提供し、モデルに推論させることができます。
Vector Search
いわゆる、ベクトルDB にあたる機能です。ドキュメントや非構造化データをベクトル空間に埋め込み、その意味と文脈を捉えることのできるベクトルに変換します。これを活用することで、テキスト情報をキーワード検索できるようになり、Generative AIがドキュメントを参考に回答を生成することが可能になります。
会場では、これらの機能を利用した具体的なユースケースの紹介も実施されました。
上記2つの機能は概念が難解ですが、具体的なユースケース内でどのように活用されるかを捉えることで、機能理解が容易になるかと思います。
とある企業のカスタマーサービスにおいて、顧客Aから「最後の注文を返品したい」との要望がありました。
カスタマーサポートの担当者が、LLMアプリケーションに、「顧客Aから最後の注文をキャンセルしたいと要望が来ている」と入力すると、アプリケーションは、まず Feature Serving によって実現されたオンライン特徴量ストアにアクセスして、この特定の顧客の最近の取引や注文に関する情報を取得し、それと合わせて、Vector Search が実現する文書検索エンジンによって、返品処理に関する企業の内部文書を検索し、返品に関するルールを取得しました。
これらの情報はLLMモデルに送信され、LLMアプリケーションから 「注文が過去30 分以内に行われているため、キャンセル可能です。キャンセルしますか」 と回答され、サポート担当者はキャンセル処理を正常に実施しました。
既存のモデル活用、または自身によるモデル構築
以下の3機能を活用することで、ユーザーは予め用意されたモデルを活用したり、GUIでモデルの学習やモデル毎の回答の比較を行ったりと、Generative AIのモデル活用のためのハードルを下げることができます。
Curated AI Models
用途別に優れたモデルをDatabricks社が厳選した、オープンソースモデルのライブラリです。
本機能は特にデモも実施されていないため全容は不明ですが、以下Databricks公式ブログの記載を確認する限りは、用途別に厳選したAIモデルがDatabricks Marketplace上で提供され、ユーザーが自由にダウンロードできるようにするというものに見受けられます。
最適化されたモデルサービングに支えられたキュレートされたモデルで、高いパフォーマンスを実現します:
ユースケースに最適なオープンソースのジェネレーティブAIモデルの調査に時間を費やすよりも、Databricksのエキスパートが一般的なユースケース向けにキュレートしたモデルに頼ることができます。私たちのチームは、モデルの状況を常に監視し、品質や速度など多くの要素について新しいモデルをテストしています。私たちは、Databricks Marketplaceでベストオブブリードの基礎モデルを利用できるようにし、デフォルトのUnityカタログでタスク固有のLLMを利用できるようにしています。モデルがUnityカタログに掲載されると、データを直接使用したり、微調整したりすることができます。これらのモデルごとに、Lakehouse AIのコンポーネントをさらに最適化します。例えば、モデル提供の待ち時間を最大10倍短縮します。
引用:https://www.databricks.com/jp/blog/lakehouse-ai
AutoML for LLM Training
DatabricksのAutoML機能を利用した、テキスト分類のための生成AIモデルの微調整や、データへの埋め込みモデルの微調整がサポートされます。これにより、Curated AI Modelsのモデルをベースに、社内のデータを利用して独自のモデルをチューニングするような作業は、GUIにおけるマウス操作で完結できるようになります。技術的なバックグラウンドが薄いユーザーでも手軽にモデルのチューニングができるようになり、また技術者たちの作業効率も向上するため、より組織のLLMモデル開発を促進できる機能になっています。
Mlflow Evaluation
MLflow 2.4で発表された、Generative AIのモデル評価を簡易にし、LLMモデルを適切に運用するための営み・テクニックであるLLMOpsを実現するための機能の1つです。
複数作成されたLLMモデルのうち、どれがベストな選択肢であるかを見極めるために、モデルごとの質問と回答を並べて表示するなどの機能を用いて、簡単に比較することができます。
https://mlflow.org/docs/latest/_images/artifact-view-ui.png
モデルのサービング・監視
Mlflow AI Gateway
組織内で、OpenAIを始めとするLLMアプリケーションを活用する権限をメンバーに与えるにつれて、レートリミットや認証情報の管理、急増するコスト、外部へ送信されるデータの追跡といった問題に直面すると想定されます。
そこで、MLflow 2.5の新機能の1つである MLflow AI Gateway を利用することで、Databricksのワークスペースレベルで API ゲートウェイを作成し、組織がそれぞれのアプリケーションへの経路を作成、ユーザーのアクセス権限までを一元管理することを可能にし、そして、様々なレート制限、キャッシュ、コスト帰属などを設定してコストや使用量を管理することができます。
Model Serving Optimized for LLMs
LLMモデルのサービングを実施するにあたり、LLMに最適化されたコンピューティングリソースが提供されます。リクエスト数に応じてオートスケールされるため、コストも必要最低限に最適化されます。
これまではサービングに使用できるサーバレス SQL Warehouseには、GPUを利用可能な選択肢が存在せず、CPUのみで事足りるワークロードでないと提供することができませんでした。しかし、今回GPUを扱える選択肢が出てきたことで、より複雑なワークロードにも耐えることができるようになり、実はかなり嬉しいアップデートポイントです。
Lakehouse Monitoring
モデルやデータをモニタリングすることで、感覚ではなく、メトリクスを用いてLLMのモデルを評価するための指標を提供します。モデルドリフトが発生した場合にはアラートを発出したり、それに限らず品質アラートを特徴量テーブルや推論テーブルなどを含めたリネージ全体で関連付けることで、原因の特定やデバッグ、再学習といった対応が容易になります。
おわりに
基調講演においては、Generative AIは利用するだけでは差別化要素にならず、自社が所有するデータを活用した独自のAIアプリケーションを作成し、特定の領域に特化したモデルを構築してビジネスに活用していく必要性が繰り返し説かれていました。そのうえで、ガバナンス、プライバシー、そしてコストとの兼ね合いを鑑みても、Databricksはそのどれも欠けることなく高いレベルで実現可能なソリューションであると思います。
是非、この強力なData+AIプラットフォームを活用して、組織や企業のデータ活用を促進していただければ幸いです!
関連リンク(随時追加予定)
- Data and AI Summit 2023 - Databricks 現地レポート(6/27 Partner Summit)
- Data and AI Summit 2023 - Databricks 現地レポート(6/28 基調講演 #1)
- Data and AI Summit 2023 - Databricks 現地レポート(6/29 基調講演 #1)
- Data and AI Summit 2023 - Databricks 現地レポート(6/29 基調講演 #2)
- Data and AI Summit 2023 - Databricks 現地レポート(EXPO)
仲間募集
NTTデータ テクノロジーコンサルティング事業本部 では、以下の職種を募集しています。
1. クラウド技術を活用したデータ分析プラットフォームの開発・構築(ITアーキテクト/クラウドエンジニア)
クラウド/プラットフォーム技術の知見に基づき、DWH、BI、ETL領域におけるソリューション開発を推進します。https://enterprise-aiiot.nttdata.com/recruitment/career_sp/cloud_engineer
2. データサイエンス領域(データサイエンティスト/データアナリスト)
データ活用/情報処理/AI/BI/統計学などの情報科学を活用し、よりデータサイエンスの観点から、データ分析プロジェクトのリーダーとしてお客様のDX/デジタルサクセスを推進します。https://enterprise-aiiot.nttdata.com/recruitment/career_sp/datascientist
3.お客様のAI活用の成功を推進するAIサクセスマネージャー
DataRobotをはじめとしたAIソリューションやサービスを使って、 お客様のAIプロジェクトを成功させ、ビジネス価値を創出するための活動を実施し、 お客様内でのAI活用を拡大、NTTデータが提供するAIソリューションの利用継続を推進していただく人材を募集しています。4.DX/デジタルサクセスを推進するデータサイエンティスト《管理職/管理職候補》
データ分析プロジェクトのリーダとして、正確な課題の把握、適切な評価指標の設定、分析計画策定や適切な分析手法や技術の評価・選定といったデータ活用の具現化、高度化を行い分析結果の見える化・お客様の納得感醸成を行うことで、ビジネス成果・価値を出すアクションへとつなげることができるデータサイエンティスト人材を募集しています。ソリューション紹介
Trusted Data Foundationについて
~データ資産を分析活用するための環境をオールインワンで提供するソリューション~https://enterprise-aiiot.nttdata.com/tdf/
最新のクラウド技術を採用して弊社が独自に設計したリファレンスアーキテクチャ(Datalake+DWH+AI/BI)を顧客要件に合わせてカスタマイズして提供します。
可視化、機械学習、DeepLearningなどデータ資産を分析活用するための環境がオールインワンで用意されており、これまでとは別次元の量と質のデータを用いてアジリティ高くDX推進を実現できます。
TDF-AM(Trusted Data Foundation - Analytics Managed Service)について
~データ活用基盤の段階的な拡張支援(Quick Start) と保守運用のマネジメント(Analytics Managed)をご提供することでお客様のDXを成功に導く、データ活用プラットフォームサービス~https://enterprise-aiiot.nttdata.com/service/tdf/tdf_am
TDF?-AMは、データ活用をQuickに始めることができ、データ活用の成熟度に応じて段階的に環境を拡張します。プラットフォームの保守運用はNTTデータが一括で実施し、お客様は成果創出に専念することが可能です。また、日々最新のテクノロジーをキャッチアップし、常に活用しやすい環境を提供します。なお、ご要望に応じて上流のコンサルティングフェーズからAI/BIなどのデータ活用支援に至るまで、End to Endで課題解決に向けて伴走することも可能です。
NTTデータとDatabricksについて
NTTデータは、お客様企業のデジタル変?・DXの成功に向けて、「databricks」のソリューションの提供に加え、情報活?戦略の?案から、AI技術の活?も含めたアナリティクス、分析基盤構築・運?、分析業務のアウトソースまで、ワンストップの?援を提供いたします。NTTデータとSnowflakeについて
NTTデータでは、Snowflake Inc.とソリューションパートナー契約を締結し、クラウド・データプラットフォーム「Snowflake」の導入・構築、および活用支援を開始しています。 NTTデータではこれまでも、独自ノウハウに基づき、ビッグデータ・AIなど領域に係る市場競争力のあるさまざまなソリューションパートナーとともにエコシステムを形成し、お客さまのビジネス変革を導いてきました。 Snowflakeは、これら先端テクノロジーとのエコシステムの形成に強みがあり、NTTデータはこれらを組み合わせることでお客さまに最適なインテグレーションをご提供いたします。NTTデータとInformaticaについて
データ連携や処理方式を専門領域として10年以上取り組んできたプロ集団であるNTTデータは、データマネジメント領域でグローバルでの高い評価を得ているInformatica社とパートナーシップを結び、サービス強化を推進しています。NTTデータとTableauについて
ビジュアル分析プラットフォームのTableauと2014年にパートナー契約を締結し、自社の経営ダッシュボード基盤への採用や独自のコンピテンシーセンターの設置などの取り組みを進めてきました。さらに2019年度にはSalesforceとワンストップでのサービスを提供開始するなど、積極的にビジネスを展開しています。これまでPartner of the Year, Japanを4年連続で受賞しており、2021年にはアジア太平洋地域で最もビジネスに貢献したパートナーとして表彰されました。
また、2020年度からは、Tableauを活用したデータ活用促進のコンサルティングや導入サービスの他、AI活用やデータマネジメント整備など、お客さまの企業全体のデータ活用民主化を成功させるためのノウハウ・方法論を体系化した「デジタルサクセス」プログラムを提供開始しています。
NTTデータとAlteryxについて
Alteryxは、業務ユーザーからIT部門まで誰でも使えるセルフサービス分析プラットフォームです。 Alteryx導入の豊富な実績を持つNTTデータは、最高位にあたるAlteryx Premiumパートナーとしてお客さまをご支援します。導入時のプロフェッショナル支援など独自メニューを整備し、特定の業種によらない多くのお客さまに、Alteryxを活用したサービスの強化・拡充を提供します。