Building and Customizing GenAI with Databricks: LLMs and Beyond | Databricks Blogの翻訳です。
本書は抄訳であり内容の正確性を保証するものではありません。正確な内容に関しては原文を参照ください。
生成AIはビジネスにおける可能性の新たな世界を開き、様々な企業で徹底的に導入されています。最近のMIT Tech Reviewレポートによると、調査に協力した600人のCIOは全てAIへの投資を強化していると述べており、71%が自分でカスタムしたLLMや別の生成AIモデルを構築することを計画していると述べています。しかし、多くの企業においては自身のデータでトレーニングしたモデルを効果的に配備するために必要なツールが欠けているかもしれません。
生成AIに飛び込むということは、チャットbotを配備するということだけではありません。データ管理に対する根本的な考え方を変革する必要があります。この変革の中央には、新たな「モダンデータスタック」としてのデータレイクハウスの出現があります。生成AIの完全なポテンシャルを活用し、データやAIのテクノロジーをより迅速、よりコスト効率高く、そしてより広く民主感するためには、これらの先進的なデータアーキテクチャが重要となります。競争優位性のために、ビジネスがこれまで以上に生成AIで強化されたツールやアプリケーションに依存するようになると、背後にあるデータインフラストラクチャは、これらの先進的なテクノロジーを効果的かつセキュアにサポートするために進化する必要があります。
Databricksのデータインテリジェンスプラットフォームは、生データの取り込み、モデルのカスタマイズ、最終的にはプロダクションで利用するアプリケーションに至る全体的なAIライフサイクルをサポートできるエンドツーエンドのプラットフォームです。さんらなるコントロール、エンジニアリングの効率性、TCOの削減を提供します: より厳密なセキュリティとモニタリングを通じたモデルとデータに対する完全なコントロール、ガバナンス、リネージ、透明性によるMLモデルの本格運用の容易化、企業自身のモデルをトレーニングするためのコストの削減を実現します。Databricksは、特に企業のプロプライエタリなモデルを開発するために、プロンプトエンジニアリング、RAG、ファインチューニング、事前トレーニングを含むこれらの包括的なサービスを徹底的に提供できる唯一のプロバイダーとしてずば抜けています。
この記事では、企業が自身の生成AIアプリケーションを構築するために企業がなぜDatabricksを活用しているのか、なぜDatabricksのデータインテリジェンスプラットフォームが企業のAIにベストなプラットフォームなのか、どのように使い始めることができるのかを説明します。エキサイトしていますか?我々もです!以下のトピックをカバーします:
- 生成AIアプリケーションを強化し、よりスマートな意思決定をするために、我々自身のデータでトレーニングしたLLMを我々の企業でどのように活用できるのか?
- 統合されたプラットフォームでコンプライアンスと透明性を維持しつつも、我々のデータ、モデル、APIのすべてをファインチューン、制御、本格運用化、管理するためにどのようにDatabricksデータインテリジェンスプラットフォームを活用できるのか?
- 我々のプロプライエタリなデータを活用しながら、我々の企業がAI成熟度曲線を進むに従って、どのように我々の企業ではDatabricksデータインテリジェンスプラットフォームを活用できるのか?
企業向け生成AI: DatabricksデータインテリジェンスプラットフォームによるAIの活用
なぜ、生成AIでデータインテリジェンスプラットフォームを使うのか?
データインテリジェンスプラットフォームによって、生成AIツールを用いた差別化を生むアプリケーションで業界のリーダーシップになり続けることが可能となります。データインテリジェンスプラットフォームを用いることのメリットには以下の点が含まれます:
- 完全なコントロール: データインテリジェンスプラットフォームによって、RAGやカスタム生成AIソリューションを構築するために、御社自身のユニークな企業データを活用できるようにします。あなたの企業はモデルとデータの両方に対する完全なコントロールを有します。また、セキュリティとアクセスコントロールによって、データにアクセスすべきではないユーザーがアクセスできないことを保証します。
- プロダクションレディ: データインテリジェンスプラットフォームには、ガバナンスと再現可能性、コンプライアンスが組み込まれた大規模でのモデルサービングの機能があります。
- コスト効率性: データインテリジェンスプラットフォームはデータストリーミングに対する最大の効率性を提供し、ご自身のドメイン専用のカスタムLLMを作成、ファインチューンすることができ、最も高性能でコスト効率の高いLLMサービングとトレーニングのフレームワークを活用することができます。
データインテリジェンスプラットフォームによって、皆様の企業は以下の成果を活用できるようになります:
- インテリジェントなデータの洞察: 構造化データ、半構造化データ、非構造化データ、ストリーミングデータを含むすべてのデータ資産の活用を通じて、皆様のビジネスの意思決定が強化されます。MIT Tech Reviewレポートによると、企業データの最大90%が活用されていません。モデルのトレーニングに用いるデータの種類が増える(PDF、Word文書、画像、ソーシャルメディアを考えてみましょう)ことで、もたらされる洞察のインパクトが増加します。どのデータがどれだけの頻度でアクセスされるのかを知ることで、どのデータが最も価値があり、どのデータが活用されていないのかが明らかになります。
- ドメイン固有のカスタマイズ: LLMは、あなたの業界の専門用語と取り込むべきデータのみをベースとして構築されます。これによって、お使いのLLMはサードパーティのサービスが知り得ないドメイン固有の専門用語を理解するようになります。更なるメリットにはご自身のデータやIPは皆様の環境に留まります。
- シンプルなガバナンス、観測可能性、モニタリング: ご自身のモデルを構築、ファインチューニングすることで、成果をさらに理解できるようになります。あなたはご自身のモデルがどのように構築され、どのバージョンのデータが用いられているのかを理解しています。あなたは、ご自身のモデルのパフォーマンスがどの程度なのかを確認する手段を持つことになり、入力データがドリフトし始めた場合には、精度を改善するためにモデルを再トレーニングする必要があるかもしれません。
「あなたが投入するデータがご自身のコア製品に競合する企業によって利用される可能性がある既存のモデルを活用したいと思うとは限りません。」- Michael Carbin, MIT Professor and Mosaic AI Founding Advisor
進化のステージ
飛び込む準備はできましたか?次のステージに進む際に検討を行うAI成熟度曲線のそれぞれのステージにある企業の典型的なプロファイルと、Databricksのデータインテリジェンスプラットフォームがどのようにサポートするのかを見ていきましょう。
事前ステージ: データの取り込み、変換、準備
いかなるAIの冒険における自然なスタート地点は、常にデータが関係します。企業では多くの場合すでに収集した膨大な量のデータがあり、新規データのペースは非常に速いものとなっているでしょう。データはすべてのタイプの組み合わせとなります: リアルタイムで収集される構造化トランザクションデータからWebから得られるPDFファイルなどです。
Databricksレイクハウスは、オペレーションのコストと頭痛の両方を削減するためにあなたのデータワークロードを処理します。このエコシステムの中心にあるのは、皆様のすべてのデータとAI資産を制御する基盤レイヤーであるUnity Catalogであり、SnowflakeやMySQLなどを含む内部、外部のデータソースとのシームレスなインテグレーションや管理を確実なものとします。
イベントに対して可能な限り迅速にアクションを取れるように、Delta Live Tablesを通じてニアリアルタイムストリーミングデータを取り込むことができます。適切な間隔で実行されるようにETLワークフローをセットアップし、何かを取りこぼした際には即座にアラートを行えるようにしつつも、あなたのパイプラインがすべてのデータソースから適切にデータを取り込めることを保証します。外部データセットを含む最高品質のデータを保有することは、このデータをベースとするすべてのAIのパフォーマンスに直接のインパクトを与えるので、このデータに対する包括的なアプローチは後で重要になります。
自信を持ってデータを加工できたら、生成AIの世界に足を踏み込む準備ができたことになりますので、最初のPOCをどのように行うのかを見ていきましょう。
ステージ1: プロンプトエンジニアリング
多くの企業は依然として生成AIテクノロジー導入の基本的なステージに留まっています: 彼らは包括的なAI戦略を立案しておらず、追求すべき明確なユースケースを持たず、企業のAI導入のジャーニーをガイドする助けとなるデータサイエンティストのチームやその他の専門家を有していません。
これが皆様の企業に当てはまるのであれば、好適なスタート地点は既製品のLLMとなります。これらのLLMはカスタムAIモデルのドメイン固有の専門性は有していませんが、次のステップを計画する実験の助けとなります。皆様の従業員は、使用法をガイドするための専門的なプロンプトやワークフローを作成することができます。リーダーはこれらのツールの強みと弱みをさらに理解することができ、AIにおける早期の成功がどのようなものであるのかに関して明確なビジョンを得ることができます。企業は、さらに重要なオペレーション上のメリットを導き出すために、パワフルなAIツールやシステムにどのように投資すべきかを明確にし始めることができます。
外部モデルを用いた実験の準備ができているのであれば、モデルサービングは一箇所ですべてのモデルを管理し、単一のAPIでクエリーできる統合プラットフォームを提供します。
ステージ2: Retrieval Augmented Generation
Retrieval Augmented Generation(RAG)を用いることで、既製品のAIシステムをさらにスマートにするために補完的な知識リソースを持ち込むことができます。RAGはモデルの根本的な挙動を変更しませんが、レスポンスの適切性と精度を改善します。
しかし、この時点で「ミッションクリティカル」なデータをアップロードすべきではありません。そうではなく、通常RAGのプロセスには少量のセンシティブではない情報を含めることになります。
例えば、従業員ハンドブックを繋ぎ込むことで、従業員は企業の休暇のポリシーについてモデルに質問を始めることが可能となります。手順のマニュアルをアップロードすることで、サービスのチャットbotを強化する助けとなります。AIを用いてサポートチケットに問い合わせる能力によって、サポートエージェントはよりクイックに回答を得ることができます。しかし、企業のパフォーマンスを従業員が質問できるように、機密の財務データを入力するのは時期尚早と言えるでしょう。
スタートするには、皆様のチームは最初に使用しようとしているデータの統合とクレンジングを行うべきです。RAGを用いる際には、後段のモデルに適切なサイズで企業データを格納することが重要となります。多くの場合、ユーザーはより小規模なセグメントに繋ぎ合わせる必要があります。
そして、ご自身のベクトルデータベースをクイックにセットアップできるようにするDatabricks Vector Searchのようなツールを探すべきです。これはUnity Catalogで管理されているので、従業員が資格を持つデータセットにのみアクセスするようにきめ細かいコントロールを適用することができます。
最後に、商用LLMにエンドポイントを接続します。Databricks MLflowのようなツールは、これらのAPIの管理を集中化する助けとなります。
RAGのメリットには、幻覚の削減、より最新で正確なレスポンス、よりドメイン固有のインテリジェンスがあります。RAGがサポートするモデルは、多くの企業においてよりコスト効率の高いアプローチとなります。
RAGは商用モデルの結果を改善する助けとなりますが、RAGの利用には依然として多くの制限があります。皆様のビジネスで必要とする結果が得られない場合、よりヘビーウェイトなソリューションに移動することになりますが、RAGサポートのモデルから先に進むには、より高いコミットメントが必要となります。更なるカスタマイズはコストを増加させ、より多くのデータを必要とします。
だからこお、企業では最初にLLMの使い方に対する根本的な理解を深めることがキーとなります。先に進む前に既製品のモデルのパフォーマンスの限界に到達した場合には、あなたとあなたのリーダーシップはリソースをどこに配置するのかについてより注意深くなる必要があります。
ステージ3: 基盤モデルのファインチューニング
RAGの先にあるモデルのファインチューニングによって、ビジネスにさらに特化したモデルを構築し始めることになります。オペレーションにおいてすでに商用モデルの実験をしているのであれば、このステージに進む準備ができていると言えます。生成AIの価値と公開されているLLMの限界に対する明確なエグゼクティブレベルの理解は得られました。特定のユースケースは確立されました。これで、さらにディープに進む準備ができたと言えます。
ファインチューニングによって、汎用のモデルをご自身のデータでトレーニングすることができます。例えば、データ管理プロバイダーであるStardogが自身の知識グラフプラットフォームの基盤として用いる既製品のLLMをファインチューニングするために、DatabricksのMosaic AIツールを活用しています。これによって、Stardogのお客様は自然言語を用いて、さまざまなサイロのデータに対してクエリーを行うことができています。
このステージにある企業は、モデルをサポートするデータがセキュアで正確であることを確実にするために背後のアーキテクチャを必要とします。AIシステムのファインチューニングには、膨大な量のプロプライエタリな情報を必要とし、皆様の企業がAI成熟度曲線を進むに従い、稼働するモデルの数は増加の一途を辿り、データアクセスに対する需要も高まります。
だからこそ、データが生成された瞬間から最終的に活用されるまでを一箇所から追跡する適切なメカニズムが必要となり、Databricksのお客様においてUnity Catalogが人気の機能となっている理由となっています。データリネージ機能によって、企業は常にデータがどこを移動しており、誰がアクセスしているのかを常に知ることができます。
ステージ4: スクラッチのモデル事前トレーニング
カスタムモデルを事前トレーニングするステージにいるのだとすれば、AI成熟度曲線の頂上に到達したと言えます。ここでの成功は適切な場所に適切なデータを配置するということだけではなく、必要な専門性やインフラストラクチャにアクセスできるということも必要となります。大規模モデルのトレーニングには、膨大な量の計算資源と「長い旅路」におけるハードウェアとソフトウェアの複雑性に対する理解を必要とします。そして、インフラストラクチャやデータガバナンスの検討事項に加え、ご自身のユースケースと成果が明確に定義されていることが重要となります。
恐れないでください: これらのツールには投資と開発期間を必要とする場合がありますが、ご自身のビジネスに変革的な影響をもたらし得ます。カスタムモデルは、オペレーションの根幹や新製品提供を強化する重責なシステムとなります。例えば、ソフトウェアプロバイダーであるReplitは、コード生成を自動化するための自身のLLMを構築するためにMosaic AIプラットフォームを活用しています。
これらの事前トレーニング済みモデルは、RAGベースのモデルやファインチューニングされたモデルよりも非常に優れたパフォーマンスを示します。(Mosaic AIと連携している)StanfordのCenter for Research on Foundation Modelsは、生物医学固有のLLMを構築しましたカスタムモデルの精度は74.4%となっており、ファインチューニングした既製品のモデルの65.2%よりもはるかに正確なものとなっています。
事後ステージ: 本格運用とLLMOps
おめでとうございます!成功裡にファインチューニングされたモデルや事前トレーニング済みモデルを実装したので、最後のステップはすべての本格運用化となります: LLMOps(LLM Operations)と呼ばれるコンセプトです。
LLMOpsによって、コンテキストのデータは夜間にベクトルデータベースに連携され、AIモデルは素晴らしい精度を示し、パフォーマンスが低下した場合には自己修復を行うようになります。また、このステージは部門横断での完全な透明性を提供し、AIモデルの健康状態や機能性に対する深い洞察を提供するようになります。
このジャーニーにおいて、LLMOpsの役割は重要であり、AIの洗練度のピークにあるというわけではありません。LLMOpsは最終ステージだけではなく、早期のステージにおいても重要であるべきです。生成AIの利用者は初期段階では複雑なモデルの事前トレーニングに取り組むことがないかもしれませんが、LLMOpsの原則は普遍的に適切なものでありメリットがあります。さまざまなステージでのLLMOpsによって、強力かつスケーラブル、効率的なAIオペレーションのフレームワークを確実なものとし、AI成熟度曲線のどこにあろうともすべての企業が高度なAIのメリットを享受できるように民主化を行います。
成功するLLMOpsアーキテクチャとはどのようなものか?
Databricksデータインテリジェンスプラットフォームは、ご自身のLLMOpsプロセスを確立するための基盤として存在しています。モデルとデータの管理、制御、評価、監視を容易に行う助けとなっています。メリットのいくつかを示します:
- 統合ガバナンス: Unity Catalogによってデータとモデルに対して統合されたガバナンスとセキュリティポリシーを実現し、MLOpsの管理をスムーズにし、単一のソリューションでの柔軟性がありレベル固有の管理を実現します。
- プロダクション資産への読み取りアクセス: データサイエンティストはUnity Catalogを通じてプロダクションのデータとAI資産に対する読み取り専用アクセスを行い、モデルのトレーニング、デバッグ、比較を促進し、開発スピードと品質を改善します。
- モデルのデプロイメント: Unity Catalogにおけるモデルのエイリアスを活用することで、ターゲティングされたデプロイメントとワークロード管理を実現し、モデルのバージョン管理とプロダクションのトラフィックハンドリングを最適化します。
- リネージ: Unity Catalogの堅牢なリネージトラッキングは、モデルのバージョンとトレーニングデータ、後段の利用者をリンクし、包括的なインパクト分析やMLflowを通じた詳細なトラッキングを提供します。
- 発見可能性: Unity CatalogでデータとAI資産を集中管理することで、発見可能性を改善し、M効率的なリソース特定、MLOpsソリューションでの活用を支援します。
どのような種類のアーキテクチャが世界を前進させるのかを一覧できるように、我々のBig Book of MLOpsには我々の考えと経験を盛り込んでおり、これにはLLMの大規模なセクションが含まれており、ここで我々が触れた全てをカバーしています。AI涅槃のこの状態に到達したいのであれば、この本を一読いただくことを強くお勧めします。
この記事では、生成AIアプリケーションを実装する企業における複数の成熟ステージを学びました。以下の表では詳細をまとめています:
企業環境におけるLLM実装成熟度のさまざまなステージ
まとめ
生成AI曲線に沿ったジャーニーを辿り、皆様の企業にとってLLMを有用なものにするために必要なテクニックを検証しましたので、スタートしたところに戻りましょう: データインテリジェンスプラットフォームです。
Databricksのようなパワフルなデータインテリジェンスプラットフォームは、カスタマイズされたAI支援のアプリケーションの根幹となります。大規模環境において非常に高性能であり、適切なデータのみが活用されるようにするためにセキュアで制御されているデータレイヤーを提供します。このようなデータを基盤として構築された真のデータインテリジェンスプラットフォームはセマンティクスをも理解し、モデルは皆様の企業固有のデータ構造や専門用語にアクセスできるので、よりパワフルなAIアシスタントを活用できるようにしています。
皆様のAIユースケースの構築がスタートし、プロダクションに移行し始めたら、すべてが最適に動作していることを確実にするための強力な観測可能性とモニタリングを提供するプラットフォームを必要とします。ここで、皆様のデータの「正常な」状態がなにかを理解し、問題が派生したであろうことを理解する、真のデータインテリジェンスプラットフォームが活躍するのです。
最終的には、データインテリジェンスプラットフォームの最も重要なゴールは、複雑なAIモデルとユーザーのさまざまなニーズの間のギャップの橋渡しを行うことであり、さまざまな個人や組織がご自身のデータを用いて困難なも問題を解決するためのLLM(と生成AI)のパワーを活用できるようにすることです。
Databricksのデータインテリジェンスプラットフォームは、企業がAIモデルのカスタマイズを通じて、データの取り込みから格納、最終的には生成AIで支援されたアプリケーションを提供をサポートできる唯一のエンドツーエンドのプラットフォームです。