More than 1 year has passed since last update.

生成AIシステムの6段階の進化／成熟モデルの定義

Posted at 2024-05-22

The GenAI Maturity Model | by Ali Arsanjani

Ali Arsanjani: Director, Google AI

元記事：https://medium.com/@dr-arsanjani/the-genai-maturity-model-a1a42f6f390b

数百ものAIプロジェクトを分析すると、段階的な成長と成熟の傾向が見えてきます。生成AIの成熟モデルはこれを反映し、生成AIソリューションが6つの明確なレベルの洗練度を通じて進化することを枠組みとして明確に示しています。

このような成熟モデルを使用することで、組織は自身が生成AI成熟モデル上で現在どの位置にあるのかを明確に理解し、能力を向上させてビジネス目標を達成するための具体的な戦略を策定することができます。この評価はまた、技術投資、人材獲得、プロセス最適化に関する情報に基づいた決定を行うのに役立ち、ビジネス能力と一致したより成功した生成AIシステムの進化を確実にします。

目次：

生成AIの進化

Gen AI 成熟度モデル：進化するためのステップ

レベル0: データの準備

レベル1: モデルとプロンプトの選択：モデルの選択

レベル2: Retrieval Augmentation: 情報を収集してプロンプトを保管する

レベル2.1: シンプルな検索と生成

レベル2.2: コンテクスト検索と生成

レベル2.3: 動的な取得と生成

レベル2.4: マルチソース検索と生成

レベル2.5: ナレッジグラフを意識した生成

レベル3：ドメイン固有のデータを用いたモデルのチューニング

3.1. 文脈内学習 (In-Context Learning - ICL)

3.2. マルチショット (Multi-shot Using Large Context Windows)

3.3. 小型言語モデルの事前学習 (Pretraining Small Language Models)

3.4. アダプターチューニング (Adaptor Tuning)

3.5. ローランク適応 (Low-Rank Adaptation - LoRA)

3.6. 他のパラメタ効率の良いファインチューニング手法 (Other Parameter-Efficient Fine-Tuning Methods)

3.7. 特定ドメインに特化した事前学習 (Domain-Specific Pretraining)

3.8. 教師ありファインチューニング (Supervised Fine-Tuning)

3.9. モデル全体学習 (Full Fine-Tuning)

3.10. 指示学習 (Instruction Tuning)

3.11. 人間のフィードバックによる強化学習 (Reinforcement Learning with Human Feedback - RLHF)

3.12. 直接的なポリシー最適化 (Direct Preference Optimization - DPO)

3.13. マルチタスクファインチューニング (Multitask Fine-Tuning)

3.14. メタ学習 (Meta-Learning - Learning to Learn)

3.15. 能動学習 (Active Learning)

3.16. 知識蒸留 (Knowledge Distillation)

レベル4: 検索と引用を用いたモデル出力の基盤確立

レベル5: エージェントベースシステム

エージェントベース対マルチエージェントシステム

レベル6: マルチエージェントの複合採用 (The Multi-Agent Multiplier)

水平および垂直ドメイン

水平ドメインにおける生成AIの活用によるROIの向上

垂直ドメインにおける生成AIの活用によるROIの向上

結論とアクションプラン

参考文献

生成AIの進化

生成AIの進化とは、データとAIがどのようにアプリケーションに使用されるかを改善する手法を段階的に整理したものです。

レベル0から始まり、ここでデータを収集、クリーニング、準備します。このデータは生成AIモデルの訓練に不可欠です。

レベル1では、組織は生成AIモデルを選択し、インタラクションのためのプロンプトを作成します。プロンプトはモデルの応答をガイドします。適切なモデルとプロンプトを選択することは、求める結果を得るために重要です。このレベルでは、これらのモデルを特定のタスクに有用にするために、我々が調整します。

レベル2はより複雑になります。ここでは、生成AIモデルがその広大な知識ベースから特定の洞察を引き出します。レベル3では、生成AIモデルを特定のデータで調整します。この調整、またはファインチューニングは、モデルのパフォーマンスを向上させ、よりパーソナライズさせるのに役立ちます。これにより、組織はモデルを自分たちの特定のニーズに適応させることができます。

次のレベルでは、モデルはさらに洗練されます。我々はモデルの応答が正確で、関連性があり、倫理的であることを確認します。我々は、Lead Language Model（LLM）の指導の下で一緒に働く複数の生成AIモデルを使用します。このアプローチは、調整が必要な複雑なタスクに役立ちます。モデルの動作を見ることができ、生成AIライフサイクルをスムーズに管理することが重要です。

高いレベルでは、Tree-of-Thought（ToT）、Graph-of-Thought（GoT）、DSPy、自己修正、ReActなどの先進的な技術が使用できることを覚えておいてください。これらの技術は生成AIモデルの意思決定と問題解決の能力を強化します。それらは、生成型AIができることの限界を押し広げます。

生成AI成熟度モデル - より良いビジネス結果へのシンプルガイド

成熟度モデルの図は、生成型AIソリューションが7つの段階を通じてどのように複雑で高度になることができるかを示しています。

各レベルのコンポーネントは、レベル（行）を超えて列にグループ化することができることに注意してください。このセットアップは、RAGやモデルチューニングのような特定のエリア内での複雑さの増加を示しています。

Gen AI 成熟度モデル：進化するためのステップ

このモデルは、生成AIソリューションがより高度になるためのステップを示しています。データの準備や適切なモデルの選択などのシンプルなタスクから始まります。次に、微調整や評価などのより複雑なタスクに移行します。最終的には、複数のエージェントが協力して働く、高レベルの意思決定、そしてAIの責任ある使用といった最も進んだ段階に到達します。

レベル0：データの準備

この基本レベルは、生成AI /LLMベースまたはエージェントベースのアプリケーションに必要なデータセットを取得することに焦点を当てています。これには、データの購入、クリーニング、準備、使用許可の取得、合成データの作成、およびデータエンジニアリングと変換タスクの実行が含まれます。

レベル1：モデル＆プロンプト選択：モデルの提供

このレベルは言語学習モデル（LLM）を選択し、それに対するプロンプトを作成する、というシンプルがステップです。このレベルにおいて、適切なモデルの特定、それらと対話するためのプロンプトの開発が主たる作業になります。また、プロンプトエンジニアリングによってモデルを指導して特定のタスクに使用するケースもあります。同じプロンプトがLLMによって異なる結果を出すこともあり、その考慮が日つよづエス。

モデル選択、プロンプトエンジニアリング、および検索： 手元のタスクに適したLLMモデルを選択し、特定のデータでそれを微調整することから始まります。丁寧なプロンプトエンジニアリングがモデルの性能の決め手であり、RAGがが社内の知識ベースから関連情報を引き出します。このRAGによる検索ステップは、エンタープライズ検索機能によって強化されケースが多く、AIモデルが組織のリソースから関連文書やデータにアクセスすることを可能にします。

コンテキスト内学習 (In-context learning)とマルチショット学習 (Multi-shot learning)は、モデルの品質を高めることに寄与します。詳しくは、モデルチューニングセクションを参照してください。

レベル2: Retrieval Augmentation: 情報を収集してプロンプトを保管する

この段階では、生成AIモデルを使用して重要な情報を取り出します。モデルと詳細な会話をするようなもので、具体的な洞察や事実を得ることができます。

ここで、独自のユニークなデータを使用して生成AIモデルをトレーニングし始めます。これにより、モデルがより良く機能し、特定のニーズに合わせてカスタマイズすることができます。

取得強化ジェネレーション（RAG）は、情報検索システムとLLMを組み合わせて、より正確で情報に基づいた回答を提供するシステムです。RAGの複雑さは、検索と統合のプロセスがどれほど複雑であるかに基づいて、さまざまなレベルに分解することができます。

RAG（取得強化ジェネレーション）： まず内部の情報源から情報を得た後、RAGはVertex AIグラウンディングサービスなどが提供する外部の検索ツールを使用します。外部の知識ベース、ウェブ、その他の関連する情報源を見て、生成物の精度と文脈を改善するための追加情報を見つけます。内部と外部の両方の検索の使用により、主題を完全に理解することができます。

RAGには複数の複雑さのレベルがあります。下記にそれを整理します。

レベル2.1：シンプルな検索と生成

この基本レベルでは、RAGはユーザーのクエリに基づいて知識ベースから関連するドキュメントを検索します。検索した情報はそのままLLMに渡され、検索した内容を元にレスポンスを生成します。このアプローチは比較的直接的ですが、LLMが検索した情報を理解し、統合する能力に依存するため、必ずしも正確で関連性の高い結果を生み出すわけではありません。

レベル2.2：コンテクストに基づく検索と生成

このレベルでは、ユーザーのクエリの内容を考慮したより高度な検索メカニズムが導入されます。単純なキーワードマッチングに基づいたドキュメント検索だけでなく、関連性の高い情報を特定するために、セマンティック検索やクエリ拡張などの技術を利用します。さらに、検索された情報は、関連性や重要性に基づいてフィルタリングやランキングされてからLLMに渡されます。これにより、LLMが提供する情報がより焦点を絞った情報になり、レスポンスの質が向上します。

レベル2.3：ダイナミックな情報取得と生成

このレベルでは、RAGをさらに一歩進め、生成プロセス中に動的にに情報取得を行います。すべての関連情報を最初に取得するのではなく、LLMは必要に応じて追加情報を繰り返し要求し、より包括的で正確なレスポンスを生成することができます。このアプローチにより、LLMは曖昧さを明確にするためや知識のギャップを埋めるために、積極的に追加情報を求める、インタラクティブな会話が可能になります。

レベル2.4：マルチソースの検索と生成

この高度なレベルでは、複数の異なる知識ベース、データベース、あるいはリアルタイムのデータストリームなどから情報を取得することが含まれます。ここでの課題は、異なるフォーマット、構造、信頼性のレベルを持つ様々なソースからの情報を効果的に統合することです。これは、生成された応答が一貫性があり、正確で、最新の情報であることを確保するために、洗練された検索技術と融合技術を必要とします。

レベル2.5: ナレッジグラフを意識した生成

この最高レベルにおいて、RAGは知識グラフや他の構造化された知識表現を取り込み、LLMの取得情報のレベルを強化します。これにより、LLMは取得した知識を意味的に理解し、概念間の関係を特定し、より洞察力のある回答を生成することができます。このアプローチは、深い専門知識や推論能力を必要とする複雑なタスクに特に有用です。

レベル3：ドメイン固有のデータを用いたモデルのチューニング

このレベルでは、成熟度の向上に伴い、パラメータ効率的なファインチューニング、人間のフィードバックによる強化学習（RLHF: Reinforcement Learning with Human Feedback）、監督ファインチューニング（SFT: Supervised Fine Tuning）、全面的なファインチューニング（FFT: Full Fine-uning）を用いてモデルをチューニングする能力が含まれます。

これにより、モデルはその特定の業界やドメインに関連するデータでの訓練が可能になります。長年のビジネスで蓄積されたプライベートデータは所属する業界における企業の価値です。リテール、ヘルスケア、金融サービスなどの業界データに含まれる専門用語、オントロジーのエンティティ、一般的な知識に精通したモデルまたは2つのモデルを訓練することが重要です。

AIモデルのファインチューニングには、単純なコンテキスト調整から高度な強化学習まで、さまざまな方法があります。これらの方法を成熟度と洗練度に応じて詳述します。

3.1. インコンテキストラーニング (ICL: In-Context Learning)

成熟度レベル: 基本
相対コスト: 低
必要なデータサイズ: 最小限 (ゼロショットまたは少数ショットの例)
説明: モデルはプロンプト内で提供されるコンテキストのみに基づいて予測を行い、パラメータを更新しません。プレトレーニングフェーズで取得した知識に依存します [1]。
使用例: 与えられた例やプロンプトに基づいてテキストやその他の出力を迅速かつ効率的に生成する。モデル全体を再訓練せずに迅速な適応が必要なシナリオに最適。

3.2. マルチショット (大きなコンテキストウィンドウの使用)

成熟度レベル: 中級
相対コスト: 中程度
必要なデータサイズ: 最小から中程度 (少数ショットから多数ショットの例を含む広範なコンテキスト)
説明: このアプローチは標準的なインコンテキストラーニングを拡張し、非常に大きなコンテキストウィンドウを活用します。これにより、プロンプトや周囲のテキストから大幅に多くの情報を処理することができます。これにより複雑なタスクの理解が向上するだけでなく、マルチショットインコンテキストラーニングも可能になり、コンテキストウィンドウ内で提供される複数の例からモデルが学習できます。[15]
使用例: 深いコンテキスト理解が必要なタスクに最適:
- 長文のテキスト生成
- 複雑な質問応答
- ドキュメントの要約
- 多段階の推論タスク
- 複数の例がモデルの出力を導くタスク

DeepMindの「多ショットインコンテキストラーニング」に関する研究は、コンテキストウィンドウ内に提供される例の数を増やすことで、パフォーマンスの大幅な向上が示されています。これは、単なる理解の向上だけでなく、複数のデモンストレーションから効果的に学習するモデルの潜在能力を強調しています。

3.3. 小規模言語モデルの事前学習

成熟度レベル: 中級
相対コスト: 中程度
必要なデータサイズ: 中程度から大規模 (モデルのサイズと望まれる性能に依存)
説明: これは、小規模な言語モデルをスクラッチから、または限られた量のデータでトレーニングすることを含みます。これらのモデルは、大規模で汎用的なモデルが計算制約やドメイン固有の要件のために実用的でない特定のアプリケーションに使用されることが多いです [3]。
使用例: 特定の用語や限られた計算資源を持つ専門的なドメインでのタスクに効果的。また、さらなるファインチューニングや適応の基盤としても使用できます。

3.4. アダプターチューニング (Adaptor Tuning)

成熟度レベル: 中級
相対コスト: 低から中程度
必要なデータサイズ: 小から中程度 (タスク特定データ)
説明: この技術は、事前学習された言語モデルに小さな訓練可能なアダプターモジュールを導入します。これらのモジュールは、新しいタスクに対してファインチューニングするために特別に設計されており、元のモデルパラメータの大部分を凍結したままにします。これにより、最小限の計算負荷で効率的なタスク特定の適応が可能になります [4]。
使用例: 限られたリソースで大規模なモデルを特定のタスクに適応させるのに最適。元のモデルの効率と知識を維持しながら、迅速かつターゲットを絞ったファインチューニングを可能にします。

3.5. ローランク適応 (Low-Rank Adaptation - LoRA)

成熟度レベル: 中級から上級
相対コスト: 中程度
必要なデータサイズ: 小から中程度 (タスク特定データ)
説明: LoRAは、モデルの重み行列の低ランク近似を調整することでモデルをファインチューニングします。これにより、訓練可能なパラメータの数が劇的に減少し、完全なファインチューニングよりもはるかに効率的になります [5]。
使用例: 自然言語処理やコンピュータビジョンなどのさまざまなタスクに効果的で、大規模なモデルを特定のタスクに適応させる必要があるが、全パラメータを訓練するための完全な計算コストを避けたい場合に適しています。

3.6. その他のパラメータ効率の良いファインチューニング手法 (Other Parameter-Efficient Fine-Tuning Methods)

成熟度レベル: 中級から上級
相対コスト: 中程度
必要なデータサイズ: 小から中程度 (タスク特定データ)
説明: このカテゴリには、プリフィックスチューニング、プロンプトチューニング、BitFitなどの技術が含まれます。これらはすべて、モデルのパラメータや入力の一部だけを調整することでファインチューニングを行い、計算負荷を大幅に軽減します [6]。
使用例: 新しいタスクやシナリオに迅速に適応する必要がある場合や、計算リソースが限られている場合に最適。これらの方法は、効率とモデルの動作を調整する能力のバランスを提供します。

3.7. 特定ドメインに特化した事前学習 (Domain-Specific Pretraining)

成熟度レベル: 上級
相対コスト: 高い
必要なデータサイズ: 大規模 (ドメイン特定のコーパス)
説明: 特定のドメイン（例：法務、医療、金融）に特化した大規模なテキストコーパスでモデルを事前学習します。これにより、モデルがそのドメイン特有のニュアンス、語彙、および知識構造を捉えることができます [7]。
使用例: 一般的なモデルが必要なドメイン専門知識を欠いている場合に、専門分野で非常に価値があります。そのドメイン内でさらにファインチューニングや適応の出発点として使用できます。

3.8. 教師ありファインチューニング (Supervised Fine-Tuning)

成熟度レベル: 上級
相対コスト: 高い
必要なデータサイズ: 大規模 (ラベル付きタスク特定データ)
説明: これは、特定のタスクに特化したラベル付きデータセットでモデル全体をトレーニングする、クラシックなファインチューニングの方法です。モデルのすべてのパラメータがそのタスクでのパフォーマンスを最適化するために更新されます [8]。
使用例: テキスト分類、感情分析、固有表現抽出、質問応答など、豊富なラベル付きデータがあるタスクに非常に効果的です。

3.9. モデル全体学習 (Full Fine-Tuning)

成熟度レベル: 上級
相対コスト: 非常に高い
必要なデータサイズ: 大規模から非常に大規模 (ラベル付きタスク特定データ)
説明: この方法は最も包括的なファインチューニングの形式であり、事前学習されたモデルのすべてのパラメータが新しいタスク特定のデータセットでのトレーニング中に調整されます [8]。
使用例: 特定のタスクでの最大パフォーマンスが重要で、豊富な計算リソースと大規模かつ高品質なデータセットを利用できる状況で通常使用されます。

3.10. 指示学習 (Instruction Tuning)

成熟度レベル: 上級
相対コスト: 高から非常に高い
必要なデータサイズ: 大規模 (多様な指示ベースのデータセット)
説明: このアプローチは、幅広い指示に従ってさまざまなタスクを完了するようにモデルをファインチューニングすることを含みます。モデルは、指示とそれに対応する望ましい出力を含む多様なデータセットで訓練されます [9]。
使用例: 複雑な指示を理解し実行する能力を向上させるため、汎用AIアシスタント、チャットボット、その他の柔軟なタスク実行が必要なアプリケーションに適しています。

3.11. 人間のフィードバックによる強化学習 (Reinforcement Learning with Human Feedback - RLHF)

成熟度レベル: 最先端
相対コスト: 非常に高い
必要なデータサイズ: 変動するが、しばしば大規模 (人間のフィードバックデータ)
説明: RLHFは、強化学習技術と人間ユーザーからのフィードバックを組み合わせます。モデルは、行動とフィードバックに基づいて報酬や罰を受け取り、人間の好みに応じて行動を最適化することを目指します [10]。
使用例: 人間の好みが重要な状況で適用されます。例えば、会話エージェント、推薦システム、およびユーザーと直接対話するその他のアプリケーションです。

3.12. 直接的なポリシー最適化 (Direct Preference Optimization - DPO)

成熟度レベル: 実験的
相対コスト: 非常に高い
必要なデータサイズ: 変動する (ユーザーの好みデータ)
説明: DPOは、ユーザーのフィードバックと好みに基づいてモデルを直接最適化することに焦点を当てます。これには、観察されたユーザーの好みに沿ってモデルのパラメータを調整するための勾配降下法のような技術が含まれることが多いです [10]。
使用例: ユーザー満足度が最重要であり、好みが直接測定され最適化できるアプリケーションに特に適しています。例えば、個人化されたコンテンツ推薦システムやユーザーインターフェースデザインなどです。

3.13. マルチタスクファインチューニング (Multitask Fine-Tuning)

成熟度レベル: 上級
相対コスト: 高から非常に高い
必要なデータサイズ: 大規模 (複数タスクのラベル付きデータ)
説明: マルチタスクファインチューニングでは、モデルを複数の関連するタスクに同時にトレーニングします。これにより、モデルがタスク間で共有される知識や表現を活用できるため、パフォーマンスと一般化が向上する可能性があります [11]。
使用例: 多様なタスクで優れたパフォーマンスを発揮する必要があるシナリオで有益です。例えば、マルチドメインのカスタマーサービスボットや、言語のさまざまな側面を理解する必要があるモデル（例：感情分析、質問応答、テキスト要約）などに適しています。

3.14. メタ学習 (Meta-Learning - Learning to Learn)

成熟度レベル: 最先端
相対コスト: 非常に高い
必要なデータサイズ: 変動するが、しばしば大規模 (メタトレーニングデータ)
説明: メタラーニングは、最小限のデータで新しいタスクに迅速に適応するモデルを訓練することに焦点を当てます。トレーニングフェーズ中にさまざまなタスクでモデルを訓練することで、効率的に学習する方法を学ばせます [12]。
使用例: モデルが少数ショット学習シナリオやパーソナライズされた学習システムなど、限られた例で新しいタスクやドメインに迅速に適応する必要がある状況で特に有用です。

3.15. アクティブラーニング

成熟度レベル: 上級
相対コスト: 高から非常に高い
必要なデータサイズ: 変動するが、通常は反復的 (最初は小規模、モデルがさらにデータを要求することで増加)
説明: アクティブラーニングは、モデルがラベリングに最も有益なデータポイントを積極的に選択することを伴い、これによりファインチューニングプロセスを最適化します [13]。
使用例: データのラベリングが高価または時間のかかる状況で非常に価値があります。最も関連性の高い例に焦点を当てることで、効果的なファインチューニングに必要なラベル付きデータの量を大幅に削減できます。

3.16. 知識蒸留 (Knowledge Distillation)

成熟度レベル: 中級から上級
相対コスト: 中程度から高い
必要なデータサイズ: 中程度から大規模
説明: 大規模で事前学習された教師モデルから、より小さく効率的な生徒モデルへの知識の移転を行います [14]。
使用例: モバイルやエッジデバイスなどのリソースが制約されたデバイスにモデルをデプロイする際に、パフォーマンスを維持するために役立ちます。

これらの各手法は、基本的なコンテキスト調整から、人間のフィードバックや広範なパラメータ調整を伴う高度な技術に至るまで、複雑さとリソース要件の段階的な向上を表しています。手法の選択は、タスクの具体的な要件、利用可能なリソース、および望まれるパフォーマンス結果に依存します。

レベル4: 検索と引用を用いたモデル出力の基盤確立

モデルのファインチューニングに加えて、このレベルでは生成AIシステムの出力の基盤確立と評価を組み込みます。これにより、生成されたコンテンツが事実に基づいて正確であり、関連性があり、倫理的考慮に沿っていることを保証します。

生成AIシステム成熟度モデルのレベル4では、内部エンタープライズ検索とVertex AIの基盤サービスを使用したGoogleライクな外部検索によって強化された、堅牢な基盤確立と評価プロセスを通じて、生成された出力の品質と信頼性を確保することに重点を置きます。

基盤確立と評価

取得された情報は、内部および外部の両方のソースからのものであり、徹底的な基盤確立と評価プロセスを経ます。これには以下が含まれます。

事実の正確性の検証: 使用される情報が正確で最新であることを確認します。
潜在的なバイアスの識別: 取得されたデータのバイアスを認識し、軽減します。
関連性の評価: 情報が生成された出力に対してどれだけ適切であるかを評価します。

Vertex AIの基盤サービスは、このステップで使用される情報に引用と参照を提供することで、生成されたコンテンツに信頼性と透明性を加えます。

基盤確立と評価の主要なステップ：

Post-RAG Refinement: 基盤確立と評価プロセスの後、LLMは受け取ったフィードバックに基づいて生成された出力を精緻化することがあります。この精緻化プロセスは、最終的な出力が正確で関連性があり、信頼できる情報源によって十分にサポートされていることを保証します。
Serving Models: 最終的に、精緻化され検証されたモデルはユーザーに提供されるか、アプリケーションに統合され、検証された情報に基づいた信頼できる有益な応答を提供します。

内部エンタープライズ検索とVertex AIの基盤確立サービスを使用した外部検索が引用と参照の発見にどのように役立つか

内部エンタープライズ検索は、組織の知識リポジトリ内で関連するドキュメント、データ、および情報を迅速に特定するのに役立ちます。これにより、生成された出力を会社の特定の知識と専門知識のコンテキストに基づいて確立するための貴重な出発点が提供されます。

Vertex AIの基盤サービスを使用したGoogleライクな外部検索は、外部ソースの広範な情報へのアクセスを拡大します。これにより、生成された出力が組織の内部知識に限定されず、広範な分野からの最新情報と洞察を取り入れることができます。

これら二つの検索機能を組み合わせることで、生成AIシステムは内部および外部の両方のソースから引用と参照を見つけることができ、生成された出力の信頼性と信憑性を強化します。このPost-RAG基盤確立と評価プロセスは、最終出力が有益であるだけでなく、信頼でき、透明性があることを保証します。

レベル5: エージェントベースシステム

この高度なレベルでは、大規模言語モデル（LLM）が中心にあり、複数の生成AIモデルが協力して動作するマルチエージェントシステムを導入します。これにより、多様な能力の統合と協調が必要となる複雑なタスクが可能になります。また、モデルの挙動を監視し理解するためのオブザーバビリティと、生成AIモデルライフサイクルの運用化（LLMOps）に強く焦点を当てています。

生成AI成熟度モデルのレベル5では、複数の重要な機能が融合し、エージェントベースおよびマルチエージェントシステムへの進化の基盤を形成する高度なシステムが構築されます。

モデル選択、プロンプトエンジニアリング、および情報取得

プロセスは、特定のタスクに基づいて適切なLLMモデルを選択し、独自のデータでファインチューニングすることから始まります。効果的なプロンプトエンジニアリングはモデルの挙動を導き、情報取得メカニズムは様々なソースから関連情報を抽出し、LLMの知識ベースを充実させます。インコンテキストラーニング (In Context Learning)、チェーンオブソート (Chain Of Thought)、明確なステップとXMLのような構造でフォーマットする高度なプロンプトエンジニアリング技術を使用できます。さらに、アウトラインオブソート (Outline of Thought)、ツリーオブソート (Tree of Thought) などの高度な技術を使用し、ReActフレームワークと組み合わせて、LLMの結果を評価し、観察された出力について推論し、再生成し、最終的に行動を取ることができます。レベル5の高度な技術は、LLMOpsとエージェントベースのアーキテクチャの使用だけでなく、高度なプロンプトエンジニアリング技術の深化も含みます。

LLMによるオーケストレーション

レベル5の主要な革新の一つは、オーケストレータとしての中央に置かれるLLMの導入です。このLLMはオーケスとレータとして機能し、他のモデルやコンポーネントの動きを管理します。タスクを割り当て、コミュニケーションを管理し、異なるモデルからの出力を統合して一貫したワークフローを作成します。これは、個々のモデルが専門的な役割を持つエージェントと見なされるエージェントベースシステムへの初めのステップです。

基盤確立と評価

レベル4から継続して、基盤確立メカニズムが使用され、生成された出力の品質と信頼性を確保します。これらのメカニズムは、情報を信頼できるソースと照らし合わせて検証し、応答の潜在的な影響を評価します。評価プロセスはシステムのパフォーマンスを監視し、継続的な改善のためのフィードバックを提供します。

評価、オブザーバビリティ、およびLLMOps

生成AIリファレンスアーキテクチャの各コンポーネントの正式でエンドツーエンドのオブザーバビリティと評価メカニズムの導入は、レベル5の重要な要素です。

このシステムのパフォーマンスの継続的な評価と監視は、アーキテクチャのさまざまなコンポーネントに対するLLM生成コンテンツにとって重要です。プロンプト、RAG出力、チューニングモデルのドリフトやスキュー、基盤確立の出力などです。オブザーバビリティはLLMの挙動に関する洞察を提供し、積極的な調整を可能にします。LLMOpsの実践は、生成AIインフラ全体のデプロイメント、管理、監視を効率化します。

エージェントベース vs. マルチエージェントシステム

これらの二つの概念を区別してみましょう。

エージェントベースシステム: 単一のLLMモデルがエージェントとして機能し、タスクを遂行し、意思決定を行い、環境と相互作用します。LLMはさまざまな能力を持つ一つの単一体として見なされます。
マルチエージェントシステム: エージェントベースシステムから進化し、複数の専門化されたLLMを導入します。それぞれのLLMは特定の役割や専門知識を持つ独立したエージェントとして機能します。これらのエージェントは協力し、コミュニケーションを取り、行動を調整して、単一のエージェントでは効率的に処理できない複雑な問題を解決します。

レベル5は、複数のモデルを調整するための基本的なインフラストラクチャを確立することで、レベル6のマルチエージェントシステムへのステップとして機能します。組織が特定のタスクを異なるモデルに割り当て、そのパフォーマンスを評価することを可能にします。この実験は、補完的なスキルを持つ多様なモデルが協力して共通の目標を達成する、より高度なマルチエージェントシステムの開発への道を開きます。

レベル5は、単一のLLMモデルから専門化されたエージェントのネットワークへのパラダイムシフトを整えます。それぞれのエージェントが独自の強みを発揮し、ますます複雑な課題に取り組むために協力します。この移行は、生成AIの分野で新たなレベルの効率性、適応性、および革新を解放することを約束します。

レベル6: マルチエージェントマルチプライヤー

生成AIシステムの成熟度の頂点は、Tree-of-ThoughtやGraph-of-Thoughtのような高度な技術を使用して、生成AIモデルの推論および計画能力を向上させることです。これらのアプローチは、より洗練された意思決定と問題解決を可能にします。このレベルでは、LLMが他のLLMをオーケストレートし制御し、高度に自律的で有能な生成AIエコシステムを示します。このフレームワークは責任あるAIを強調し、AI技術の倫理的かつ公平な使用を保証する役割も提供します。

レベル6は、先進技術とフレームワークをシームレスに統合して高価値の機能を実現する、著しい生成AIの成熟度を表します。

Tree-of-Thought/Graph-of-Thoughtによる強化推論: レベル6では、Tree-of-Thought（ToT）やGraph-of-Thought（GoT）フレームワークの力を活用します。これにより、LLMは複雑な問題を小さく管理可能なステップに分解し、潜在的な解決策を体系的に探索し、情報に基づいた意思決定を行うことができます。これにより、生成AIシステムの推論、計画、および問題解決能力が大幅に向上します。
DSPYとReActによる能動的情報収集: レベル6では、DSPY（Demonstrate-Search-Predict）およびReAct（Reasoning and Acting）アプローチのような技術を取り入れます。DSPYは、LLMが外部情報を検索するタイミングを決定し、関連するクエリを予測し、取得した情報を推論プロセスに組み込むことを指導します。ReActは、LLMが環境と能動的に相互作用し、収集した情報に基づいて意思決定を行い、行動を起こすことを可能にします。
情報取得と統合: レベル6では、さまざまなソースから関連データにアクセスする高度な情報取得技術を利用します。取得した情報は、LLMの推論プロセスにシームレスに統合され、最新かつ文脈的に関連する知識を提供します。
カスタムデータによるモデルチューニング: LLMは、独自またはドメイン特定のデータでファインチューニングされ、その性能を最適化し、特定のタスクおよびドメインに合わせて調整されます。これにより、モデルが正確で関連性のある、文脈的に適切な応答を生成することを保証します。
マルチエージェントのオーケストレーションと制御: レベル6では、複数のLLMが中央のLLMのオーケストレーションと制御のもとで協力して動作するマルチエージェントシステムを展開します。これにより、協調、専門化、および多様な専門知識を必要とする複雑なタスクを処理することができます。
基盤確立と評価: 生成された出力が事実に基づいて正確で、関連性があり、倫理および安全ガイドラインに沿っていることを確認するために、厳格な基盤確立および評価メカニズムが使用されます。これには、情報を信頼できるソースと照らし合わせて検証し、応答の潜在的な影響を評価することが含まれます。
評価、オブザーバビリティ、およびLLMOps: レベル6では、生成AIシステムのパフォーマンスの継続的な評価と監視を強調し、その挙動に関する洞察を提供し、積極的な調整を可能にします。堅牢なLLMOpsの実践が、生成AIインフラ全体のデプロイメント、管理、および監視を効率化します。

レベル6は、最先端の技術とベストプラクティスを調和して統合し、生成AIシステムが比類のない推論、意思決定、および問題解決能力を達成することを可能にします。この包括的なアプローチは、システムが強力であるだけでなく、信頼性が高く、倫理的で、進化する要求に適応可能であることを保証します。

水平ドメインと垂直ドメイン

次に、生成AIを水平ドメインと垂直ドメインに戦略的に導入する方法を見てみましょう。

ここで、組織は効率、生産性、顧客満足度、イノベーションを向上させることで大きなROIを得ることができます。これらのメトリクスとKPIは、早期に特定し、測定し、監視し、修正することが非常に重要です。進化し急速に再構築されるビジネス環境で、生成AIの利点を最大化するためには、目標を慎重に定義し、関連するKPIを測定し続け、戦略を適応させることが重要です。

水平ドメインにおける生成AIの活用によるROIの向上

水平ドメインは、組織内のさまざまな業界や事業部門を横断する機能やプロセスを指します。これらのドメインに生成AIを適用することで、効率、生産性、全体的なROIを向上させることができます。

マーケティングと営業: 顧客体験をパーソナライズし、ターゲットコンテンツを生成し、マーケティングキャンペーンを最適化することで、顧客エンゲージメント、コンバージョン率、売上を向上させます。
カスタマーサービス: 生成AI搭載のチャットボットやバーチャルアシスタントが顧客の問い合わせに対応し、応答を自動化し、問題を効率的に解決することで、顧客満足度を向上させ、サポートコストを削減します。
人事: 採用プロセスを効率化し、従業員のオンボーディングをパーソナライズし、学習と成長の機会を提供することで、従業員のエンゲージメントと生産性を向上させます。
財務と会計: 財務分析を自動化し、異常や不正を検出し、財務プロセスを最適化することで、正確性、効率性、リスク管理を改善します。
運用とサプライチェーン: 在庫管理を最適化し、需要を予測し、物流を効率化することで、コストを削減し、サプライチェーンの効率を向上させます。

垂直ドメインにおける生成AIの活用によるROIの向上

垂直ドメインは、ビジネスドメインや産業、さらにはサブ産業に特有の領域を指し、それぞれのセクターの独自のニーズと課題に合わせてソリューションを提供します。

生成AIは、さまざまな垂直ドメインに展開することで、ROIを向上させることができます。

医療: 医療診断、薬の発見、パーソナライズされた治療計画を支援し、患者の転帰を改善し、医療コストを削減します。
金融: 財務データを分析し、市場動向を予測し、投資の推奨を生成することで、意思決定とリスク管理を強化します。
小売: 製品推奨をパーソナライズし、価格戦略を最適化し、顧客体験を向上させることで、売上と顧客ロイヤルティを向上させます。
製造: 生産プロセスを最適化し、設備の故障を予測し、品質管理を強化することで、コストを削減し、効率を向上させます。
教育: 学習体験をパーソナライズし、フィードバックを自動化し、適応型評価を作成することで、学生の成果とエンゲージメントを向上させます。

結論とアクションプラン

組織、チームプロジェクト、さらには個人の現在の成熟度と洗練度を理解することが重要です。その上で、目標とする成熟度レベルを決定し、そのレベルを達成するために必要なスキルを取得し、開発する必要があります。これにより、技術的な要件を満たし、ビジネスへの影響と成果を提供するために必要な洗練度を達成できます。

組織は、自分たちの現状からビジネス目標を進展させるためのロードマップを定義し、構築するスキルと能力を身に付けることができます。Google Cloud AIのようなプラットフォームを活用することで、あらゆる成熟度レベルをカバーし、目標とする成熟度レベルでのビジネス成果を達成することができます。

参照文献

[1] Brown, T. B., Mann, B., Ryder, N., Subbiah, M., Kaplan, J. D., Dhariwal, P., Neelakantan, A., Shyam, P., Sastry, G., Askell, A., Agarwal, S., Herbert-Voss, A., Krueger, G., Henighan, T., Child, R., Ramesh, A., Ziegler, D. M., Wu, J., Winter, C., … Amodei, D. (2020). Language Models are Few-Shot Learners.

[2] Rae, J., Borgeaud, S., Cai, T., Millican, K., Young, A., Rutherford, E., Hutter, F., Laurenç, P., Humphreys, P., Hawkins, P., Winter, S., Eccles, T., Leike, J., Ring, R., Askell, A., Chen, A., Olsson, C., Welinder, P., McAleese, N., … Irving, G. (2021). Scaling Language Models: Methods, Analysis & Insights from Training Gopher.

[3] Sanh, V., Debut, L., Chaumond, J., & Wolf, T. (2019). DistilBERT, a distilled version of BERT: smaller, faster, cheaper and lighter.

[4] Pfeiffer, J., Kamath, A., Rücklé, A., Cho, K., & Gurevych, I. (2020). MAD-X: An Adapter-Based Framework for Multi-Task Cross-Lingual Transfer.

[5] Hu, E. J., Shen, Y., Wallis, P., Allen-Zhu, Z., Li, S., Wang, L., Wang, L., & Chen, W. (2021). LoRA: Low-Rank Adaptation of Large Language Models.

[6] Li, X. L., & Liang, P. (2021). Prefix-Tuning: Optimizing Continuous Prompts for Generation.

[7] Lee, J., Yoon, W., Kim, S., Kim, D., Kim, S., So, C. H., & Kang, J. (2019). BioBERT: a pre-trained biomedical language representation model for biomedical text mining.

[8] Devlin, J., Chang, M. W., Lee, K., & Toutanova, K. (2018). BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding.

[9] Wei, J., Tay, Y., Bommasani, R., Raffel, C., Zoph, B., Borgeaud, S., Yogatama, D., Bosma, M., Zhou, D., Metzler, D., Chi, E., Hashimoto, T., Vinyals, O., Liang, P., Dean, J., & Fedus, W. (2021). Finetuned Language Models Are Zero-Shot Learners.

[10] Christiano, P., Leike, J., Brown, T., Martic, M., Legg, S., & Amodei, D. (2017). Deep Reinforcement Learning from Human Preferences.

[11] Liu, P., Qiu, X., & Huang, X. (2017). Multi-Task Deep Neural Networks for Natural Language Understanding.

[12] Finn, C., Abbeel, P., & Levine, S. (2017). Model-Agnostic Meta-Learning for Fast Adaptation of Deep Networks.

[13] Settles, B. (2010). Active Learning Literature Survey. University of Wisconsin-Madison.

[14] Hinton, G., Vinyals, O., & Dean, J. (2015). Distilling the Knowledge in a Neural Network.

[15] Wei, J., Bosma, M., Zhao, V., Guu, K., Yu, A. W., Lester, B., … & Hernández, D. (2023). Many-Shot In-Context Learning. arXiv preprint arXiv:2304.11018.(https://arxiv.org/abs/2404.11018)

[16] Yao, S., Zhao, J., Yu, D., Du, N., Shafran, I., Narasimhan, K., & Cao, Y. (2023). Tree of Thoughts: Deliberate Problem Solving with Large Language Models. arXiv preprint arXiv:2305.10601. https://arxiv.org/abs/2305.10601

[17] Besta, M., Blach, N., Kubíček, A., Gerstenberger, R., Podstawski, M., & Bojar, O. (2023). Graph of Thoughts: Solving Elaborate Problems with Large Language Models. arXiv preprint arXiv:2308.05276. https://arxiv.org/abs/2308.05276

[18] Chen, W., Lyu, X., Li, H., Liang, P., & Zhou, D. (2023). DSPy: Towards Domain-Specific Language Model Pre-training with Synthetic Programming Data. arXiv preprint arXiv:2304.06449. https://arxiv.org/abs/2304.06449

[19] Schick, T., & Schütze, H. (2020). Self-Diagnosis and Self-Debiasing: A Proposal for Reducing Corpus-Based Bias in NLP. arXiv preprint arXiv:2005.04636. https://arxiv.org/abs/2005.04636

[20] Yao, S., Zhou, D., Schuurmans, D., Yu, J., & Li, H. (2022). ReAct: Synergizing Reasoning and Acting in Language Models. arXiv preprint arXiv:2210.03629. https://arxiv.org/abs/2210.03629

You get articles that match your needs
You can efficiently read back useful information
You can use dark theme

What you can do with signing up