Morgan Stanley uses AI evals to shape the future of financial services より
https://openai.com/index/morgan-stanley/
目次
- はじめに:金融サービスにおけるAI革命
- 金融AI導入における評価フレームワークの重要性
- モーガン・スタンレーのAI戦略と初期目標
- AI評価プロセスと方法論
- パイロットから全社展開へのスケーリング
- セキュリティとコンプライアンスの確保
- 導入の成果と業務への影響
- 今後の展望:AIフライホイールの構築
- 金融業界におけるAI導入の課題と教訓
- まとめ:金融機関におけるAI評価の重要性
はじめに:金融サービスにおけるAI革命
金融サービス業界は、テクノロジーの進化によって常に変革を遂げてきましたが、近年の生成AIの台頭はこの変革を加速させています。なかでもMorgan Stanleyは、OpenAIとの協働を通じて、ファイナンシャルアドバイザーに力を与えるAIソリューションの構築に先駆的に取り組んでいます。このソリューションにより、アドバイザーはより迅速な洞察、より情報に基づいた意思決定、そして効率的な要約ツールを活用して顧客との関係を深めることが可能になりました。🚀
Morgan Stanleyの特筆すべき点は、堅牢な評価(eval)フレームワークを基盤としている点です。このフレームワークにより、AIが信頼性高く一貫して機能し、アドバイザーが期待する高い基準を満たすことが保証されています。GPT-4をワークフローに組み込むことで、Morgan Stanley Wealth Managementは、ファイナンシャルアドバイザーが同社のナレッジベースにアクセスし、顧客ニーズに応える方法を強化しました。
現在、アドバイザーチームの98%以上が、社内情報を円滑に検索するための内部チャットボット「AI @ Morgan Stanley Assistant」を積極的に活用しています。この高い採用率の背後にある要因と、それを可能にした評価フレームワークの詳細について探っていきます。
金融AI導入における評価フレームワークの重要性
評価駆動型アプローチの基本原則
金融サービスにおけるAIの導入は、単なる技術導入以上の意味を持ちます。特に資産運用や投資アドバイスといった高度な専門性と信頼性が求められる領域では、テクノロジーが確実に価値を提供し、厳格な品質基準と信頼性を満たすことが絶対条件となります。
Morgan Stanleyは、この課題に対して「評価駆動型アプローチ」という方法論で対応しました。これは、AIユースケースを本番環境に展開する前に、徹底的なテストを行うフレームワークを実装するというものです。
このフレームワークの中心にあるのは、「evals」と呼ばれるプロセスです。これは、モデルが実際のユースケースに対してどのようにパフォーマンスを発揮するかを測定し、各ステップで専門家からのフィードバックを取り入れながら改善を導くものです。
評価(eval)とは?
金融AIにおける「eval」とは、AIモデルのパフォーマンスを特定の業務タスクやシナリオに対して測定し、その結果を基にシステムを改善するための構造化されたテストフレームワークを指します。Morgan Stanleyでは、この評価プロセスが高品質なAIソリューション実現の鍵となっています。
金融分野特有の課題
金融サービス業界におけるAI導入には、一般的なAI実装とは異なる独自の課題があります:
- 規制遵守: 金融機関は厳格な規制環境下で運営されており、AIシステムもこれらの規制を遵守する必要があります
- 情報の正確性: 投資アドバイスや財務情報の誤りは深刻な結果を招く可能性があるため、高度な精度が求められます
- 機密情報の取り扱い: 顧客の財務データや投資情報は極めて機密性が高く、厳重なセキュリティ対策が必要です
- 説明可能性: 金融アドバイスの根拠を説明できることが、顧客信頼と規制遵守の両面で重要です
Morgan Stanleyの評価フレームワークは、これらの金融分野特有の課題に対応するよう設計されています。特に、AIが生成する情報の正確性、コンプライアンス、セキュリティに重点を置いています。
モーガンスタンレーのAI戦略と初期目標
ターゲットとなる3つの主要目標
Morgan Stanleyチームは、最初のAIユースケースに対して3つの明確な目標を設定しました:
- 情報検索の迅速化 📚: アドバイザーが文書検索に費やす時間を削減し、効率性を高める
- 反復的タスクの自動化 ⚙️: 研究レポートの要約など、時間を要する作業を効率化する
- 顧客ニーズに合わせたインサイトの強化 🔍: パーソナライズされた洞察を提供し、顧客対応の質を向上させる
これらの目標は、AIがただの技術的な機能ではなく、実際のビジネス課題を解決し、アドバイザーと顧客の両方に価値を提供するためのものでした。
OpenAIとの協働
Morgan Stanleyは、これらの目標を達成するためにOpenAIと協力関係を構築しました。GPT-4の高度な言語理解能力と生成能力を活用することで、金融アドバイザリーの複雑な領域にAIを適用する道を開きました。
この協働の重要な側面は、Morgan Stanleyの業界専門知識とOpenAIの最先端AI技術を組み合わせたことです。これにより、金融サービスの文脈を深く理解し、適切に対応できるAIソリューションの開発が可能になりました。
協働事例:特定のファンド検索の効率化
あるファイナンシャルアドバイザーが特定の投資戦略に適したファンドを探していた際、従来は複数のデータベースを手動で検索し、何時間もかかっていました。AI @ Morgan Stanley Assistantの導入後は、「低ボラティリティで高配当のESG対応グローバル株式ファンドを教えて」といった自然言語クエリで、数秒以内に最適な選択肢と関連リサーチを取得できるようになりました。
AI評価プロセスと方法論
要約評価フレームワーク
Morgan Stanleyチームは、GPT-4のパフォーマンスを社内の専門家と比較するため、要約評価(summarization evals)を実施しました。この評価は、モデルが膨大な知的資本とプロセス駆動型コンテンツを簡潔な要約にまとめる効果を測定するものです。
アドバイザーとプロンプトエンジニアは、AI応答の正確性と一貫性を評価し、チームがプロンプトを改良し、出力品質を向上させることを可能にしました。この反復的なプロセスにより、AIが金融アドバイザーの期待に応える能力を着実に向上させることができました。
具体的な評価基準には以下のようなものがありました:
- 事実的正確性: 要約に含まれる情報が原文書と一致しているか
- 完全性: 重要な情報が漏れなく含まれているか
- 明瞭性: 内容が明確で理解しやすいか
- 簡潔性: 冗長な表現なく要点が伝えられているか
- 有用性: 金融アドバイザーの業務に実際に役立つ内容か
翻訳評価と多言語対応
評価フレームワークは静的なものではなく、チームの学習とともに進化しました。次のステップとして、多言語クライアントのための翻訳評価が導入されました。これにより、異なる言語や文化的背景を持つ顧客とのコミュニケーションにおいても、一貫した高品質なサービスを提供することが可能になりました。
グローバルな金融機関であるMorgan Stanleyにとって、この多言語対応は特に重要でした。評価フレームワークには、金融用語の正確な翻訳、文化的ニュアンスの保持、規制遵守の維持といった側面が含まれていました。
検索機能の最適化
Morgan Stanleyチームは、OpenAIと緊密に協力し、検索方法を微調整しました。これにより、AIが拡大し続けるドキュメントライブラリを効果的に処理できるようになりました。
Morgan Stanleyの「Firmwide AI Product & Architecture Strategy」責任者であるDavid Wu氏は、「7,000の質問に回答できる状態から、現在では10万ドキュメントのコーパスからあらゆる質問に効果的に回答できる状態に進化した」と述べています。
この進化により、「AI @ Morgan Stanley Assistant」からの迅速で信頼性の高い回答がアドバイザーの会話に与えた影響は大きく、アドバイザーは以前は議論していなかったトピックについても顧客と対話できるようになりました。「知識とコミュニケーションの間の摩擦がゼロになった」とMcMillan氏は指摘しています。
パイロットから全社展開へのスケーリング
AI @ Morgan Stanley Assistant
Morgan Stanleyの最初の主要AIツールである「AI @ Morgan Stanley Assistant」は、ファイナンシャルアドバイザーの質問に答えるための内部チャットボットです。このシステムは、膨大な社内ドキュメントからアドバイザーが必要な情報を迅速に取得することを可能にしました。
実際のユースケースとして、ファイナンシャルアドバイザーは以下のような質問を日常的にアシスタントに投げかけています:
- 「退職を計画している高所得クライアント向けの最新の税制優遇戦略は?」
- 「米国債と社債のイールドカーブの現在の状況を比較して説明して」
- 「ESG基準を満たす高配当エネルギーセクターの銘柄リストを教えて」
- 「最近の金利変動がモーゲージ商品に与える影響について簡潔に説明して」
このようなクエリに対して、AIは関連する社内リサーチレポート、市場分析、製品情報から適切な情報を抽出し、コンテキストに合わせた回答を生成します。以前なら複数のデータベースやレポートを検索する必要があった作業が、数秒で完了するようになりました。
AI @ Morgan Stanley Debrief
最初のツールの成功を受けて、チームは「AI @ Morgan Stanley Debrief」を立ち上げました。これは、WhisperとGPT-4を活用したミーティング要約ツールです。このツールは、顧客の同意を得たZoom録画を、以下のようなアクションにつながる出力に変換します:
- クライアントノート: 自動的にCRMシステムに統合される会議記録
- フォローアップドラフト: アドバイザーが洗練して送信できる重要なアクションアイテムを要約したもの
このプロセスでは、アドバイザーがAI生成の出力を確認して調整してから最終決定するという、自動化と人間の監視のバランスが保たれています。
実際のユースケースでは、1時間の顧客ミーティング後、従来は詳細なノート作成とフォローアップ準備に45-60分かかっていましたが、AI @ Morgan Stanley Debriefの導入により、アドバイザーは10-15分でAI生成された要約とアクションアイテムをレビュー、調整するだけで済むようになりました。この時間創出により、より多くの顧客対応が可能になり、顧客満足度の向上につながっています。
拡張の過程における教訓
両ツールはMorgan Stanleyの評価駆動型アプローチの恩恵を受けました。Debriefでは、チームは様々なミーティングタイプを代表する評価データセットを開発し、モデルが重要なアクションアイテムをエラーなく捉える能力を厳格にテストしました。
この段階的なアプローチと徹底した評価により、AIツールの品質と信頼性が確保され、最終的に高い採用率につながりました。拡張過程で学んだ重要な教訓には以下のようなものがあります:
- ユーザーフィードバックの継続的統合: 実際のユーザーからのリアルタイムフィードバックを収集し、改善サイクルに組み込むことが成功の鍵でした
- 段階的展開の重要性: 限定的なパイロットから始め、成功事例を積み上げながら徐々に展開範囲を拡大しました
- 技術とビジネスの両面からの評価: 技術的精度だけでなく、実際のビジネス価値の観点からもAIツールを評価することが重要でした
- 変化管理の必要性: 新しいAIツールの導入には、適切なトレーニングとチェンジマネジメントが不可欠でした
セキュリティとコンプライアンスの確保
日次テストと回帰テストスイート
金融サービスの厳格なコンプライアンス基準を満たすため、Morgan Stanleyは評価フレームワークに品質保証を組み込みました。サンプル質問の回帰テストスイートを使用した日次テストにより、潜在的な弱点を特定し、システムがコンプライアンスに準拠した出力を提供する能力を向上させました。
Elliott氏は、「入力するすべての質問と得られる出力に基づいて、OpenAIと協力して'Morgan Stanleyに必要な精度を向上させるために検索方法をどう変更できるか'を検討しました」と説明しています。
このプロセスにより、例えば以下のようなエッジケースも検出・対応することができました:
- 規制上の微妙な表現を含む質問への適切な回答方法
- 投資アドバイスと一般的な情報提供の境界線の明確化
- 時間経過とともに変化する規制情報の最新性確保
ゼロデータ保持ポリシー
OpenAIのゼロデータ保持ポリシーも、重要なセキュリティ上の懸念に対応しました。これにより、Morgan Stanleyの機密データがプライベートに保たれることが保証されます。
Wu氏は、「最初に受ける質問の一つは、'私たちの情報が公開ChatGPTのトレーニングにOpenAIによって使用されるのか'というものです。OpenAIチームがゼロデータ保持を保証する意欲は非常に大きな影響を与えました」と述べています。
このポリシーの重要性は、金融機関が扱う情報の機密性を考えると特に明らかです。顧客データ、投資戦略、市場予測など、競争上および規制上の理由から厳重に保護する必要がある情報が多く存在します。
コンプライアンス基準の遵守
金融サービス業界特有の厳格な規制環境に対応するため、Morgan Stanleyは複数層の保護を実装しました:
- 出力フィルタリング: 規制に準拠していない可能性のある回答を検出して防止
- 監査トレイル: すべてのAI対話を記録して追跡可能性を確保
- 人間による最終確認: 重要な顧客向け通信の前に人間のレビューを義務付け
これらの措置により、AIツールが金融規制の厳しい基準を満たしながら価値を提供できるようになりました。金融規制は地域によって異なるため、グローバルに展開するMorgan Stanleyにとって、各市場の規制に適応できる柔軟なコンプライアンスシステムの構築も重要な課題でした。
導入の成果と業務への影響
98%の採用率を達成した要因
Morgan Stanleyの品質と信頼性への焦点は、従業員が使いたいと思う信頼でき安全なソリューションにつながりました:
- ほぼすべてのアドバイザーチームが現在、Assistantなどのツールを日常的に使用しており、ウェルス・マネジメント部門で98%を超える採用率を達成しています
- ドキュメントへのアクセスが20%から80%に急増し、検索時間が大幅に削減され、ドキュメント検索の効率が向上しました
- タスクの自動化と迅速な洞察により、アドバイザーはより多くの時間を顧客関係に費やすことができるようになりました
この高い採用率を達成できた主な要因として以下が挙げられます:
- ユーザー中心設計: アドバイザーの実際のニーズに基づいたツール開発
- 段階的展開: 慎重なパイロット導入とフィードバックループによる改善
- 明確な価値提案: 時間節約と業務効率化の具体的メリットの提示
- トレーニングとサポート: 適切な教育と継続的なサポートの提供
- 高い信頼性: 評価フレームワークによる一貫した品質の確保
具体的な数値で見ると、アドバイザーは平均して週に15-20時間の情報検索時間を節約できるようになり、この時間を顧客対応や戦略的業務に振り向けられるようになりました。また、クライアントノート作成とフォローアップ準備の時間が75%削減されたことで、より迅速な対応が可能になりました。
業務効率と顧客関係の向上
AIツールの導入は、単なる技術的な成功を超えて、実質的なビジネス価値をもたらしました:
- 情報アクセスの民主化: 組織内の誰もが専門知識に即座にアクセスできるようになりました
- 応答時間の短縮: 顧客からの質問への回答が日単位から時間単位に短縮されました
- より包括的な対話: アドバイザーがより幅広いトピックについて自信を持って話し合えるようになりました
- パーソナライズされたサービス: 顧客固有のニーズに合わせたよりカスタマイズされた対応が可能になりました
「アドバイザーからのフィードバックは圧倒的に肯定的です。彼らはより顧客と関わるようになり、以前は数日かかっていたフォローアップが今では数時間以内に行われています」とMorgan StanleyのFirmwide Generative AI Solutions責任者であるKaitlin Elliott氏は述べています。
Jeff McMillan氏(Morgan StanleyのFirmwide AI責任者)の言葉を借りれば、「このテクノロジーによって、組織内で最も賢い人と同じくらい賢くなれます。各クライアントは異なるニーズを持っており、AIは各クライアントの固有のニーズに対応するのに役立ちます」。
今後の展望:AIフライホイールの構築
部門横断的な展開可能性
Morgan Stanleyの強力な評価フレームワークは、将来のソリューションとサービスのためのフライホイール(好循環)を解放しました。AI @ Morgan Stanleyが従業員向けの「スーパーアプリ」となり、Morgan Stanleyは部門を超えた無数のユースケースを想定しており、すでに機関証券グループ向けにAssistant機能をスケールさせています。
「私たちは他の多くのユースケースをサポートするプラットフォームを構築しています」とWu氏は述べています。「Debriefは現在、アドバイザーが顧客と話すためのものですが、投資銀行家がCFOと話すためにもそれを利用できないでしょうか?」
この部門横断的なアプローチにより、以下のような新しい展開が検討されています:
- 投資銀行部門でのディールミーティングの要約と追跡
- リサーチ部門でのアナリストレポート生成支援
- リスク管理部門でのコンプライアンスモニタリング強化
- 人事部門での社内コミュニケーション最適化
新しい製品とサービスの創出
AI導入の最も興味深い側面の一つは、新しい製品やサービスの可能性を開くことです。従来の業務フローでは想像できなかった革新的なソリューションが、AIの能力によって実現可能になっています。
McMillan氏は、「これは、コンテンツの品質を向上させるだとともに、問題に近い人だけが想像できる新しい製品やサービスを生み出す根本的な変化です」と述べています。
例えば、以下のような新しいサービスの可能性が検討されています:
- カスタマイズされたAIドリブンの投資戦略レコメンデーション
- リアルタイム市場イベント分析と顧客ポートフォリオへの影響評価
- マルチチャネルでの統合的な顧客コミュニケーション管理
- プロアクティブなリスク警告と機会検出システム
これらの革新は、Morgan Stanleyが金融サービスの未来をどのように形作ろうとしているかを示しています。
金融業界におけるAI導入の課題と教訓
Morgan Stanleyの事例から学べる重要な教訓と、金融業界固有の課題について考察します。
実装における主な課題
Morgan Stanleyの成功事例は印象的ですが、その道のりには多くの課題がありました:
- 規制上の不確実性: AIに関する金融規制は進化し続けており、将来の変更に適応する必要があります
- データサイロ: 大規模金融機関特有の分断されたデータシステムを統合する難しさがありました
- 専門知識の獲得: AIとプロンプトエンジニアリングの専門家と金融専門家の両方を必要としました
- 変化への抵抗: 一部のベテランアドバイザーは新しいAIシステムに対して初期抵抗がありました
- 期待値の管理: AIの能力に対する過度の期待と現実のバランスを取る必要がありました
他の金融機関への教訓
Morgan Stanleyの経験から、他の金融機関が学べる重要な教訓は以下の通りです:
- 段階的導入アプローチ: 大規模な全社展開よりも、小規模で検証可能なユースケースから始めることの重要性
- 評価フレームワークの構築: AIのパフォーマンスを継続的に評価する体系的な方法の確立
- 人間中心設計: 技術主導ではなく、実際のユーザーニーズから出発する設計アプローチ
- コンプライアンスをデザインに組み込む: 後付けではなく、初期段階からコンプライアンス要件を考慮する
- エコシステムアプローチ: 単一のAIツールではなく、相互連携する複数のAIソリューションを検討する
AI評価の業界標準化の必要性
Morgan Stanleyの事例は、金融業界全体でAI評価の標準化の必要性を浮き彫りにしています。業界レベルでのベストプラクティスと評価基準の共有が、AIの安全で効果的な採用を加速する可能性があります。
規制当局、業界団体、金融機関の協力により、以下のような共通フレームワークが確立されるべきと考えられます:
- 金融AIシステムのパフォーマンス比較のための標準化されたベンチマーク
- 金融固有のバイアスや倫理的問題の評価方法
- AIシステムの説明可能性と透明性の測定基準
- 金融規制遵守の自動評価ツール
まとめ:金融機関におけるAI評価の重要性
Morgan StanleyのAI導入事例は、金融サービス業界におけるAI活用の模範となるものです。その成功の核心にあるのは、堅牢な評価フレームワークであり、これにより技術がビジネス価値に確実に変換されることが保証されています。
このアプローチから得られる主要な教訓は以下の通りです:
- 評価駆動型開発: AIシステムの徹底的な評価が、高品質で信頼性の高いソリューションの鍵となります
- ユーザーフィードバックの統合: 実際のエンドユーザーからの継続的なフィードバックが採用成功の中心です
- セキュリティとコンプライアンスの優先: 特に金融分野では、これらの要素を最初から設計に組み込むことが重要です
- 段階的な展開: パイロットから始め、学びを取り入れながら慎重に拡大することで、リスクを軽減できます
- 価値の明確な提示: 技術自体ではなく、具体的なビジネス成果に焦点を当てることが採用を促進します
金融機関にとって、AIは単なる効率化ツールを超え、顧客関係を深め、新しい価値を創造するための戦略的資産となりつつあります。Morgan Stanleyの事例が示すように、適切な評価フレームワークを備えたAI導入は、金融サービスの未来を形作る強力な力となり得るのです。
このケーススタディが、金融分野だけでなく、高度な信頼性と規制遵守が求められる他の業界にとっても、効果的なAI評価と導入の青写真となることを願っています。