はじめに
皆さん、こんにちは。
KDDI CCoE(※1)の坂井です。
※1:CCoE = Cloud Center of Excellence の略称。
自社内のクラウド利用推進をさまざまな形で支援・牽引する専任組織を指す。
※2:本記事は個人の見解であり、組織の公式見解とは一切関係はありません。
みなさん、日々の業務の問い合わせ対応に悩んだことはありませんか?
現在CCoEでは、社内のクラウド利用を支援するために、環境整備や問い合わせ対応を行っています。しかし、問い合わせが増えるにつれて、こんな課題が出てきました。
- 問い合わせ対応に時間がかかりすぎて、他の業務が圧迫される
- 即時に回答できない場合があり、利用者がフラストレーションを感じる
- 特定の有識者への依存が強く、対応が属人化してしまう
これをなんとかしないとと思い、私たちは、QAチャットボット、その名も「KCLUKN(クラックン(※3))」をリリースしました!
※3:KDDI Cloud Useful Knowledge Navigatorの略称
リリースに至った背景や取り組みの過程等を中心にご紹介できればと思います。
背景
直面していた問題
問い合わせ対応で抱える問題を具体的に挙げると、
- CCoEの負担増大: 問い合わせ対応に時間とコストがかかってしまう
- 利用者の不満: 回答が遅く、迅速な解決ができない
- 属人化: 問題の解決方法が特定の有識者に依存している
解決したいこと
このような状況を改善するため、以下を目指しました。
1. 問い合わせ対応の効率化
2. 利用者が迅速に回答を得られる環境の構築
3. 上記1.2.を実現することで、CCoE全体の負担を軽減
解決策: 生成AI(RAG)の導入
採用したアプローチは、生成AIのRAGを活用したチャットボットの構築です。
RAGとは
RAGとは「Retrieval Augmented Generation」の略称で、生成AIの仕組みを強化するための方法です。具体的には、自社だけに蓄積された情報などをLLM(大規模言語モデル)に取り込んで回答させる技術のことです。
試用したモデル
生成AIとして以下のモデルを試用しました。
- Claude-3 Sonnet
- Claude-3 Haiku
- Claude-3.5 Sonnet
- GPT-4o
モデル選定のポイント
利用するモデルについては、以下を重視し選定しました。
-
Claudeモデル
- 社内ではAWSを利用しているユーザが多く、Amazon Bedrockで利用可能
- QAなどのリアルタイムコンテンツ生成に特化
-
GPT-4oモデル
- 日本語における性能向上
- 自然で一貫性のあるテキスト生成
ここまでは、生成AIを使ったチャットボットの導入のよくある話かと思いますが、
CCoEでは、評価に関する取り組みに重点をあて、以下の2ステップで評価を行いました。
モデル評価に関する取り組み
チャットボットのモデルを選定する過程で、先ほど挙げた4つのモデルから最終的に採用するモデルを選定する取り組み(評価)を「ステップ1」と「ステップ2」に分けて行いました。
- ステップ1:定量評価により、モデルを「4つ」から「2つ」の選定
- ステップ2:定性評価により、最終的に採用するモデルを1つに選定
ステップ1:Ragasツールを活用した定量評価
「Ragas」という評価ツールを使いました。「Ragas」の特徴は、評価指標として複数のメトリクスを数値化するツールとなります。今回は、複数のあるメトリクスのなかでも、ユーザの利用に直接影響のある「Answer Relevance」というメトリクスの数値を軸に比較しました。
- Answer Relevance(適切性): 生成された回答が元の回答にどれだけ適切か
定量評価の結果
結果として、4つのモデルのうち「Claude-3 Haiku」と「GPT-4o」が高評価であると結論が出ました。
ステップ2:社内の有志30名によるフィードバックによる定性評価
定量評価による比較検討に加え、実際の使用感による評価を大切にしたく、社内から有志30名を募り、チャットボットを試用してもらいました。
それぞれのモデルに対し、同様の質問をしていただき、回答されるレスポンス速度や回答内容の充実度などを人が判断し評価を行うやり方となります。
実際に利用いただく「人」にフォーカスし、
具体的には以下の観点でスコアやフィードバックを頂きました。
評価項目(4段階評価)
- 回答のレスポンス速度
- 回答の理解しやすさ/自然さ
- 回答の適切さ
- おすすめ度(周りにおすすめしたいか)
フィードバック内容(自由記載)
- ポジティブフィードバック
- ネガティブフィードバック
- 改善提案
定性評価の結果
結論としてGPT-4oを採用しリリースしました。定性評価を踏まえた総評は以下の通りです。
両モデルの採択可否/考察
- GPT-4o:回答の適切さと自然さを両立していると評価でき、採用に値すると判断
- Claude-3 Haiku:レスポンス速度は高評価だが、簡潔な回答が適切さを欠く結果となり、AIチャットボットには向かないと判断
評価に関する振り返り
今回、定量評価と定性評価という2ステップにて評価を実施しました。
最終的にGPT-4oを採用しリリースすることとしましたが、定性評価の考察からもわかる通り、両モデルの評価が明確に分かれる結果となりました。
Claude-3 Haikuはモデルの特性上、レスポンスが早く端的な回答を出力するのが特徴となり、その結果が顕著に表れた形と考えております。
また、モデルの特性を考慮した場合、Claude-3.5 Sonnetの方がAIチャットボットとして適切であると考えており、GPT-4oとClaude-3.5 Sonnetによる定性評価を行えば、また異なった結果となる可能性もあると考えております。
まとめ
RAGを活用した効率化に向けた取り組みはまだ始まったばかりです。
現時点ではPhase1という位置づけとしており、今後更なるアップデートを検討しております。
今回は「GPT-4o」選定しましたが、最近でも各ハイパースケーラーから様々なモデルがリリースされているため、すぐに最新モデルを試せるようなプラットフォームの要素も取り入れていきたいと考えております。
これらの取り組みは、CCoEが社内でのクラウド活用をさらに促進する基盤となりました。この記事が、同じ課題を抱える皆さんの参考になれば幸いです!