はじめに
2026年1月9日〜10日に静岡で開催された情報処理学会/ソフトウェア工学研究会のウィンターワークショップ2026・イン・静岡で、T5セッション「AIエージェントの開発・評価・継続的運用」の討論リーダーを務めました。本記事では、セッションの内容と議論から得られた知見をご紹介します。
ケーススタディについて
本記事の一部では、Microsoft社の事例紹介記事「すかいらーくグループ、生成AIを活用した注文ロボをガストに導入」を参考に、実証実験中のAI注文システムをケーススタディとしてAIエージェントの品質評価について議論しています。記事中の機能提案・テストケース・評価観点はワークショップ参加者による検討用の仮想シナリオであり、実際のシステムの仕様・機能・品質を表すものではありません。
セッション概要
| 項目 | 内容 |
|---|---|
| テーマ | T5: AIエージェントの開発・評価・継続的運用 |
| 討論リーダー | 石川 冬樹(国立情報学研究所)、江澤 美保(クレスコ)、杉山 阿聖(Citadel AI) |
| 開催形態 | オンサイトのみ |
| 参加者 | 約10名(産業界・アカデミア混合) |
セッションの背景と狙い
大規模言語モデル(LLM)やAIエージェントの活用が急速に進む中、「デモは簡単に作れるが、本番化・継続運用は難しい」という声が多く聞かれます。基盤モデルを使った機能構築は容易になった一方で、以下のような課題が浮き彫りになっています。
- 品質や組織・ビジネスへの効果の測定と改善
- 信頼できる評価の準備・実施コスト
- 高度なタスクにおける品質評価のあいまいさ
- 技術進化の激しさへの追従
本セッションでは、こうした課題に対して事例の議論やハンズオンワークショップを通じ、知見や技術の共有を目指しました。
参加者の多様な関心
産業界からはAIベンチャー、システムインテグレーター(研究所、ガバナンス組織)など、アカデミアからは大学(工学系、文系)、国立情報学研究所と、様々な領域の方々にご参加いただきました。その関心は多岐にわたります。
- 「AIエージェントの評価方法を企業として確立したい」
- 「生成AIを活用したソフトウェア開発の妥当性をどう担保するか」
- 「バグ優先度付けにAIエージェントを活用したい」
- 「人とAIエージェントの棲み分けを考えたい」
1日目:AI活用の現在地と評価の難しさ(T2との合同ワークショップ)
1日目午後は、T2:AIとサービスコンピューティング との合同セッションで、話題提供の後、2グループに分かれて「AIエージェントで成果を出していくためには何が不足しているのか?」をテーマに討論を行いました。
話題提供:AI活用は進んでいるが、成果を出す企業とそうでない企業で二極化
杉山さんから、IPAの「DX動向2025」やMETR(AI安全性研究機関)の調査など最新データを交えた話題提供がありました。
興味深いポイント:
- 日本の大企業(1,001人以上)の96.1%が生成AI導入に取り組んでいる(100人以下は46.8%)
- 日米独の比較では、大企業の導入済み割合は日本が最高
- 一方で、「個人の効率化が組織の成果に直結しない」という生産性のパラドックスが存在
継続的評価の難しさ
「Who Validates the Validators?(評価者を誰が評価するのか)」という問いかけが印象的でした。LLM-as-a-Judge(LLMによる評価)やプロンプトエンジニアリングによる改善は進んでいますが、評価自体の信頼性をどう担保するかは依然として大きな課題です。
提言:
- PDCAサイクルを回すためのフレームワーク構築
- データの収集とKPIの設定、対策前後での効果測定
- 小規模に始めて徐々に拡大するリスク対策
話題提供の中での印象的な言葉:
「誰も正解を持たない今、普遍的なエンジニアリングの学習とコミュニティでの対話を通じて、最適解を探求し続ける姿勢こそが必要である」
グループ討論:AIエージェントで成果を出すために何が不足しているか
話題提供の後、ABの2グループに分かれて討論を行いました。以下はBグループでの議論の概要です。
1. 技術課題と標準化の不足
- AIエージェントの技術成熟度や業界標準プラットフォームが未整備
- セキュリティや統合面の課題
- オープンソースや標準化の必要性
2. 個人利用は進むが、組織単位での活用が進まない
- 個人単位での利用は進んでいるが、チームや組織単位での活用や業務モデルの最適化が進んでいない
- RPAやワークフロー自動化の難しさ
- エンジニア以外の人材が使いこなせない現状
3. 業務モデルの抜本的見直しが必要
- 既存業務の自動化だけでなく、エージェントネイティブな業務モデルへの見直しが必要
- 現場の抵抗感やインセンティブ不足
- DX推進の難しさ
4. レビューコストと暗黙知の壁
- AIによるレビュー自動化の進展や観点分担の可能性がある一方、ベテランの暗黙知や形式知化の難しさが残る
- AIエージェントによる完全な自動化には限界がある
- レビューコストの増大も課題
5. 教育・ガバナンスの不足
- AI活用に関する最低限の教育やガイドライン整備は進んでいるが、実践的な活用教育や目的に応じた教育は不足
- 経営層の危機感と現場のギャップ
6. 効率化の裏にある人間の負荷増大
- 会議や事務作業の効率化が進む一方で、人間の処理能力や意思決定負荷、疲労が増大
- AIが生成した成果物のレビュー負荷
- ウェブ会議と対面会議の違いも話題に
2日目:LLMドメイン適用のための評価設計ワークショップ
2日目は私(江澤)と石川先生が担当しました。MLSEのLLMドメイン適用ワーキンググループの活動として、2025年7月に開催した夏合宿の成果をインプットとして活用し、品質観点の優先順位付けと評価方法論に関する議論を行いました。
ガイドラインの抽象度と具体化の必要性
冒頭で石川先生より、QA4AIコンソーシアムのAIプロダクト品質保証ガイドラインの特徴と位置付けについてお話しいただきました。
「QA4AIガイドラインは現場のQA担当者やテスターの視点を重視し、ケーススタディや具体例が豊富。一方で抽象度が高く、実際の業務適用時には具体的なユースケースや評価基準への落とし込みが必要」
ISOや経産省のガイドラインとの違いや連携についても触れられ、ドメイン固有の課題はガイドラインの品質特性だけではカバーできない場合があることが指摘されました。ワーキンググループでは、この「抽象的な特性を具体的な評価項目に分解する」作業を進めています。
インプット:MLSE夏合宿での検討成果
続いて、2025年7月に行った機械学習工学研究会 MLSE の夏合宿で「ガスト注文Bot」をケーススタディとして実施したワークショップの成果を共有しました。
ガスト注文Botとは:
- すかいらーくグループが開発したAI注文ロボ
- Azure OpenAI Serviceを活用
- 2024年9月からガスト秋葉原駅前店で実証実験中
- アレルギー対応、存在しないメニューの推薦防止など安全性とオペレーション配慮が重視
夏合宿では、参加者全員で付箋ワークを実施し、以下のような検討を行いました。
「あったらうれしい新機能」のアイデア例:
- 料理の待ち時間予測(厨房の稼働状況をインプットに)
- ダイエットサポート(栄養バランス・カロリー考慮)
- 「今日はメンじゃない、何かオススメ」への対応(曖昧な要求の理解)
- きちんと割り勘してくれる機能
- 子供が待ち時間に楽しめる会話機能
テストケース検討で挙がった観点:
- 方言や言い間違いへの対応(ロバストネス)
- 違うテーブルの会話を拾わないか(境界条件)
- 未成年・運転手へのアルコール提供禁止(安全性)
- 悪意のある話しかけへの対応(セキュリティ)
これらの成果を「AIプロダクト品質保証ガイドライン」の品質観点で整理したものを、本セッションのインプットとして使用しました。
インプット資料抜粋
ワーク:品質観点の優先順位付け
参加者はガストのケースや自身の業務システムを題材に、QA4AIガイドラインの12観点から優先度の高いもの3つとあえて捨てるものを選び、その理由や想定ユースケースを記述して発表しました。
各参加者の優先観点(一部紹介):
| 参加者 | 想定ユースケース | 優先観点 | 理由 |
|---|---|---|---|
| Aさん | ガスト注文Bot | メニュー探索・会話継続性・新規例対応 | 子供との対話の魅力、多様な会話への対応が重要 |
| Bさん | 仕様書とコードの整合性評価Agent | ツール活用・事実性(根拠説明) | 不整合を漏れなく抽出し、仕様書・コードの対応箇所を紐付けたい |
| Cさん | ガスト注文Bot | セキュリティ(目的外利用・非現実的要求) | パフェ100個のような非現実的オーダーや注文と関係ない質問への対応 |
| Dさん | 保険案内チャットボット | 事実性(ドメイン知識)・頑健性 | LLMモデル変更時の振る舞い変化が課題 |
| Eさん | 外国籍社員向け制度案内Bot | 倫理性(安全性)・情報源の正確性 | 法律面での違法な発言防止(非弁行為など) |
あえて捨てた観点と理由:
- 公平性:「注文提案はバイアスに寛容でよい」
- 説明性・根拠説明:「提案根拠の提示より注文変更対応が求められるはず」
- 多様性:「注文業務は正確で一貫している必要があり、多様性は重要でない」
- 網羅性:「社内向けなので特定地域・特定領域からスタートでよい」
議論で出た興味深い視点:
「予期せぬ挙動をしたときのリスクが大きいもの(法令違反、オペレーション停止)を優先度高としてた」
「安全性は注文確認画面などUIでも担保できるのでは?」
「『ちょうどいいを、あなたに』がガストのキャッチフレーズ。高校生や電源を使いに来る1人作業者は適切な期待値を持って使いこなしてくれる。今の猫ロボットのように、感覚的に『ウケる』ことを安全性より押してほしい」
「善管注意義務」という新たな視点
ワークの中で特に興味深かったのは、 「善管注意義務」 という観点です。
| 優先度 | 観点 | 理由 |
|---|---|---|
| 1 | 善管注意義務 | サービスビジネス提供側の責任 |
| 2 | システムとしてのアベイラビリティ | - |
| 3 | 回答性能(自然言語処理) | - |
「善管注意義務」は民法上の概念で、「善良な管理者の注意をもって事務を処理する義務」を指します。これを「人が介在しないサービスビジネス提供者に求められる品質特性」ではないかとして、AIエージェントの品質評価に持ち込みました。
具体的な例として挙げられたのは:
- 火事、病人、犯罪等が発生した場合の対応
- 要件として定義されない「常識的な判断」
これはQA4AIガイドラインの12観点には明示的に含まれていない視点です。いわゆる一般常識的な判断はLLMが得意とするところですが、例えば「店内で火事が起きたら注文対応より避難誘導を優先する」「病人が出たら救急対応を促す」といった人間なら当然行うであろう暗黙の期待に対して、どう振る舞うべきか。
AIエージェントが人間スタッフを置き換えていく中で、これまで人間が暗黙的に担っていた「常識的判断」を誰が・どう保証するのか。既存のガイドラインでは扱いにくいこの領域は、今後の重要な検討課題として認識されました。
議論:評価方法論に関する5つの問いかけ
最後に、評価方法論に対する根本的な問いかけを投げかけ、参加者全員で投票・自由討論を行いました。
① 「評価しない」という選択肢は?
評価コストが便益を上回るなら、本番で壊れてから直す方が合理的では?どういう条件なら「評価しない」が許される?
議論では「今、実態はそうなっている。LLMの性能が高いので自動化効果だけで進んでいる。しかし成熟したらどこかで評価と改善が必要なはず」(石川先生)という指摘がありました。
② 「人間ベースライン」でOK?
人間スタッフより悪くなければ合格、という考え方はアリ?
「『顧客体験が』下回らなければ成立する」という意見の一方、以下の限界も指摘されました:
- 成り立つのは人の置き換えだけで、サービス内容も同一の場合に限る
- 「機械だからミスは許されない」と思う人も一定数いる
- 美味しさや新規性など主観的・非定型的なものには適用困難
- 人間と機械の情報源や能力の違いによる限界
③ LLMに評価させる?
テストケース生成から正解データ作成まで全部AI。どこが破綻する?逆にどこは任せられそう?
「LLMの吐き出したデータが正確かを判断するロジックは必要」という意見。また、ソフトウェア工学における「テストオラクル問題」との関連も指摘されました。
「テストオラクル問題に対して、LLM適用によって解決される部分と残存課題として残るだろうものが気になる」
④ 評価基準のアジャイル運用
評価基準を固定せず、毎月変えていく運用はアリ?固定した評価基準は陳腐化する。
「システムの浸透度・展開プランに応じて時系列で変化するのは自然」という見解が共有されました。⑤の長期指標との関連も指摘されました。
⑤ 長期指標での評価
リリース時のスコアより、1年後の顧客生涯価値(LTV)で測るべきでは?短期的な品質指標は意味がない?
自動運転の例を挙げ、「短期には測れない」ケースの存在が指摘されました。また、調査では「盲信(Faith)」の方が「信頼」に影響しているという興味深い知見も共有されました。
まとめ:誰も正解を持っていない時代だからこそ
今回のセッションを通じて、改めて実感したのは 「AIエージェントの評価に万能な正解はない」 ということです。
1日目の討論では「個人利用は進むが組織単位での成果に繋がらない」「エージェントネイティブな業務モデルへの転換が必要」といった現場の課題が共有され、2日目のワークショップでは「ユースケースによって優先すべき品質観点が異なる」「評価しない選択肢もありうる」といった実践的な議論が行われました。
AIエージェントを活用するための開発と評価のループは、DevOpsの原則の応用と見なせます。技術の進化が速い中でも、データの収集・KPIの設定・効果測定という基本的なフレームワークは変わりません。そして何より、同じ志を持つ仲間との対話を通じて最適解を探求し続ける姿勢が重要だと感じました。
参考資料
- QA4AI AIプロダクト品質保証ガイドライン 2025年4月版(LLM章)
- IPAデジタル DX動向2025
- METR Research Update: Algorithmic vs. Holistic Evaluation
MLSE活動のご紹介
本セッションは、 日本ソフトウェア科学会 機械学習工学研究会(MLSE) のLLMドメイン適用ワーキンググループの活動とも連携しています。
MLSEでは、機械学習システムの開発・運用・品質保証に関する知見の共有、議論の場を提供しています。
今後のイベント
📅 MLSE冬合宿(2026年2月)
2月19日〜21日、箱根太陽荘にて開催予定。2泊3日でOSTを行います。LLMドメイン適用WGでは、今回の議論を継続し、LLMシステムの評価設計についてさらに深掘りします。興味のある方はMLSEまでお問い合わせください。
https://mlxse.connpass.com/event/380336/
📅 人工知能学会全国大会(JSAI2026)オーガナイズドセッション
「OS-31 LLM時代のソフトウェア工学」
https://www.ai-gakkai.or.jp/jsai2026/os/#os-31
AIエージェントやLLMシステムの品質・評価に関心のある方は、ぜひイベントにもご参加ください。一緒に「AIとの良い付き合い方」を探求していきましょう!
本記事は、WWS2026での議論をもとに執筆しました。参加者の皆様、討論リーダーの石川先生・杉山さん、ありがとうございました。


