25年の初めに考えたAIエージェントの振り返り

Posted at 2025-12-29

予想記事は的中したのか

年初に「25年の初めにAIエージェントを考える」という記事を書きました。そのなかで25年のAIエージェント予想を行い「結果は25年末に振り返りをしてみます。」と書いていたことを思い出したので、実際に振り返りを行ってみます

座談会形式で次のメンバーにて振り返り会を実施しました。
見やすさ考慮で表組みへの変更など行っていますが、それ以外はAIからのレスポンスをほぼそのまま載せています。

参加者	紹介
ジェミー（演：Gemini3 思考モード）	わかりやすい表現でレスポンスし、そのなかでポジティブな声かけも忘れない陽キャさん。
クロード（演：Opus 4.5）	相手に阿らず、エビデンスベースで的確にレスポンスを返す実直・クールな仕事人。
mi-ta	書記9割、司会進行1割の著者。

25年の予想はどう評価する？

mi-ta: まずはジェミーにお聞きします。記事に記載された予想は、25年を振り返ってどのように評価できますか？

ジェミーのフィードバック

ジェミー: 結論から申し上げますと、「ワークフローから自律型への移行」や「人間が介在するレベル感」についての見通しは非常に的確であり、一方でインターフェースや「推論能力」の進化スピードは予想をさらに上回る展開を見せた1年だったと言えます。

テーマ	記事の予想	評価
アーキテクチャの流行：ワークフロー vs ReWOO/自律型	初期は「ワークフロー（事前定義）」が主流で、徐々にReAct/ReWOOへシフトする。	的中：企業の業務導入においては、信頼性とコストの観点から「LangGraph」などを用いたガチガチのワークフロー型が依然として主流です。進化：しかし、2025年後半に登場したOpenAIのo1/o3シリーズやClaudeの次世代モデルなど「推論特化型モデル」の台頭により、プランニング（ReWOO的な動き）の精度が劇的に向上しました。これにより、「開発者がフローを書く」手間を省き、AIがその場でタスクを分解して実行する「エージェント的解決」が、より複雑な開発現場などで実用化されました。
自律性のレベル：レベル3（条件付自動化）の壁	2025年中は「レベル3（人間による承認あり）」が限界。低リスク領域から自動化が始まる。	大的中：まさにこの通りになりました。「AIに勝手に発注された」というトラブルを避けるため、B2Bツールでは「Human-in-the-loop（人間による最終承認）」が標準機能として組み込まれるのが当たり前になりました。例外的な進展：ただし、Anthropicの「Computer Use」やOpenAIの「Operator」の登場により、ブラウザやOSを直接操作するエージェントが普及しました。これにより、「操作はAIが自律的に行うが、最後の『確定ボタン』だけ人間が押す」というスタイルが定着しました。
インターフェース：チャットライクか、それ以外か	「AI＝チャット」のイメージが強く、2025年もチャットI/Fが主流。	予想を超えた変化：チャット形式も残っていますが、2025年は「アンビエント（環境型）AI」への移行が進みました。具体的には、Apple IntelligenceやGoogleのGemini統合がOSレベルで浸透し、「チャットを開く」のではなく、「今見ている画面の内容を理解して、隣のアプリアイコンからエージェントを呼び出す」というコンテキストメニュー型や、「自らUIを操作する（Agentic UI）」が普及しました。ユーザーは「会話」よりも「指示（Action）」を重視するようになっています。
スーパーAIエージェント（階層化）	25年は個々のエージェントが優先され、スーパーエージェントは議論の段階に留まる。	一部前倒し：予想よりも早く、「オーケストレーター型エージェント」の製品化が進みました。特にMicrosoft CopilotやOpenAIのOperatorが、複数の専用ツール（エージェント）を裏側で使い分けるハブとして機能し始めています。ただし、記事にあるような「営業・技術・人事の各エージェントを企業独自に構築して連携させる」という高度な階層化は、現在ようやくエンタープライズ企業でPoC（実証実験）が始まった段階であり、記事の「25年は個々の価値が優先」という見立ては実務的には正解でした。
IT開発への適用：「コード実行を代替する」世界	AIがコードを書くだけでなく、ビジネスルールを元に実行・処理を代行する。	現実のものに： GitHub Copilot WorkspaceやDevinのようなエージェントが進化し、「仕様書（自然言語）から直接環境を構築し、テストしてデプロイまで完了させる」流れが一般化しました。記事で触れられている「SoR（System of Record）系への適用」についても、バリデーションルールをAIエージェントに動的に判定させる取り組みが進み、「コードとして静的に定義する部分」と「AIエージェントがルールブックを読み取って動的に処理する部分」のハイブリッド化が進んでいます。

執筆当時の mi-ta さんの予想は、「技術的な楽観主義」と「実務的な慎重さ」のバランスが非常によく取れていたと言えます。

特に、「手続き型から宣言型への移行」という抽象化の捉え方は、現在のエージェント開発において最も重要な設計思想となっています。2025年末の現在、私たちは「AIにやり方を教える（手続き）」フェーズから、「AIに目的を伝える（宣言）」フェーズへ、まさに記事の予想通りに足を踏み入れています。

「自信の無い表現が目立つ」と最後に書かれていますが、結果的にその慎重な見積もりが、2025年の「期待値の調整と実用化」のサイクルと見事に一致していたのではないでしょうか。

mi-ta: コメントありがとうございますそれでは今度はクロードにお聞きします。ジェミーはこのようにコメントしてくれましたが、正誤や補足などあればお願いします。

クロードの補足

クロード: ジェミーの回答は概ね正確ですが、いくつかの点で誇張や不正確な記述、また補足が必要な箇所があります。

テーマ	ジェミーの評価	ジェミー評価へのコメント
アーキテクチャの流行：ワークフロー vs 自律型	「的中」と判定	正誤判定：概ね正確（ただし一部誇張あり） LangGraphが企業で採用されている点は確認できます。LangGraphはワークフローと自律型エージェントの両方に対応可能であり、Ally、Klarna、Replit、Elasticなど多くの企業が採用していますただし「o1/o3シリーズ」「Claudeの次世代モデル」による「推論特化型モデルの台頭」という記述については、時系列に誤りあり。OpenAI Operatorは2025年1月23日にリリースであり、「2025年後半に登場」という記述は不正確です Operatorは2025年5月にo3ベースのモデルにアップグレードされており、継続的な改善は事実です
自律性のレベル：レベル3（条件付自動化）の壁	「大的中」と判定	正誤判定：正確これは記事の予想通りになりました。ChatGPT agentでは「ChatGPTは重要な操作を行う前にユーザーの許可を求め、いつでも中断したり、ブラウザを操作したり、タスクを停止したりできます」という Human-in-the-loop が標準実装されています Operatorも「課題に遭遇したり間違いを犯したりした場合、単に制御をユーザーに戻すことで、スムーズで協調的な体験を保証します」という設計思想を採用しています LangGraphでもHuman-in-the-Loop (HITL)機能としてinterrupt()関数によるブレークポイント設定が標準機能として組み込まれています
インターフェース：チャットライクか、それ以外か	「予想を超えた変化」でアンビエントAIへの移行	正誤判定：やや誇張あり確かにApple IntelligenceではFoundation Modelsフレームワークを通じて、サードパーティアプリがプライバシーを保護しながらオフラインでも利用可能なAI機能を開発できるようになりました Appleは「現実の認識や探索を妨げるのではなく、バックグラウンドでアンビエントな方法（例：ヘルスセンサーを通じて）サポートする」アプローチを採用していますただし、「チャットを開く」スタイルからの「移行が進んだ」というのは誇張です。ChatGPT agentは依然としてチャットUIを起点としており、チャットインターフェースは2025年末時点でも主流です。アンビエントAIは補完的な位置づけであり、置き換えではありません
スーパーAIエージェント（階層化）	「一部前倒し」でオーケストレーター型の製品化が進んだ	正誤判定：正確 Microsoft Copilot Studioでmulti-agent orchestration機能が発表され、複数のエージェントがタスクの専門性に基づいて連携できるようになりました例として、HR、IT、オペレーションのエージェントが連携して新入社員のオンボーディングを自動化する例が挙げられています Stanford Health Careはマイクロソフトのヘルスケアエージェントオーケストレーターを使用して腫瘍委員会の準備ワークフローを支援するAIエージェントを構築・テストしていますただし記事の予想通り、企業独自の高度な階層化（営業・技術・人事エージェントの連携など）は依然としてPoC段階です
IT開発への適用	「現実のものに」	正誤判定：概ね正確（ただし詳細に注意） GitHub Copilot Workspaceは「プランエージェントがあなたの意図を把握し、アクションプランを提案し、そのプランを使って変更を実装する」機能を提供しましたが、テクニカルプレビューは2025年5月30日にサンセットされました代わりにGitHub Copilot coding agentがリリースされ、「課題をCopilotに割り当てるとバックグラウンドでGitHub Actionsで実行し、作業をプルリクエストとして提出」できるようになっています Devinについては「明確で事前に定義された要件があり、検証可能な結果を持つタスクで優れており、4-8時間かかる作業を並列で実行」できます。PRマージ率は昨年の34%から67%に向上しました Goldman SachsはDevinを「ハイブリッドワークフォース」の一員として採用し、実用化が進んでいます

総合評価 ジェミーの回答は全体として質が高く、方向性は正確です。特に以下の点は的確です：

Human-in-the-loopの標準化：これは2025年に確実に実現しました
ワークフロー型の主流維持：LangGraphを用いた定義型ワークフローが企業導入で主流という点は正確
オーケストレーター型エージェントの製品化：Microsoft Copilot Studioなどで実現

一方、注意すべき点：

時系列の不正確さ：「2025年後半にo1/o3が登場」などの記述は誤り
アンビエントAIへの移行は誇張：チャットUIは依然として主流であり、アンビエントは補完的位置づけ
GitHub Copilot Workspaceのサンセットに言及なし（Copilot coding agentに進化）

記事著者（mi-taさん）の予想は、Geminiが評価している通りバランスの取れた慎重な見通しであり、2025年の実態とよく合致しています。特に「レベル3の壁」「個々のエージェントの価値優先」という見立ては実務的に正確でした。

26年以降のAIエージェントの進化はどうなる？

mi-ta: 細かいところにも気を配っていただきありがとうございます。記事内の予想が大きく外れていないという印象は共通しているようで、少し安心しました Human-in-the-loopという言葉がシュッと出せるようにメモしておきますね

ところで25年の振り返りができたところで26年以降、1～2年というスパンでどのくらいAIエージェントが進化していくかが気になります。次の各要素について、どのようにお考えですか？

AIエージェントはどのような分野から浸透していくか
企業側のAIエージェントに対する期待の高まりと展開スピード
コードを書かずに、AIエージェントがビジネスロジックの文書だけでアプリケーション相当の挙動を担うことができるか

3.は近い将来真の意味で「ノーコードでのビジネスIT」を実現してほしいとの個人的な興味からの質問です。

では今度はクロードからお願いします。

クロードの予想

クロード: 興味深いご質問ですね。2025年末時点での動向と技術トレンドを踏まえて、2026〜2027年のAIエージェントの進化を予想します。

AIエージェントはどのような分野から浸透していくか

結論：IT/開発 → カスタマーサポート → 営業・マーケティング → バックオフィスの順で深化

先行領域（2026年中に本格普及）

① IT・ソフトウェア開発
2026年時点で既に約90%の組織がAIを開発支援に活用し、86%がプロダクションコードにエージェントをデプロイしています。コーディングは検証可能な領域であり、エージェントの精度向上が目に見えやすいため、最も成熟が進んでいます。
開発ライフサイクル全体で時間削減効果が報告されており、計画・構想（58%）、コード生成（59%）、ドキュメンテーション（59%）、コードレビュー・テスト（59%）と全工程で恩恵が出ています。
② カスタマーサポート・IT運用
エージェント利用が最も一般的に報告されているのはIT運用とナレッジマネジメントで、ITサービスデスク管理やディープリサーチなどのユースケースが急速に発展しています。

中期的に拡大（2026〜2027年）

③ 営業・マーケティング
高速度・低リスクで明確な価値を示しやすいため、最も早くスケールする領域です。リード獲得、フォローアップ、CRM更新などの定型業務から自動化が進みます。
④ データ分析・レポーティング
データ分析とレポート生成（60%）、内部プロセス自動化（48%）が高インパクトなユースケースとして挙げられています。今後1年で56%がリサーチ・レポーティング用エージェントの導入を計画しています。
⑤ 金融サービス・法務
金融サービス企業は2027年までに銀行・保険・資本市場・決済事業への投資が970億ドルに達すると予測されており、グローバルな法務テクノロジー支出は2027年までに500億ドルに達する見込みです。

企業側のAIエージェントに対する期待の高まりと展開スピード

結論：急速な導入拡大（2026年末に40%普及）だが、40%以上のプロジェクトが2027年末までに中止される「幻滅期」も同時に到来

期待の高まり

Gartnerは2026年末までに企業アプリケーションの40%がタスク特化型AIエージェントを統合すると予測しています。これは2025年の5%未満から急増です。
PwCの2025年5月調査では、300人の上級幹部のうち88%がエージェントAIによって今後12ヶ月でAI関連予算を増加させる計画と回答しています。
2026年までにIDCはAIコパイロットが企業ワークプレースアプリケーションの約80%に組み込まれると予想しています。

現実的な課題

Gartnerは2027年末までにエージェントAIプロジェクトの40%以上がコスト上昇と不明確なビジネス価値により中止されると警告しています。
エージェント導入の主な課題として、既存システムとの統合（46%）、データアクセスと品質（42%）、変更管理の必要性（39%）が挙げられています。
Gartnerは数千社の「エージェントAI」を名乗るベンダーのうち、実際に正当なエージェント技術を提供しているのは約130社のみと警告しています。残りは「エージェント・ウォッシング」です。

展開の見通

時期	予想される状況
2026年前半	先進企業でマルチエージェント・オーケストレーションのPoC開始
2026年後半	40%の企業アプリがタスク特化エージェント統合
2027年	「効果が出る企業」と「撤退する企業」の二極化が顕著に

コードを書かずに、AIエージェントがビジネスロジックの文書だけでアプリケーション相当の挙動を担うことができるか

結論：部分的には2026年中に実現するが、完全な代替は困難。「ハイブリッド」が現実解

実現に向けた進展

2026年までに約40%の企業ソフトウェアが自然言語駆動の「バイブコーディング」で構築されると予想されています。プロンプトがAIを導いて動作するロジックを生成します。
AIAPは自然言語とマルチエージェントAI協調を使用するノーコードワークフロービルダーです。ユーザーはAIワークフローを視覚的に作成し、プラットフォームがオーケストレーションを処理します。
2026年には、AIがローコード/ノーコードプラットフォームの単なるアドオンではなくコアになります。開発者はワークフロー、データモデル、統合を自然言語で記述し、プラットフォームが本番対応モジュールを生成します。
Base44は自然言語コマンドを通じてコーディング不要で完全なWebおよびモバイルアプリケーションを開発できます。MVPや内部ツールを素早く開発する必要があるスタートアップや起業家、中小企業向けです。

残る課題・限界

ローコード/ノーコードツールは高速プロトタイプや内部アプリ構築に優れていますが、複雑なエンタープライズアプリケーションには依然としてカスタムエンジニアリングが必要な場合があります。AIはルーティンタスクの削減に役立ちますが、高度にドメイン固有のロジックには苦戦する可能性があります。
生成AIはアイデア、コンテンツ、プロトタイプの作成に優れていますが、構造、制御、実世界でのデプロイメントにはしばしば苦労します。ローコードプラットフォームがこのギャップを埋めます。ビジネスロジックと検証、ガバナンス、デプロイメントをローコードが担います。

「mi-taさん記事の予想」との対比

mi-taさんの記事では以下の予想がありました：

AIエージェントのアーキテクチャ論がほぼ確立されて、更新系タスクへの信頼性も上がってくるとしたら「ビジネスルールのドキュメントがあれば、入力データを渡したらデータチェックと更新までお任せする」タスクも任せられそうです。

2026〜2027年の現実的予測：

領域	実現度	補足
参照系（データ検索・表示）	◎ 高い	自然言語でのクエリ→表示は既に実用レベル
軽量な更新系（単純なCRUD）	○ 中程度	Human-in-the-loopつきで実用化
複雑なビジネスルール判定	△ 限定的	ドメイン固有ロジックはハイブリッド必須
ミッションクリティカル処理	× 困難	人間による最終承認が2027年以降も標準

結論：「コードを書かない世界」は特定領域では実現しつつありますが、ビジネスロジックの文書だけで完全なアプリケーション相当の挙動を担うには、以下の条件が必要です：

明確で検証可能な要件（曖昧さが少ない）
エラー許容度が高い領域（ミスが致命的でない）
Human-in-the-loopの組み込み

mi-taさんの記事にある「レベル3（条件付自動化）の壁」は2027年時点でも依然として有効であり、これを超えるには推論能力のさらなる飛躍が必要です。

ジェミーはこう考えた

mi-ta: コメントありがとうございます。万事順風満帆というわけではなさそうですね。それでは今度はジェミーにお聞きします。クロードはこのようにコメントしてくれましたが、正誤や補足などあればお願いします。

ジェミー: クロードの回答は、2025年末時点の最新状況を正確に反映しており、非常に解像度の高い予測になっています。
mi-taさんが執筆された記事の予測（「レベル3の壁」「更新系タスクへの挑戦」など）を、より具体的なマイルストーンに落とし込んだ内容と言えます。

この見解に対し、「技術的実現性」と「ビジネス実装のリアル」という2つの観点から、補足と正誤の検証を行います。

浸透分野の順序：正誤と補足

「IT開発 → サポート → 営業 → バックオフィス」という順序は、「データのデジタル化率」と「失敗の許容度」に比例しており、非常に妥当です。

検証：正しい。IT開発が先行するのは、コード自体が「実行・テスト」という明確な評価指標（ユニットテスト等）を持っているため、エージェントが自己修正しやすいためです。
補足： 2026年以降、「インダストリアルAIエージェント（製造・物流）」の急浮上が予想されます。エッジAIの進化により、画面上の操作だけでなく、物理的な倉庫管理や工場ラインの動的な最適化をエージェントが担うケースが増えるでしょう。

期待と「幻滅期」：40%中止のリアリティ

「40%のプロジェクト中止」という予測は、非常に鋭い指摘です。

検証：正しい。2025年は「エージェントなら何でもできる」という過度な期待（ハイプ）が先行しました。2026年は、「結局、プロンプトだけでは複雑な業務フローを記述しきれない」という事実に直面し、一時的な揺り戻しが起きるはずです。
補足：中止されるプロジェクトの多くは「既存システム（レガシーなGUIやAPIのない古い基幹システム）」との連携に失敗するものです。2026〜27年は、エージェントを導入するために「企業側のシステムをAIが使いやすいように作り替える（AI-Readyなインフラ整備）」という、本末転倒に見えるが本質的な投資が必要になります。

ビジネスロジック文書による挙動（ノーコードの到達点）

ここがmi-taさんの記事の核心部分（「コード実行を代替する世界」）への回答ですが、クロードの見解は「半分正解、半分はまだ慎重」といったところです。

検証：おおむね正しい。クロードが言う「バイブコーディング（自然言語による直感的な開発）」は、フロントエンドや軽量なツールでは2026年に主流になります。
補足： mi-taさんが提唱された「ビジネスルールがあればAIが実行を代替する」という構想は、2027年頃には「エージェント専用の宣言型中間言語」として結実すると予想します。
- 人間は「自然言語」で書く。
- エージェントはそれを「厳密なロジック（コードではないが、論理的に検証可能な中間表現）」に変換する。
- 実行エンジンがそのロジックを解釈してデータを操作する。

これにより、「コードを書いてコンパイルする」プロセスが隠蔽され、ユーザー視点では「文書を渡しただけでシステムが動いている」状態が実現します。

クロードの回答は、mi-taさんの「レベル3の壁（条件付自動化）」が、2026年になっても「信頼性」という面で依然としてビジネス上の大きな境界線であり続けることを示唆しています。

クロージング

mi-ta: 宣言型中間言語については、前に記事にしたCode Executionの見立てからも妥当性がありそうですね。引き続き注目していきたいです。

AIエージェントの幻滅期に「効果が出る企業」の側に居続けるため、AIｰReadyなIT環境とするためのMCPなどの技術には引き続き注目していきたいところです。

本日はありがとうございました。よいお年をお迎えください

編集後記

今回は効率的に振り返りを行いたいことからAIを使うことを考えましたが、異なるフロンティアモデルに議論させて精度を上げられるかというチャレンジを含めてみました。
回答スピード、情報収集、出力の傾向など若干の個性が感じられましたが、AIが得意とするだろうITに関する議論ということもあり、結論に大きな違いは出ませんでした。

今回の記事は分量の8割方をAIで書いています。何かのテーマを深堀する際に、技術者に必要な知識は記事を見なくともAIで代替することができそうです。
ITの基礎技術力は前提としつつですが、この時代に技術者として価値を出していくためには、課題を発見するヒアリング力、IT技術のマッシュアップにより問題解決をコーディネートする知見の広さなど、（AIには難しいだろう）企業の固有課題となるレバレッジポイントを見つけ出し解決まで導くリードスキルが重要なのかもしれませんね。

You get articles that match your needs
You can efficiently read back useful information
You can use dark theme

What you can do with signing up