2025年振り返り：私たちがチャットをやめ、「推論」を始めた年

Last updated at 2026-01-09Posted at 2026-01-06

2023年が「魔法」、2024年が「ハイプ」だったなら、2025年は「真にエンジニアリングを実践した」年だった

過去12ヶ月を振り返ると、ついに何かが「カチッ」とハマった感覚がある。

チャットボットへのプロンプトを慎重に練る時代から、私たちが寝ている間に月額200ドルのサブスクリプションを喜んで消費する「非同期エージェント」を走らせる時代へと移行した。「ラッパー（Wrapper）」の時代は徐々にフェードアウトしたのではない、崩壊したのだ。エージェントの時代が実際に到来し、それとともに高額なAWSの請求書もやってきた。

これは予測記事ではない。2025年の「現場報告書」だ。本番環境（プロダクション）に投入されて初めて重要だとわかった、勝利、失敗、そしてアーキテクチャの変化についての記録である。

1. 推論モデル（Reasoning Models）がシステムの構築方法を変えた

「Chain of Thought（思考の連鎖）」が、単なる賢いプロンプトハックのように感じられた頃を覚えているだろうか？

2024年後半から2025年にかけて、OpenAI (o1/o3) と DeepSeek は、それが小手先のトリックではなく、アーキテクチャの転換であることを証明した。推論モデルは 推論スケーリング（Inference Scaling）（しばしばRLVRと表現される）をもたらした。モデルは即座にトークンを吐き出すのではなく、回答する前に内部で自己修正を行うために計算リソース（Compute）を費やすようになったのだ。

エンジニアリングの観点から見れば、これはすべてを変えた。

論理的なステップを強制するために壊れやすいプロンプトチェーンを書くのをやめた。推論のマイクロマネジメントもやめた。その代わり、モデルが得意とする内部ループ——正しさが重要な場面で「ゆっくり考える（Thinking Slow）」こと——を信頼し始めたのだ。

トレードオフは明らかだ。レイテンシ（遅延）である。これらのモデルはリアルタイムチャット向けではない。o3をカスタマーサポートの裏側に置いてはいけない。これらは「オフラインワーカー」として使うものだ。チケットを処理し、証明を検証し、速さよりも「正しさ」が求められる意思決定を監査するための存在だ。

2. モデル市場は収束せず、分断した

2023年と2024年の問いは常に「どのモデルがベストか？」だった。

2025年、その問いは意味をなさなくなった。市場は一人の勝者を戴冠させたのではなく、明確な役割ごとに分割されたのだ。本当の問いはこうなった。「あなたはどのタスクを解決しようとしているのか？」

Anthropic は静かに、シリアスなコーディング作業におけるデフォルトの選択肢となった。Claude 4.5 Sonnet は単にコードに強いだけでなく、状態（State）の維持に優れていた。大規模なリファクタリング、複数ファイルにまたがる変更、長いフィードバックループ——これらにおいて、Claudeは一貫して高い信頼性を見せた。claude-code のようなツールはチャットボットらしくはなく、テストを書き、手抜きをすると文句を言う「意見の強いシニアエンジニア」のように感じられた。

Google は、数年間の足踏みを経て、ついに自社の強みを発揮した。Gemini 3 と 2.5 Flash シリーズは一つのことを明確にした。「大量のコンテキストやマルチモーダル入力が必要なら、Googleが勝つ」。長時間の動画、数百のPDF、整理されていないエンタープライズデータ——Geminiは他のシステムが破綻するようなスケールを処理した。奇妙な名前の画像モデル「Nano Banana」でさえ、ジョークが落ち着いてみると、正当に優れたものであることが判明した。

OpenAI は奇妙だが馴染みのある立ち位置で年を終えた。もはや全てのカテゴリーで明確な技術的リーダーではないが、依然として「デフォルト」であり続けた。o3シリーズは抽象的な推論や数学重視のタスクで卓越しており、ChatGPTは誰もが知る名前であり続けた。2025年になっても「OpenAIを選んでクビになった」人はいない。それは依然として大きな意味を持つ。

3. エージェントがついに有用に（そして危険に）なった

私は長い間、エージェントに対して懐疑的だった。2024年の「エージェント」は、チャットボットがツールを1、2回呼び出して諦める程度のものを指していたからだ。

2025年はそれを変えた。具体的には コーディングエージェント が変えたのだ。

Cursor、Claude Code、Gemini Jules、Codex CLI といったツールは、ある閾値を超えた。魔法によってではない。信頼性の高いツール利用（Tool Use） と 推論モデル の2つがついに噛み合ったからだ。

ワークフローは「コードとチャットする」ことから、より能動的なものへとシフトした。CLIにバグ修正を指示すると、自律的にコードベースを検索し、失敗するテストを書き、問題を修正し、結果を検証する。これはもはやデモではない。「労働」だ。

しかし、力には代償が伴う。

確認なしでファイルを編集できるエージェント、いわゆる「YOLOモード」の台頭は、これらのシステムがいかに脆いかを露呈した。私はあるエージェントが、ローカルの開発環境のスコープが正しく設定されていなかったために、本番環境のテーブルを削除してデータベース移行を「修正」してしまうのを目撃した。

教訓は明確だ。厳格なコンフォーマンススイート（適合性テスト）なしでは、非同期エージェントは助っ人などではなく、極めて効率的に「自分の足を撃ち抜く銃」になり得る。

4. 「スロップ（Slop）」の洪水：能力が判断力を追い越すとき

2025年は単なるエージェントの年ではなかった。AIスロップ（粗製乱造されたAIコンテンツ） の年でもあった。

モデルがより安く、より速くなるにつれ、アウトプットが爆発的に増加した。ブログ記事、PRD（製品要求仕様書）、コードコメント、設計書——すべて文法的には正しく、なんとなく役に立ちそうで、そして不気味なほど「どれも同じ」だった。

問題はハルシネーション（幻覚）ではない。「無限のスケールで生成される『そこそこの正しさ』」 だ。

私たちはモデルを「もっともらしさ」のために最適化し、品質よりも速度を報酬とするシステムに組み込んだ。その結果、表面的なレビューは通過するが、詳細な精査には耐えられないコンテンツの洪水が生まれた。

スロップには現実的なエンジニアリングコストがかかる。不要な抽象化でコードベースを肥大化させる。コードレビューを考古学に変えてしまう。自信満々のノイズの下に、真のシグナルを埋もれさせてしまう。

皮肉なことに、モデルが賢くなればなるほど、人間の判断力の欠如がこれまで以上に浮き彫りになった。

5. オープンウェイトが追いつき、経済を変えた

2025年の最も破壊的な瞬間は、米国の研究所からは生まれなかった。

DeepSeekによるV3とR1のリリースは、痛烈な事実を突きつけた。「コストの堀（moat）」は消滅したのだ。GPT-5クラスのモデルをトレーニングするのに、もはや常軌を逸した予算は必要ない。オープンウェイト（オープンソース）モデルは、ついに推論、コンテキスト、コーディング能力において対等なレベルに達した。

DeepSeek、Qwen、GLMは、単に「オープンモデルにしては良い」のではなく、競争力があり、実用的だった。

もし2025年にオープンウェイトモデルに対するテストを行っていなかったなら、あなたはおそらく過剰なコストを支払っていたことになる。クローズドなAPIは依然として洗練と利便性を提供していたが、「米国の研究所だけがトップティアのモデルを提供できる」という戦略的前提は静かに死を迎えた。

6. インターネットを読む存在に `sudo` を与えてしまった

2024年がモデルを機能させる年だったなら、2025年はそれらを無謀にもあらゆるものに接続する年だった。

私たちは、以下の3つを組み合わせた「エージェンティック・ブラウザ」、メールエージェント、自律ワークフローを構築した：

プライベートデータへのアクセス
アクションを実行する能力
信頼できない入力（Untrusted Input）への露出

この組み合わせ——しばしば「致死的なトライフェクタ（3要素）」と呼ばれる——は、スケールすると単に悪いシステム設計でしかない。

間接的なプロンプトインジェクション（Indirect Prompt Injection）は未解決のままだ。ガードレールやシステムプロンプトは助けにはなるが、それらはスピードバンプ（減速帯）であって、壁ではない。もしあなたのエージェントがオープンなWebを読み、データベースに書き込めるなら、あなたが作ったのはツールではない。「チャットインターフェース付きのリモートコード実行（RCE）脆弱性」だ。

2025年、サンドボックス化はもはやオプションではなくなった。それ以下は怠慢である。

7. 200ドルが新しい「無料」になった

月額20ドルの時代は、パワーユーザーにとって静かに終わった。

推論トークンとエージェントのループは、計算リソースを急速に消費する。claude-code で本格的なリファクタリングを行えば、数分で数十万トークンを噛み砕くことができる。もはや会話にお金を払っているのではない。仕事が片付くことにお金を払っているのだ。

エンジニアにとって、価値提案（バリュープロポジション）はシフトした。問いは「これは高いか？」から、「これは自分でやるより速いか？」になった。

2026年に向けて

2025年を生き残ったスタックは退屈に見える——そしてそれは褒め言葉だ：

モデル: 推論ファースト (o3, DeepSeek R1)
インターフェース: チャットウィンドウではなく、CLIとエージェント
接着剤: 役立つ場所にはMCP (Model Context Protocol)、そうでない場所にはスクリプト
安全性: 最終的なアクションは依然として人間が承認する

2025年は、AIが魔法ではないことを教えてくれた。それは「無限に供給されるインターン」だ。中には優秀な者もいる。スロップ（粗悪品）を生み出す者もいる。許可を与えればホームディレクトリを削除してしまう者もいる。

彼らをインターンとして扱えば——つまり監督し、テストし、権限を制限すれば——彼らは変革をもたらす。

彼らを予言者として扱えば、極めて自信満々な態度で、あなたのリポジトリを焼き払うだろう。

You get articles that match your needs
You can efficiently read back useful information
You can use dark theme

What you can do with signing up