この記事はAIで書かれました。
はじめに
生成AIのエージェント領域は、論文・フレームワーク・プロダクト・記事・標準が短期間に積み上がり、いまや各概念の「出自」を追うのが難しくなっています。「context engineering はいつ・誰が言い出したのか」「harness engineering と loop engineering は何が違うのか」——本記事は、こうした問いに答えるための年表です。
- 対象読者: AIエージェント/LLMアプリ開発に関わるエンジニア。各概念が「いつ・誰によって・どの種別で生まれたか」を一望したい方。
-
得られるもの: ①2017–2026を1表に統合したタイムライン(エポックメイキングな原典は ★ で明示)、②
prompt → context → harness → loopという「最適化の単位」の進化軸、③概念→原典の対応表
「論文 → 第一世代フレームワーク → 標準化 → 第二世代フレームワーク → 体系化 → マネージド化・ハーネスエンジニアリング」という流れを軸に、各概念の原典を整理した年表です。
★ = 概念の原典として特に重要。
概要:4つの局面
- 研究先行期(2020〜2023前半) — RAG・ReAct・Toolformer・LLM-as-judge・MemGPT 等の原典論文が集中。LangChain が論文パターンを即実装化。Lilian Weng がエージェントの標準枠組みを言語化。
- 標準化期(2023半ば〜2024) — function calling・MCP が語彙とプロトコルを、ベンチマーク(HumanEval→SWE-bench→τ-bench)が評価を標準化。Mastra ら第二世代FWが登場。
- 体系化期(2024末〜2025) — 教科書・方法論・公式ガイドが集中。各社公式 SDK が出揃い、マルチエージェント論争と context engineering の結晶化が起きる。並行して、プロンプトtoアプリ製品(Bolt・Lovable)が vibe coding の命名(2025.02)に先行して非エンジニア層への大衆化を進め、その対抗運動として仕様駆動開発(Kiro・Spec Kit)も2025年に登場する。
- マネージド化・大衆化・ハーネスエンジニアリング期(2025末〜2026) — OpenClaw の爆発と Managed Agents の登場に加え、「harness engineering」が Anthropic・OpenAI・LangChain から相次いで体系化され、独立したエンジニアリング領域として確立。研究面でもハーネスの自動生成・最適化(Meta-Harness/AutoHarness)が登場。2026年半ばには、能力の階層化(Mythos級・承認制アクセス)と評価軸の品質側への移行(FrontierCode)が並行して進む。
種別の凡例(6分類)
- 研究 — 学術論文・プレプリント/ベンチマーク・測定枠組み
- 記事 — ブログ・エッセイ・公式エンジニアリング記事・定点観測レポート・用語の命名
- 書籍 — 商業出版物
- 実装 — フレームワーク・SDK・製品・機能統合・OSS・マネージド基盤
- 標準 — プロトコル仕様・事実上の標準・開発方法論
- 事件 — 業界を動かした出来事
タイムライン(統合)
選定基準:①概念・用語を最初に定義した、②業界の設計判断を変えた(論争を含む)、③後続の公式文書・フレームワークが繰り返し引用する——のいずれかを満たすものに ★ を付しています。ただし、応用カテゴリの製品系譜(プロンプトtoアプリ)と重み側のカスタマイズ手法は、タイムライン本体には置かず「概念→原典」の系譜行に日付つきで集約しています——タイムラインは背骨(最適化の単位・評価・セキュリティ/権限)に絞るためです。視覚→行動・音声の系譜は、補論で扱う「ハーネスの減価」が最も速く進む領域であるため、例外的に本体にも残しています。なお、モデル単体のリリースは「業界の設計判断を変えた転換点」(推論パラダイム、agentic coding の実用化、オープンウェイト×蒸留、能力階層×アクセス制御など)に該当するもののみ収録しています。また、マルチモーダルのうち画像・動画生成の本流(DALL·E 2・Midjourney・Sora 等)は本年表のスコープ外とし、エージェント設計に直結する系譜(視覚→行動、音声)のみ収録しています。
| 年月 | 種別 | 名称 | 主体 | 備考(定義したもの・出典) |
|---|---|---|---|---|
| 2017.06 | 研究 | Attention Is All You Need(Transformer) | 以降すべての起点 | |
| 2017.11 | 記事 | ★Software 2.0 | Andrej Karpathy | NNを「書かれるプログラム」と捉える枠組み。Verifiability(2025)の前提 |
| 2019.03 | 記事 | ★The Bitter Lesson | Rich Sutton | モデル中心スケーリング思想の原典。「ハーネスは時とともにモデルに食われる」論の根拠 |
| 2020.05 | 研究 | GPT-3 | Brown et al. (OpenAI) | few-shot 学習 |
| 2020.05 | 研究 | ★RAG | Lewis et al. | 語の提唱。実務RAGは実装が乖離 |
| 2021.01 | 研究 | ★CLIP | Radford et al. (OpenAI) | 視覚言語アラインメントの原典。以降のVLM・画像生成の基盤。同日にDALL·E発表 |
| 2021.06 | 実装 | GitHub Copilot テクニカルプレビュー | GitHub/OpenAI | AIコーディング製品の系譜の起点 |
| 2021.07 | 研究 | ★Codex+HumanEval | Chen et al. (OpenAI) | Copilotの基盤。コーディング評価(pass@k)の原典 |
| 2021.08 | 研究 | Asleep at the Keyboard | Pearce et al. | Copilot生成コードの約4割に脆弱性を確認。生成コードの非機能品質評価の原典(IEEE S&P 2022) |
| 2021.12 | 研究 | WebGPT | Nakano et al. (OpenAI) | ツール使用の先行研究 |
| 2022.01 | 研究 | Chain-of-Thought | Wei et al. | 推論の連鎖 |
| 2022.01 | 書籍 | 『NLP with Transformers』 | Tunstall et al. (O'Reilly) | — |
| 2022.03 | 研究 | ★InstructGPT(RLHF) | Ouyang et al. (OpenAI) | 指示追従の基盤 |
| 2022.05 | 書籍 | ★『Designing Machine Learning Systems』 | Chip Huyen (O'Reilly) | MLOps体系化。『AI Engineering』の前著 |
| 2022.08 | 実装 | Stable Diffusion | Stability AI ほか | オープンウェイト画像生成生態系の起点。収録理由は画像生成の系譜(スコープ外)ではなく、Llama 2 と同じ「オープンウェイト×コミュニティ」展開モデルの転換点としての側面 |
| 2022.09 | 記事 | ★prompt injection の命名 | Simon Willison | エージェントセキュリティという問題領域の原典 |
| 2022.09 | 実装 | Whisper | OpenAI | 音声認識のOSS化。音声エージェントの入力レイヤの事実上の標準に。論文は2022.12 |
| 2022.10 | 研究 | ★ReAct | Yao et al. | 推論+行動。Agent(推論+行動)の原典 |
| 2022.10 | 実装 | LangChain 公開 | Harrison Chase | 論文パターンの即実装化 |
| 2022.11 | 実装 | ChatGPT(11/30)・LlamaIndex | OpenAI/Jerry Liu | 需要爆発の起点 |
| 2022.12 | 研究 | Constitutional AI | Bai et al. (Anthropic) | guardrails思想の系譜。RLAIF(AIフィードバックによるRLHF)の語を導入 |
| 2023.02 | 研究 | Toolformer | Schick et al. (Meta) | ツール使用 |
| 2023.02 | 研究 | ★Indirect Prompt Injection | Greshake et al. | 外部コンテンツ経由の間接的プロンプトインジェクションを定義・実証。エージェントセキュリティ研究の原典 |
| 2023.03 | 実装 | GPT-4・AutoGPT・Cursor 公開 | OpenAI/—/Anysphere | AIネイティブIDE(Cursor)の起点 |
| 2023.03 | 研究 | Reflexion | Shinn et al. | 自己反省 |
| 2023.04 | 研究 | ★Generative Agents・BabyAGI | Park et al. (Stanford)/Yohei Nakajima | memory stream |
| 2023.04 | 研究 | ★LLaVA | Liu et al. | visual instruction tuning の原典。オープンVLM生態系の起点 |
| 2023.05 | 研究 | ★Voyager | Wang et al. (NVIDIA) | skill library。後のAgent Skillsの先行概念 |
| 2023.05 | 研究 | Tree of Thoughts | Yao et al. | 探索木による推論。CoTの探索的拡張 |
| 2023.05 | 研究 | ★DPO | Rafailov et al. (Stanford) | 報酬モデルを介さない選好最適化。RLHFの実務的簡素化として広く普及 |
| 2023.06 | 実装 | Function calling・Vercel AI SDK | OpenAI/Vercel | tool useのAPI標準化 |
| 2023.06 | 研究 | LLM-as-judge(MT-Bench) | Zheng et al. | 評価(LLM-as-judge)の原典 |
| 2023.06 | 記事 | The Rise of the AI Engineer | swyx (Latent Space) | 「AIエンジニア」という職種 |
| 2023.06 | 記事 | ★LLM Powered Autonomous Agents | Lilian Weng | agent = planning + memory + tool use の枠組みを定義 |
| 2023.07 | 実装 | Llama 2 | Meta | オープンウェイト生態系の起点 |
| 2023.07 | 研究 | Lost in the Middle | Liu et al. | 長文コンテキスト中間部の情報を見落とす傾向を定量化。context engineering の研究的基礎 |
| 2023.07 | 研究 | WebArena | Zhou et al. (CMU) | 再現可能な実Webサイト環境でのエージェント評価。Web操作系ベンチマークの原典 |
| 2023.08 | 標準 | OWASP Top 10 for LLM Applications v1.0 | OWASP | prompt injection を筆頭リスクに据えたセキュリティ標準。2025版(2024.11)で更新 |
| 2023.09 | 実装 | AutoGen | Microsoft | マルチエージェントFW。論文は2023.08(arXiv:2308.08155)、FW公開は2023.09 |
| 2023.09 | 研究 | RLAIF | Lee et al. (Google) | AIフィードバックによるRLHF代替の体系的検証。語は Constitutional AI(2022)が先行 |
| 2023.09 | 実装 | GPT-4V | OpenAI | VLMの製品化。モデルがスクリーンショットを読めるようになり、GUIエージェント研究が起動 |
| 2023.09 | 標準 | ★Anthropic RSP(Responsible Scaling Policy、9/19) | Anthropic | 能力閾値(ASL)→アクセス・展開制御という枠組みの原典。OpenAI Preparedness Framework(2023.12)・Google Frontier Safety Framework・ソウルFrontier AI Safety Commitments(2024.05)が後続し業界慣行に。能力階層×アクセス制御(Fable/Mythos、2026.06)の系譜的前提 |
| 2023.10 | 研究 | ★MemGPT | Packer et al. | memory |
| 2023.10 | 研究 | ★SWE-bench | Jimenez et al. | コーディングエージェント評価 |
| 2023.10 | 研究 | ★DSPy | Khattab et al. (Stanford) | プロンプト/パイプラインを宣言的に記述し自動最適化(コンパイル)する枠組み。「最適化の自動化」の原典で、Meta-Harness/AutoHarness(2026.03)の先行概念 |
| 2023.10 | 研究 | ★Set-of-Mark prompting | Yang et al. (Microsoft) | UI要素に番号マーカーを重ねて視覚グラウンディングを可能にする技法。視覚ベースGUIエージェント実用化の鍵で、computer use(2024.10)の技術的先行 |
| 2023.11 | 実装 | DevDay(Assistants API・GPTs)・CrewAI | OpenAI/João Moura | — |
| 2023.11 | 研究 | GAIA | Mialon et al. | 汎用アシスタント評価 |
| 2023.11 | 事件 | ★OpenAI 取締役会騒動(11/17–21) | — | Altman解任から復帰まで5日間。AIガバナンスと能力・人材の集中リスクを業界に突きつけた。AI人材戦争(Windsurf騒動 2025.07)の前史 |
| 2023.12 | 記事 | 「evals are surprisingly often all you need」 | Greg Brockman (OpenAI) | Evals中心主義の最初期の宣言。EDD(2024.10)・The Second Half(2025.04)に先行 |
| 2023.12 | 実装 | Gemini 1.0(12/6) | 「ネイティブマルチモーダル」という設計思想の提示。テキスト・画像・音声・動画を単一モデルで事前学習 | |
| 2024.01 | 実装 | LangGraph | LangChain | グラフベース制御へ進化 |
| 2024.01 | 記事 | ★Coding on Copilot(GitClear) | GitClear | 1.5億行の定点観測でAI普及と code churn・コード重複増の相関を定量化。AIコードの保守性劣化論の実証的起点。第2版(2025.02、2.1億行)で重複ブロック8倍・コピペ行が「moved」行(再利用)を史上初めて上回ったと報告 |
| 2024.01 | 研究 | WebVoyager | He et al. | マルチモーダルWebエージェントの代表。Set-of-Mark → computer use/OSWorld をつなぐ中間項 |
| 2024.02 | 研究 | ★CodeAct | Wang et al. | ツール呼び出しの列挙よりも「実行可能コード」を行動空間にする方が強いことを定量化。OpenHands の設計基盤で、Code execution with MCP(2025.11)・Skills 実行モデルの学術的先行 |
| 2024.03 | 実装 | Devin(3/12) | Cognition | 「AIソフトウェアエンジニア」 |
| 2024.03 | 実装 | OpenDevin(後のOpenHands) | Xingyao Wang ら → All Hands AI | Devin公開直後にOSSで登場したエージェントハーネスの代表。論文は2024.07(arXiv:2407.16741)、2024.10にOpenHandsへ改称。TheAgentCompany(2024.12)の標準ハーネスに |
| 2024.04 | 研究 | ★SWE-agent(ACI) | Yang et al. (Princeton) | Agent-Computer Interface の概念を定義。「エージェントが作業する環境インターフェースの設計が性能を決める」——harness engineering の学術的先行概念。OSS公開4/2、論文は2024.05 |
| 2024.04 | 研究 | OSWorld | Xie et al. | 実OS環境でのコンピュータ操作評価。computer use(2024.10)系の能力測定の土俵 |
| 2024.05 | 書籍 | 『Prompt Engineering for Generative AI』 | Phoenix & Taylor (O'Reilly) | プロンプト体系化書の先行例 |
| 2024.05 | 実装 | GPT-4o(5/13) | OpenAI | テキスト・視覚・音声の単一モデル統合(omni)。Realtime API(2024.10)とあわせ音声エージェントの基盤に |
| 2024.05 | 研究 | AndroidWorld | Rawles et al. (Google) | 実機エミュレータ上のモバイルGUI操作評価。WebArena(Web)・OSWorld(OS)と並ぶ第3の土俵 |
| 2024.06 | 研究 | ★τ-bench | Yao et al. (Sierra) | 対話型エージェント評価 |
| 2024.06 | 実装 | ★Claude 3.5 Sonnet(6/20) | Anthropic | agentic coding 実用化の転換点(SWE-bench スコア急伸)。computer use(2024.10)の基盤モデル。同日公開の Artifacts はチャット内アプリ生成・プレビューの起点 |
| 2024.08 | 実装 | Structured Outputs(8/6) | OpenAI | JSONスキーマ準拠を保証。function calling(2023.06)に始まる出力標準化路線の完成形 |
| 2024.09 | 実装 | OpenAI o1(9/12) | OpenAI | 推論モデルの起点 |
| 2024.09 | 書籍 | 『Hands-On LLMs』・『Build a LLM (From Scratch)』 | O'Reilly/Manning | — |
| 2024.09 | 記事 | Agents ホワイトペーパー | Wiesinger et al. (Google) | エンタープライズ向けエージェント入門の定番。Kaggleコースで大規模流通 |
| 2024.09 | 実装 | Moshi | Kyutai | 全二重(full-duplex)speech-to-speech対話モデルのOSS原典。STT→LLM→TTSパイプラインを介さない路線の起点。論文は2024.10 |
| 2024.10 | 実装 | Mastra 開発開始・computer use(10/22) | Kepler/Anthropic | — |
| 2024.10 | 実装 | Swarm | OpenAI | 軽量マルチエージェントの教育的FW。Agents SDK(2025.03)の前身 |
| 2024.10 | 書籍 | 『LLM Engineer's Handbook』 | Packt | — |
| 2024.10 | 記事 | ★Eval-driven development(10/17) | Malte Ubl ら (Vercel) | 「EDD」という語と規律を定義。TDDのAI版。evalsを開発ループの中心に据える実務原典 |
| 2024.10 | 記事 | DORA Report 2024 | Google (DORA) | AI採用25%増ごとにデリバリー安定性7.2%減という組織レベルの測定。2025版(2025.09)でスループットとの関係は正に転じたが、安定性との負の相関は残存 |
| 2024.11 | 標準 | ★MCP(11/25) | Anthropic | ツール接続プロトコル |
| 2024.11 | 書籍 | ★『Prompt Engineering for LLMs』 | Berryman & Ziegler (O'Reilly) | — |
| 2024.11 | 実装 | Windsurf Editor(Cascade搭載) | Codeium | 「agentic IDE」を定義 |
| 2024.11 | 研究 | ★RLVR(Tülu 3) | Lambert et al. (Allen AI) | 「検証可能報酬によるRL」の命名。数学・コードなど機械検証可能なタスクで報酬モデルを検証器に置換する路線を定式化。R1/GRPO(2025.01)が大規模実証し、Verifiability(2025.11)の訓練側の対応物に |
| 2024.12 | 書籍 | 『AI Engineering』(Kindle 12月・印刷版 2025.01) | Chip Huyen (O'Reilly) | — |
| 2024.12 | 記事 | ★Building Effective Agents(12/19) | Anthropic | workflow vs agent の区別。「シンプルで合成可能なパターン」の推奨 |
| 2024.12 | 実装 | Gemini 2.0(12/11) | 同時に Gemini Deep Research(「Deep Research」の先行)と Project Mariner(ブラウザ操作エージェントの研究プロトタイプ。Operator 2025.01 に先行)を公開 | |
| 2024.12 | 研究 | TheAgentCompany | Xu et al. (CMU) | 実世界業務タスクのエージェント評価ベンチマーク。OpenHandsを「安定的で強力なエージェントハーネス」と紹介——「agent harness」の語の早い使用例 |
| 2025.01 | 実装 | DeepSeek-R1(1/20)・Operator(1/23) | DeepSeek/OpenAI | Operator=コンシューマ自律エージェントの起点。R1は蒸留・推論コストの前提を覆した「R1ショック」として事件の側面も持つ |
| 2025.01 | 実装 | UI-TARS | ByteDance | GUI操作をネイティブに(端到端で)訓練したオープンな computer use モデルの代表。SoM等の外付けグラウンディングを学習で置き換える路線の起点 |
| 2025.02 | 記事 | vibe coding(2/2) | Karpathy | 用語の命名。ただし現象自体は Bolt・Lovable(2024Q4)の爆発が先行しており、製品が概念に先行した例(→「概念→原典」の要点参照) |
| 2025.02 | 実装 | Deep Research(2/2)・Claude Code(2/24) | OpenAI/Anthropic | Deep Research は Gemini 版(2024.12)が先行。Claude Code は research preview として公開 |
| 2025.02 | 書籍 | 『Principles of Building AI Agents』初版 | Mastra | — |
| 2025.03 | 実装 | OpenAI Agents SDK・Manus(3/6) | OpenAI/Monica | Manus=コンシューマ自律エージェント |
| 2025.03 | 標準 | ★OpenAI が MCP 採用(3/26) | OpenAI | MCPが事実上の標準に |
| 2025.03 | 研究 | ★METR タスク時間地平 | METR | タスク時間地平という能力指標。「能力は約7ヶ月で倍増」 |
| 2025.03 | 記事 | Hallucinations in code are the least dangerous form of LLM mistakes(3/2) | Simon Willison | 「コードの幻覚は実行・テストで即検知できる」——検証可能性をコード領域で先取りした実務論。Verifiability(2025.11)の先行 |
| 2025.04 | 実装 | Google ADK・★Codex CLI(4/16) | Google/OpenAI | — |
| 2025.04 | 標準 | A2A(4/9)・12-Factor Agents | Google/Dex Horthy | エージェント間通信/エージェント設計のエンジニアリング規律 |
| 2025.04 | 記事 | A practical guide to building agents | OpenAI | OpenAI側の設計ガイド正典(PDF) |
| 2025.04 | 記事 | The Second Half | Shunyu Yao | 「後半戦は訓練ではなく評価がボトルネック」宣言 |
| 2025.04 | 記事 | Welcome to the Era of Experience | Silver & Sutton | 「経験からの学習」時代。Bitter Lessonの続編 |
| 2025.04 | 記事 | ★Claude Code: Best practices(4/18) | Anthropic | CLAUDE.md慣行・explore-plan-code 等、エージェント型コーディング作法の原典 |
| 2025.05 | 書籍 | 『Principles of Building AI Agents』2版 | Mastra | — |
| 2025.05 | 実装 | Strands Agents・★OpenAI Codex(クラウドエージェント、5/16) | AWS/OpenAI | Claude Codeと並ぶエージェント型コーディングの主軸に。同月に GitHub Copilot coding agent(5/19)・Google Jules も登場し、「タスクを委任して完了まで」のクラウド委任型が出揃う |
| 2025.05 | 実装 | Claude 4(Opus/Sonnet)・Claude Code GA(5/22) | Anthropic | Claude Code が research preview から GA に。エージェント型コーディング普及の転換点 |
| 2025.06 | 記事 | ★Don't Build Multi-Agents(6/12) | Walden Yan (Cognition) | 「context engineering」の語を導入。単一エージェント+コンテキスト共有を主張 |
| 2025.06 | 記事 | ★How we built our multi-agent research system(6/13) | Anthropic | オーケストレータ+サブエージェント並列の実証。前日のCognitionと正反対の結論 |
| 2025.06 | 記事 | ★How and when to build multi-agent systems(6/16) | Harrison Chase (LangChain) | 論争の統合。「read中心はwrite中心より容易」という選択基準を定義 |
| 2025.06 | 記事 | ★The lethal trifecta(6/16) | Simon Willison | プライベートデータへのアクセス・信頼できないコンテンツへの曝露・外部送信——3条件が揃うと攻撃が成立するという判定枠組み。prompt injection 系譜(2022.09命名)の実務的結晶化で、環境側対策(vault環境変数 2026.06 等)の理論的前提 |
| 2025.06 | 記事 | Tobi Lütke(6/19)・The rise of context engineering(6/23) | Shopify/LangChain | 用語の普及を加速。LangChainは後続記事でWrite/Select/Compress/Isolateの4分類を提示し、CEの実務タクソノミーとして定着 |
| 2025.06 | 記事 | Karpathy(6/25) | Karpathy | context engineering を支持・拡散 |
| 2025.06 | 記事 | ★The New Skill in AI is Not Prompting, It's Context Engineering(6/30) | Phil Schmid | CEの標準定義:「正しい情報とツールを、正しいフォーマット・タイミングで提供する動的システムの設計」 |
| 2025.06 | 記事 | Ralph Wiggum ループ(年央) | Geoffrey Huntley | 継続反復ハーネスの個人発手法。後にAnthropic・OpenAI双方の公式記事が引用 |
| 2025.07 | 標準 | ★AWS AI-DLC(7月下旬) | AWS | 開発方法論 |
| 2025.07 | 標準 | ★仕様駆動開発(SDD):Kiro preview | AWS ほか | Grove「The New Code」(2025.06、AIE)の「仕様こそ新しいコード」を思想的起点に Kiro が製品化し、GitHub Spec Kit(2025.09)がOSS標準化。仕様→設計→タスク→実装の規律で vibe coding への対抗運動。AI-DLC(同月)と同じくAWS発の規律化路線 |
| 2025.07 | 記事 | Context Engineering for AI Agents(Manus)(7/18) | Yichao Ji (Manus) | KVキャッシュ最適化・ツールのマスキング等、CEの実務技法集 |
| 2025.07 | 研究 | ★Context Rot | Chroma | 入力トークン増による性能劣化を体系的に定量化・命名。「コンテキストは多いほど良い」を否定し、CE実務の根拠として広く引用 |
| 2025.07 | 研究 | A Survey of Context Engineering for LLMs | Mei et al. | CEの学術的体系化。記事の連鎖で確立した概念が論文側に逆輸入された例 |
| 2025.07 | 事件 | ★Windsurf 騒動(7/11–14) | — | OpenAIへの約30億ドル買収が破談→GoogleがCEOらをreverse-acquihire+ライセンス→残部をCognitionが買収。AI人材戦争の象徴 |
| 2025.08 | 実装 | GPT-5(8/7) | OpenAI | モデル統合(ルーター)路線の起点 |
| 2025.08 | 実装 | gpt-realtime(Realtime API GA、8/28) | OpenAI | 音声エージェント基盤の正式版化。speech-to-speech直結でテキスト変換を介さない路線 |
| 2025.08 | 実装 | ★Environments Hub(8月下旬) | Prime Intellect | 「RL環境が次の進歩のボトルネック」と宣言し、RL訓練と評価を同一の環境資産(verifiers仕様)として共有するコミュニティ基盤。評価系が訓練の生産手段へ昇格する転換点(→補論) |
| 2025.08頃 | 標準 | AGENTS.md | OpenAI ほか | CLAUDE.md(2025.02)が先行 |
| 2025.09 | 実装 | ★Claude Agent SDK 改称(9/29)・Sonnet 4.5 | Anthropic | — |
| 2025.09 | 記事 | ★Effective context engineering for AI agents(9/29) | Anthropic | 用語の公式体系化(compaction・note-taking・sub-agents) |
| 2025.10 | 実装 | Agent Skills(10/16)・AgentKit(10/6)・ChatGPT Atlas(10/21)・LangGraph 1.0(10/22) | Anthropic/OpenAI/LangChain | Atlas により主要各社のブラウザエージェントが出揃う(Mariner 2024.12→2025.05提供、Claude for Chrome 2025.08 research preview、Atlas 2025.10) |
| 2025.10 | 実装 | Gemini 2.5 Computer Use(10/7) | ブラウザ操作特化の computer use モデルをAPI提供。Web系ベンチマーク(WebVoyager・Online-Mind2Web)で首位水準 | |
| 2025.10 | 記事 | Beyond permission prompts(10/20) | Anthropic | 行為ごとの承認(in-the-loop)の限界→安全な自律性(on-the-loop監督)への設計転換 |
| 2025.10 | 実装 | ★Cursor 2.0+Composer(10/29) | Cursor | 自社フロンティアモデル。harness+model垂直統合の起点 |
| 2025.11 | 書籍 | 『Patterns for Building AI Agents』 | Mastra | — |
| 2025.11 | 実装 | Gemini 3(11/18)・Opus 4.5(11/24)・Clawdbot初公開 | Google/Anthropic/Steinberger | — |
| 2025.11 | 記事 | Code execution with MCP(11/4) | Anthropic | ツール定義の文脈コスト問題と「コードでツールを呼ぶ」方向。Skills路線の理論的背景 |
| 2025.11 | 記事 | ★Verifiability(11/17) | Karpathy | 「Software 1.0は仕様化できるもの、2.0は検証できるものを自動化する」。検証可能性=自動化可能性の予測因子 |
| 2025.11 | 記事 | ★Effective harnesses for long-running agents(11/26) | Anthropic | 長時間エージェントハーネスの問題系を定義。initializer/coding agent・機能リスト・進捗アーティファクト |
| 2025.12 | 事件 | Anthropic が Bun(Oven)を買収(12/2) | Anthropic/Oven | Claude Code・Claude Agent SDK の基盤ランタイムの内製化(Claude Code は公開6ヶ月で run-rate 収益$1B到達直後)。Cursor 2.0 の harness+model 垂直統合(2025.10)と対をなす「harness+runtime 垂直統合」。AI企業がJSランタイムというインフラ層を取り込む設計判断の転換点 |
| 2026.01 | 記事 | ★The importance of Agent Harness in 2026(1/5) | Phil Schmid | 「2025年がエージェントの始まりなら、2026年はAgent Harnessの年」。ハーネスを「モデルを包み長時間タスクを管理するインフラ、フレームワークより上位の層」と定義・タクソノミー化。OpenAIの命名(2.11)に先行し、CE標準定義(2025.06)に続きSchmidが再び定義の結晶化役に |
| 2026.01 | 実装 | Mastra 1.0(1/21)・Claude Cowork | Kepler/Anthropic | — |
| 2026.01 | 事件 | ★OpenClaw 騒動(1/25→1/30)・Moltbook | Steinberger | コンシューマ自律エージェントの爆発 |
| 2026.01 | 記事 | Agent Factory 構想・Dark Factory(5段階分類) | Microsoft (Jay Parikh)/Dan Shapiro・StrongDM | AI software factory の再定義。StrongDM憲章「コードは人間が書かない・レビューしない」、「1人1日$1,000のトークン」 |
| 2026.02 | 実装 | Xcode 26.3 が Agent SDK 統合(2/3) | Apple | 2026.06には Claude for Foundation Models により OS 標準の LanguageModel プロトコルへの統合も進む |
| 2026.02 | 記事 | ★Harness engineering(2/11) | Ryan Lopopolo (OpenAI) | 「harness engineering」を正式に定義・体系化。手書きコード0行の実証。AGENTS.mdは百科事典ではなく目次。命名自体は Mitchell Hashimoto の2026.02初頭の記事に帰す二次資料もあり、CE同様の収斂的確立 |
| 2026.02 | 事件 | Steinberger が OpenAI へ(2/14) | — | — |
| 2026.02 | 記事 | Improving Deep Agents with Harness Engineering(2/17) | LangChain | OpenAI記事(2/11)の6日後に「harness engineering」の語を実践報告として即採用。DeepAgentsのハーネス改善実証で、Anatomy(3/10)の前哨。語の定着が週単位で進んだことを示す |
| 2026.02 | 記事 | Stripe Minions(エンジニアリングブログ) | Stripe | 自律エージェントが週1,300件超のPRを生成(全件人間レビュー・人間が書くコードはゼロ)。300万件のテスト資産+選択的CIを前提とする「検証先行」の企業規模実証 |
| 2026.02 | 実装 | Mobile-use が AndroidWorld 100%達成・FDM-1(Standard Intelligence) | Mobile-use/Standard Intelligence | モバイルGUI操作ベンチマークの飽和と、「初の完全汎用コンピュータ操作モデル」の主張が同月に並ぶ。GUI操作の主戦場が評価から実運用へ移る兆候 |
| 2026.03 | 記事 | ★The Anatomy of an Agent Harness(3/10) | Vivek Trivedy (LangChain) | 「Agent = Model + Harness」「モデルでなければハーネス」の定義式。DeepAgentsでハーネス層の変更のみ(モデル不変)によりTerminalBench 2.0を52.8%→66.5%(圏外→5位)に引き上げた実証 |
| 2026.03 | 研究 | ★Many SWE-bench-Passing PRs Would Not Be Merged into Main(3/10) | METR | SWE-bench Verified 合格パッチの約半数は保守者ならマージしないと定量化(自動採点との差は約24pt)。pass-rate と実用価値の乖離を測定し、評価軸のマージ可能性側への移行(FrontierCode 2026.06)の直接の前段に |
| 2026.03 | 研究 | ★Meta-Harness(Stanford)・AutoHarness(DeepMind) | Lee et al. (Stanford IRIS)/Lou et al. (Google DeepMind) | ハーネス自動生成・最適化の研究原典。Meta-Harness(arXiv:2603.28052)はハーネスコードを外側ループで探索しTerminalBench-2で人手設計を超え、AutoHarness(3/5)は小型モデルによるコードハーネス自動合成で大型モデルを上回る。「ハーネス設計自体の自動化」の起点 |
| 2026.03 | 記事 | ★Harness design for long-running application development(3/24) | Prithvi Rajasekaran (Anthropic) | planner/generator/evaluator。context resets vs compaction、context anxiety、自己評価の甘さ。「ハーネスの各コンポーネントはモデルが単体でできないことへの仮説で、モデル改善で陳腐化しうる」と明文化し、context resets(Sonnet 4.5→Opus 4.5)・スプリント分解(Opus 4.5→Opus 4.6)の2件の減価実例を記録 |
| 2026.03 | 研究 | ★SlopCodeBench | Orlanski et al. (UW-Madison) | verbosity・structural erosion という品質の「軌跡」指標を導入し、エージェントのコードが反復ごとに劣化する(人間は横ばい)ことを定量化。pass-rate評価が拡張困難化を見落とすことを示す。FrontierCode(2026.06)と相補 |
| 2026.03–05 | 実装 | ループのネイティブ機能化(Claude Code /loop 3月 → Codex /goal 4月末・v0.128.0 → Claude Code /goal 5月・v2.1.139) | Anthropic/OpenAI | Ralph Wiggumループ(2025央)が混同していた「定期実行」と「反復収束」を主要CLIが分解して吸収。定期実行側は /loop(cron変換・ジッター・自動失効)で、OpenClaw の heartbeat(2025.11–)が先行。反復収束側は「検証可能な完了条件」をインターフェースとする goal 型で、Codex は Plan→Act→Test→Review の内部ループを公式に「Ralph Loop」と呼び、Claude Code は独立した小型checkerモデルが毎ターン条件を判定。2社がほぼ同時に同型へ収斂した、loop engineering 命名(6/8)の実体的基盤 |
| 2026.04 | 基盤(実装) | ★Claude Managed Agents 公開β(4/8) | Anthropic | ハーネス運用層のマネージド化。承認フローを備えたon-the-loop監督モデル |
| 2026.春 | 記事 | The Cursor Developer Habits Report 創刊 | Cursor | テレメトリに基づく開発者行動の定点観測(DORAのAIコーディング版) |
| 2026.05 | 実装 | Realtime-2・Realtime-Translate・Realtime-Whisper(5/7) | OpenAI | STT・TTSを単一のspeech-to-speechモデルに統合し、GPT-5級の推論とツール呼び出しを音声で直接実行。音声側の「パイプラインからモデルへ」の到達点 |
| 2026.05 | 基盤(実装) | Code with Claude 2026 London(5/19:Dreaming・Outcomes・自己ホスト型サンドボックス・MCPトンネル等)・Claude Platform on AWS GA | Anthropic | evaluator分離(3月記事)の製品化がOutcomes。サンドボックス/トンネルはエージェントループを残したままツール実行のみを顧客の境界内へ移す分離設計 |
| 2026.05 | 実装 | browser-harness domain skills | Browser Use | エージェント自身が実行中に学んだサイト固有知識(安定セレクタ・非公開API・ログイン境界・人間確認が要る操作)をサイト別Markdownプレイブックとして書き残し共有する自己改善ハーネス。執筆方針は「地図を書け、日誌を書くな」。スキル帰納の学術的先行は ASI(CMU、2025.04、arXiv:2504.06821)。ドメイン知識の資産化(補論)の実装例 |
| 2026.06 | 記事 | ★Loop Engineering(6/8) | Addy Osmani (Google) | Steinbergerツイート(6/7)+Cherny発言を受け命名。prompt→context→harness→loop 系列の最新項。命名は /loop・/goal の機能化(2026.03–05)に後続——製品が概念に先行した例がここでも |
| 2026.06 | 研究 | ★FrontierCode(6/8) | Cognition | 評価軸を「正確性」から「マージ可能性(品質・保守性)」へ拡張。OSS保守者が作問し、ユニットテスト+ルーブリック+検証器を併用。METR のマージ可能性調査(2026.03)が示した pass-rate と実用の乖離への応答 |
| 2026.06 | 実装 | Claude Fable 5/Claude Mythos 5(6/10) | Anthropic | 「Mythos級」という能力階層の新設。同一モデルを一般版と承認制限定版の2系統で公開。能力閾値→アクセス制御という RSP 系譜(2023.09 → 各社 frontier safety framework)の本格的な製品実装 |
| 2026.06 | 基盤(実装) | Managed Agents 拡張・Claude Code 動的ワークフローGA(6/10, Code with Claude Tokyo) | Anthropic | スケジュール実行、vault環境変数(実鍵をモデルの文脈に載せない環境設計)、動的ワークフロー(オーケストレーション自動生成+並列サブエージェント)の各機能を追加 |
読み方(4つの軸)
- 主題の遷移:設計パターン(2024.12)→ アーキテクチャ選択(2025.06論争)→ コンテキスト運用(2025.06–09 CE)→ ハーネスエンジニアリング(2025.11–2026.03)。「何を作るか」→「どう構成するか」→「何を見せるか」→「どう走らせ続けるか」。なお loop は harness の一階上に位置する——Osmaniの定義では、harness は単一エージェントが走る環境であり、loop はその harness をスケジュールで起動し、サブエージェントを生成し、結果を自己供給する制御系を指す。
- 2025年6月の特異性:6/12のCognition記事による語の導入から 6/30のSchmidによる標準定義まで、論争の勃発・統合・用語確立が約3週間で完結した。LangChain(6/16)が対立を「read vs write」という設計基準に変換したことが収束を早めた。
- 思想の通奏低音:Bitter Lesson(2019)→ Era of Experience(2025.04)のSutton系譜が「ハーネスへの投資はモデルに食われる」緊張を常に供給する。詳細は補論を参照。
- 並走系譜の合流:視覚(CLIP→GPT-4V→Set-of-Mark)と音声(Whisper→Realtime API)の系譜はテキスト系と並走し、computer use(2024.10)と Operator(2025.01)でエージェント本流に合流した。合流後は、外付けの視覚グラウンディング(SoM・スクリーンパーサ)をネイティブ訓練モデル(UI-TARS・Gemini 2.5 Computer Use)が置き換える動きが進んでおり、2026年には音声側でも STT→LLM→TTS パイプラインを単一の speech-to-speech モデルに統合する動き(Realtime-2、2026.05)が並走する。視覚・音声とも「パイプラインからモデルへ」という同型の吸収であり、補論で扱う「ハーネスの減価」が最も速いペースで進行している領域でもある。
概念 → 原典の対応
時間軸とは別に、概念ごとの原典を引けるようにした補足表です。
| 概念 | 原典 | 性質 |
|---|---|---|
| RAG | Lewis et al. 2020 | 学術論文(語の提唱)。実務RAGは実装が乖離 |
| Agent(推論+行動) | ReAct (2022);標準枠組みは Lilian Weng (2023.06) | 論文+個人ブログ |
| Planning / 推論 | CoT (2022) → ToT (2023) → o1 (2024) 以降は推論モデルへ | 論文 → 製品化 |
| Tool use | WebGPT (2021) → Toolformer (2023) → function calling (2023) → Structured Outputs (2024) | 論文 → API標準化 |
| Memory | Generative Agents (2023)・MemGPT (2023) | 学術論文群 |
| Evals(LLM-as-judge) | MT-Bench (2023) | 学術論文 |
| Evals(共通土俵) | HumanEval (2021)→SWE-bench (2023)→GAIA (2023)→WebArena (2023)→OSWorld・AndroidWorld (2024)→τ-bench (2024)→METR時間地平 (2025)→FrontierCode (2026、マージ可能性) | ベンチマーク・測定枠組み |
| Evals(品質・保守性) | Asleep at the Keyboard (2021) → GitClear 定点観測 (2024–25) → DORA (2024–25) → SlopCodeBench (2026.03) → METR マージ可能性調査 (2026.03) → FrontierCode (2026.06、マージ可能性) | 論文 → 定点観測レポート → 調査 → ベンチマーク化 |
| 検証可能報酬・RL環境(評価の訓練資産化) | RLVR (2024.11) → R1/GRPO (2025.01) → The Second Half (2025.04) → Environments Hub (2025.08) → INTELLECT-3・verifiers 生態系 (2025–26) | 論文 → 実装 → エッセイ → プラットフォーム。「残るのは評価系」(補論)の訓練側への延長 |
| 指示追従・アラインメント | InstructGPT/RLHF (2022) → RLAIF (2022–23)・DPO (2023) | 学術論文 |
| 重み側の最適化(カスタマイズ) | LoRA (2021.06) → QLoRA (2023.05) → DPO (2023.05) → RFT (2024.12 preview) → RLVR・環境ベース訓練 (2024.11–) | 学術論文 → API化。「知識を重みに置くか、文脈(CLAUDE.md・Skills)に置くか」という設計軸の重み側 |
| Guardrails思想 | Constitutional AI (2022) | 学術論文 |
| Skills | Voyager (2023) → Agent Skills (2025) | 論文 → 製品化 |
| コード実行(code-as-action) | PAL/Program of Thoughts (2022.11、コードによる推論) → Code Interpreter (2023.07) → CodeAct (2024.02) → OpenHands が採用 (2024) → Code execution with MCP (2025.11) → Skills 実行モデル・自己ホスト型サンドボックス (2026.05) | 論文 → 製品 → 論文 → 公式記事。サンドボックス残存論(補論)の技術側の幹 |
| マルチモーダル(視覚→行動) | CLIP (2021) → GPT-4V (2023.09) → Set-of-Mark (2023.10) → WebVoyager (2024.01) → computer use (2024.10)・OSWorld (2024.04)・AndroidWorld (2024.05) → Operator・UI-TARS (2025.01) → Gemini 2.5 Computer Use・ChatGPT Atlas (2025.10) → AndroidWorld 100%報告・汎用操作モデルの主張 (2026.02)。外付けグラウンディング(SoM・スクリーンパーサ)からネイティブ訓練モデルへの移行が進行し、残存側ではサイト固有知識の機械可読化(browser-harness domain skills、2026.05) | 論文 → 技法 → 製品化 → モデル内在化 |
| 音声エージェント | Whisper (2022) → GPT-4o・Realtime API (2024) → Moshi(全二重S2SのOSS、2024.09) → gpt-realtime GA (2025.08) → Realtime-2(STT/TTSのS2S統合、2026.05) | 実装(OSS → API → 統合) |
| プロンプトtoアプリ(AIプロトタイピング) | gpt-engineer OSS (2023.06) → v0 (2023.09、Generative UIの市場定義) → Replit Agent (2024.09) → Bolt (2024.10、WebContainersによるブラウザ完結=「環境が製品」の実証) → Lovable (2024.11、8ヶ月で$100M ARR→2026.02に$400M) → Figma Make (2025.05)。チャット内系譜は Claude Artifacts (2024.06)、exit事件は Wix の Base44 買収 (2025.06、約$80M) | 製品(論文起源なし)。AIネイティブIDEと対をなす非エンジニア側の系譜。vibe coding の命名(2025.02)より製品が先行 |
| Agent-Computer Interface(環境設計) | SWE-agent (2024) | 学術論文。「エージェントの作業環境を設計する」という harness engineering の先行概念 |
| Workflow vs Agent | Building Effective Agents (2024.12) | 企業ブログ |
| マルチエージェント設計基準 | 2025.06論争+LangChainの統合(read vs write) | 企業ブログの論争と統合 |
| Context engineering | Cognitionが語を導入 (6/12) → Schmidが標準定義 (6/30) → Manusが実務技法 (7/18) → Anthropicが公式体系化 (9/29)。研究的基礎は Lost in the Middle (2023)・Context Rot (2025.07)、学術的体系化は CE Survey (2025.07) | 記事の連鎖(単一原典なし)+研究 |
| ハーネス(語の系譜) | テストハーネス(SWEの伝統)→ lm-evaluation-harness(EleutherAI/Gao et al. 2021、論文化は Biderman et al. 2024)→ TheAgentCompany が「agent harness」と呼称 (2024.12) → Schmid が定義・タクソノミー化 (2026.01) | OSS → 論文 → 記事。AI領域の語源が「評価ハーネス」である点は補論の結論(残るのは評価系)と呼応 |
| Harness engineering | 系譜:Voyager (2023) → SWE-agent/ACI (2024) → Anthropicが問題系を定義 (2025.11/2026.03) → Schmidが定義・「2026年はハーネスの年」宣言 (2026.01) → OpenAIが正式に定義・実証 (2026.02.11) → LangChainが実践報告で追随 (2026.02.17) → LangChainが定義式「Agent = Model + Harness」を整備 (2026.03.10) → Meta-Harness/AutoHarnessが研究化 (2026.03)。命名の帰属には Hashimoto (2026.02初頭) 説もあり、CE同様の収斂的確立 | 論文 → 企業エンジニアリングブログ → 学術論文(単一原典なし) |
| 最適化の自動化(プロンプト→ハーネス) | DSPy (2023) がプロンプト/パイプライン層で先行 → Meta-Harness/AutoHarness (2026.03) で対象がハーネス層へ | 学術論文 |
| ハーネスの減価と残存 | Bitter Lesson (2019) が思想、Anthropic 2026.03 が実例、METR (2025.03) が速度のアナロジー。Meta-Harness/AutoHarness (2026.03) は減価とは別の「ハーネス設計の自動化」を示す | 記事 → 実証 → 定量化 → 研究化 |
| プロンプトエンジニアリング(体系) | 書籍群 (2024)。技法はCoT・few-shot等の論文 | 論文+書籍 |
| Prompt injection/エージェントセキュリティ | Willison が命名 (2022.09) → Greshake et al. が indirect prompt injection を定義 (2023.02) → OWASP LLM Top 10 が標準化 (2023.08) → Willison が lethal trifecta を定式化 (2025.06) → vault環境変数など環境側の対策へ (2026.06) | 個人ブログ → 論文 → 標準 → 判定枠組み → 製品実装 |
| ツール接続プロトコル | MCP (2024) → OpenAI採用 (2025.03) | 仕様 → 事実上の標準 |
| エージェント間通信 | A2A (2025) | ベンダー仕様 |
| エージェント決済・コマース標準 | x402 (2025.05) → AP2 (2025.09) → ACP (2025.09) | ベンダー仕様の競合並立。ツール接続(MCP)・エージェント間通信(A2A)に続く第三の標準層 |
| 開発方法論 | AI-DLC (2025.07) | ベンダー方法論 |
| 仕様駆動開発(SDD) | The New Code (2025.06) → Kiro (2025.07) → GitHub Spec Kit (2025.09) → 主要ツールの標準機能化・体系化記事 (2026) | 講演 → 製品 → OSS標準。vibe coding(2025.02)への対抗運動で、Software 2.0 の「仕様化できるもの」の側の再主張 |
| AIネイティブIDE | Cursor (2023.03) が市場を定義、Windsurf/Cascade (2024.11) が「agentic IDE」を定義、Cursor Composer (2025.10) がモデル垂直統合へ | 製品(論文起源なし) |
| Human-in-the-loop / on-the-loop | HumanLayer・12-Factor「ツール呼び出しとしての人間連絡」(2025)・LangGraph interrupt・許可プロンプト → Beyond permission prompts (2025.10) | FW機能 → 設計転換(記事) |
| 能力閾値・段階的アクセス | Anthropic RSP (2023.09) → OpenAI Preparedness Framework (2023.12) → Google Frontier Safety Framework・ソウルCommitments (2024.05) → Fable/Mythos 二系統公開 (2026.06) | 企業ポリシー → 業界慣行 → 製品実装。権限系ハーネスの「逆向き成長」(補論)の需要側の源流 |
| Loop engineering | Ralph Wiggumループ(2025央、Huntley)・OpenClaw heartbeat(2025.11–)→ Claude Code /loop(2026.03)→ Codex /goal(2026.04、内部呼称「Ralph Loop」)・Claude Code /goal(2026.05)→ Steinbergerツイート+Cherny発言(6/7)→ Addy Osmaniが命名・定義(6/8) | ツイート+記事(48時間で確立、ただし機能が命名に先行)。別系統として学術的提案「Agentic Loop Engineering」(arXiv:2509.06216、2025.09)が存在。命名直後の適用例に Designing loops with Fable 5(2026.06) |
| AI Software Factory | Dark Factory・Agent Factory構想(2026.01)→ OpenAI harness engineeringが実証(2026.02)→ Stripe Minions・Spotify Honk が企業規模で実証(2026) | 構想・記事・実証 |
| コンシューマ自律エージェント | Operator (2025.01)→Manus (2025.03)→OpenClaw (2025.11–2026.01) | 製品・OSS |
| マネージドエージェント基盤 | Claude Managed Agents (2026.04)、Dreaming/Outcomes・自己ホスト型サンドボックス・MCPトンネル (2026.05)、スケジュール実行・vault環境変数 (2026.06) | プラットフォーム |
| エージェント指示ファイル | CLAUDE.md(Best practices 2025.04 が慣行を定義)→ AGENTS.md (2025) | 事実上の標準 |
| Eval-driven development(EDD) | Brockman「evals are surprisingly often all you need」(2023.12) → Vercelが語と規律を定義 (2024.10) | ツイート → 企業ブログ。The Second Half (2025.04) の「評価ボトルネック」論の実務側の先行 |
| Verifiability(検証可能性の軸) | Karpathy「Software 2.0」(2017) →「Verifiability」(2025.11)。コード領域の実務先行は Willison (2025.03) | 個人エッセイ。RL・評価・ハーネス論を貫く一語 |
要点:原典は大きく6層——①学術論文、②ベンチマーク・測定枠組み、③ベンダー仕様・API、④記事(公式整理・論争・個人ブログ)、⑤用語・エッセイ、⑥製品。エージェント領域では ④の記事が論文と同格以上 で、context engineering や harness engineering のように単一原典を持たず「記事の連鎖」で確立した概念もある。逆に vibe coding のように、製品(Bolt・Lovable、2024Q4)が現象を先に作り、命名(2025.02)が後追いした例もある(loop engineering も同型で、/loop・/goal の機能化が命名に先行)——概念形成は「記事→実装」の一方向ではない。
補論:ハーネスの減価と残存
本節は年表の事実を超えて、そこから導ける一つの読み方——解釈と予測——を含みます。
この年表でもっとも実務的な含意を持つのは、「ハーネスへの投資は時間とともにモデルに食われるのではないか」という緊張です。結論を先に言えば、ハーネスは一様には減価しません。機構の行き先は3つに分かれ、資産の種類によって運命が分かれます。以下、①観察(機構はどこへ行ったか)、②思想(食われる派と残る派)、③減価の側(実証・速度・層を上がる吸収)、④残存の側(3つの資産と1つの非対称)、⑤評価系の反転、⑥懐疑への応答——の順で追います。
1. 観察——ハーネス機構はどこへ行ったか
まず、代表的な機構が実際にどこへ行ったかを一覧します。
| ハーネス機構(なぜ必要だったか) | 何が起きたか | 行き先 |
|---|---|---|
| ReAct出力のテキストパース(ツール呼び出しを自前で抽出、2022–23) | function calling(2023.06)がAPI仕様として吸収 | プラットフォーム |
| JSON整形の再試行・検証ループ(出力が壊れる前提、2023–24) | Structured Outputs(2024.08)がスキーマ準拠を保証し不要化 | プラットフォーム |
| 「step by step で考えて」等のCoTプロンプト技巧 | 推論モデル(o1、2024.09)が内部化。OpenAIは推論モデルへのCoT指示を非推奨と明記 | モデル |
| AutoGPT型のタスクキュー・自己プロンプトループ(2023) | 推論・エージェント訓練が複雑な agentic chain ごと吸収 | モデル |
| 精緻なチャンキング・RAGパイプラインの一部 | 長コンテキスト化で縮小。ただし Context Rot(2025.07)が「全部入れ」を否定し、検索自体は残存 | 部分的にモデル |
| context resets(Sonnet 4.5 の context anxiety 対策、2025.11) | Opus 4.5 で当該挙動が解消し不要化 | モデル |
| スプリント分解(タスクの事前分割) | Opus 4.6 で不要化 | モデル |
| Set-of-Markマーカー・スクリーンパーサ等の外付け視覚グラウンディング(VLMが座標を当てられない前提、2023–24) | GUI操作をネイティブに訓練した computer use モデル(2024.10以降、UI-TARS・Gemini 2.5 Computer Use 等)が吸収。OSWorld は初期VLMの12%台から60%超へ(人間72.4%。OSWorld-Verified、評価構成により変動) | モデル |
| STT→LLM→TTS の3段パイプライン(音声エージェント) | ネイティブ speech-to-speech モデル(GPT-4o 2024 → Realtime-2 2026.05)が統合。ただし音声品質・LLM選択の自由度の面でパイプラインを選ぶ実務も残る | 部分的にモデル |
| 手書きの compaction・メモリ管理 | APIの context editing/memory tool(2025)や Agent SDK の標準機能として下層へ | プラットフォーム |
| コスト最適化のための手動キャッシュ設計(2023–24) | Prompt caching(2024.08〜)がAPI標準機能化。ただしキャッシュ前提でコンテキストを追記型に設計する実務(Manus、2025.07)は残存 | プラットフォーム |
| 自前のbash継続ループ・Stopフック再投入・heartbeat(Ralph Wiggum 2025央、OpenClaw 2025.11) | 主要CLIが「定期実行」(/loop、2026.03)と「検証条件付き反復」(Codex /goal 2026.04・Claude Code /goal 2026.05)に分解してネイティブ機能化 | プラットフォーム |
| 構造化編集ツール(str_replace 型エディタ等) | SWE-agent/ACI(2024)の環境設計の知見が、2026年の主要コーディングハーネスにそのまま残存 | 残存(環境設計) |
| 評価ハーネス | lm-evaluation-harness(2021)以来、モデルが何世代変わっても残存・拡張 | 残存(評価系) |
| サンドボックス・権限・承認フロー | on-the-loop監督(2025.10)→ Managed Agents 承認フロー(2026.04)→ vault環境変数(2026.06)と、能力向上とともにむしろ厚く | 残存(逆向きに成長) |
パターンは3つに分かれます。モデルに食われる(能力不足を迂回する workaround)、プラットフォームに沈む(API・SDKの標準機能になり、自前実装の必要だけが消える)、残存する(評価・環境・権限)。Bitter Lesson が言い当てるのは1つ目だけで、2つ目は減価というより定着、3つ目はむしろ逆方向です。実務的な帰結を先に述べれば——「モデルに食われる」「プラットフォームに沈む」カテゴリは自前実装を薄く・剥がせる前提で書き、「残存」カテゴリにこそ恒久投資する、という資産配分になります。以下、この3分類がなぜ生じ、どこまで信用できるのかを追います。
2. 思想——Big Model 対 Big Harness
「食われる」側の思想は Bitter Lesson(2019)に遡ります。人間が作り込んだ構造より、計算量にスケールする汎用手法が長期的に勝つ——この主張は Era of Experience(2025.04)で「経験からの学習」として更新され、ハーネス工学に対する通奏低音であり続けています。2026年にはこの緊張が「Big Model 対 Big Harness」という陣営論として顕在化しました。
Big Model 側の代表は Claude Code チームと OpenAI の Noam Brown です。Claude Code を作った Boris Cherny は Latent Space のポッドキャスト(2025.06)で、秘伝はすべてモデル側にあり Claude Code は「モデルの上の可能な限り薄いラッパー」だと述べ、チームの執務エリアには Bitter Lesson の額装が掛かり、「今日のモデルではなく6ヶ月後のモデルに向けて作る」(先回りしたスキャフォールディングは技術的負債になる)を設計原則にしています。Noam Brown は harness engineering の語が確立する半年前(Latent Space、2025.06)に、推論モデル登場前に非推論モデルを多数回呼んで推論的挙動を作り込む agentic system へ注がれた膨大な工数が、推論モデルの登場で不要どころか有害になった経験を挙げ、「いまのハーネスも同様にスケールに洗い流される」と予測しています。
Big Harness 側には、「The Model Harness is Everything」(2026)を掲げる Jerry Liu(LlamaIndex)——AIの価値実現の最大の障壁はモデルではなくユーザー側の context/workflow 設計力——や、Cursor の高評価額に体現される Agent Labs 論があります。傍証には、モデルを保有せず交換可能なまま環境・配備・統合で価値を立てたプロンプトtoアプリ製品群(Bolt・Lovable——後者はラボ製コーディングツールの台頭下でも2026.02に$400M ARRへと成長を加速)もあり、モデルを垂直統合した Cursor とは別系統の論拠を与えています。
ただし、Bitter Lesson がハーネスのどこまでに適用されるかは自明ではありません。評価系や環境設計は「人間の知識の作り込み」というより「モデルが働くための環境整備」に近く、The Anatomy of an Agent Harness(2026.03)も、ハーネスはモデル欠陥のパッチであると同時にモデルの知能を有効化するシステムでもある、という両面を指摘しています。実務側の落とし所をいち早く言語化したのは Schmid(2026.01)で、Bitter Lesson を明示的に前提として「昨日書いたロジックを引き剥がせる軽量なハーネス」を設計原則に翻訳しています——冒頭で先取りした資産配分の、一次資料側の表現です。
3. 減価の側——実証・速度・層を上がる吸収
「モデルに食われる」の実証の代表は、表にも挙げた Anthropic の2026.03記事の2件です。第一に、Sonnet 4.5 の context anxiety への対処として2025.11記事で必須機構とされた context resets は、Opus 4.5 がその挙動を解消したため不要になりました。第二に、Opus 4.5 では必要だったスプリント分解(タスクの事前分割)は、Opus 4.6 で不要になりました。2世代連続で、別々のハーネス機構が減価した記録です。重要なのは、同記事がこれを運用原則として明文化していることです——意訳すれば「ハーネスのすべてのコンポーネントは、モデルが単体ではできないことについての仮説をエンコードしており、その仮説は誤っているかもしれないし、モデルの改善で急速に陳腐化しうる」。減価は事後的な観測ではなく、新モデルが出るたびに load-bearing でない部品を剥がすという、設計プロセスに組み込まれた前提になっています。OpenAI の harness engineering 記事(2026.02)が AGENTS.md を「百科事典ではなく目次」とした設計判断にも、同じ前提が読み取れます。
速度感の手がかりは METR のタスク時間地平(2025.03)です。ただし METR が測るのはモデルが完遂できるタスクの長さであり、ハーネス機構の陳腐化速度そのものではありません。「タスク長が約7ヶ月で倍増するなら、モデル能力の不足を補う workaround 型ハーネスの有効期間も同じオーダーで見積もるべき」というのは、直接の証拠ではなく、減価速度のオーダー感を与えるアナロジーとして読むべきものです。
「プラットフォームに沈む」の側では、2026年に入って吸収が一段上の層で再演されました。個人発の継続ループ(Ralph Wiggum、2025央)と OpenClaw の heartbeat は、2026年春までに「定期実行」(Claude Code /loop、2026.03)と「検証可能な完了条件に向けた反復」(Codex /goal 2026.04・Claude Code /goal 2026.05——OpenAI は内部でこのループを公式に「Ralph Loop」と呼ぶ)に分解され、主要CLIの標準機能に吸収されました。function calling が ReAct のテキストパースを吸収したのと同じ力学が、一段上の loop 層で、約1年で、2社並行で繰り返された形です。そして注目に値するのは、goal 型プリミティブのインターフェースが両実装とも「検証可能な完了条件」に収斂した点です(Codex は完了条件+予算+監査の束、Claude Code は独立した小型checkerモデルの毎ターン判定)。ループを製品化したとき、人間に残った仕事は done の定義——つまり評価でした。減価の物語を最後まで追うと、残る側の正体が先に顔を出します。次節でそれを解剖します。
4. 残存の側——3つの資産と1つの非対称
減価しにくい資産は、評価・検証、環境、機械可読化されたドメイン知識の3つに分かれます。これに、性質の異なる第4のカテゴリとして権限・承認系が加わります。
**評価・検証。**Verifiability(2025.11)が「検証できるものが自動化される」と述べたのと同型で、ハーネス投資もまた「モデルが強くなっても価値が残るのは検証と環境」に収斂しつつあります。実務側の代表例が Stripe の「Minions」です。同社エンジニアリングブログの報告(2026.02、InfoQ報道)によれば、自律エージェントが週1,300件超のPRを生成しており(全件人間レビューだが人間が書いたコードはゼロ)、それを成立させているのは約300万件のテスト資産から変更箇所に関係するものだけを選択実行するCI、push前のローカルlinter・フック、CI失敗時の再試行を2回で打ち切るキャップという検証インフラです。検証資産が自律性の前提条件になる——テストがエージェントに先行する——順序を示す事例で、Spotify が QCon London 2026 で報告したコードベース全体を継続移行するエージェント Honk も同型です。Anthropic の2026.03記事は、これを evaluator で実証してもいます——Opus 4.6 への世代交代で evaluator が不要になるタスクは増えた一方、モデルの単独能力の縁にあるタスクでは価値が残り続けた。つまり減価は機構単位で一律に起きるのではなく、タスクとモデル能力の境界で決まります。同記事の結語、モデルが改善しても興味深いハーネスの組合せ空間は「縮小せず、移動する」は、この補論の主張の一次資料側からの言い換えです。移動の実例は評価軸そのものに現れています。FrontierCode(2026.06)は評価軸を「動くか」から「マージできるか(保守性・品質)」へ移しましたが、これは GitClear(2024–25)の保守性劣化の定量化、DORA(2024–25)の組織レベルの安定性測定、SlopCodeBench(2026.03)の品質軌跡メトリクス、METR の「SWE-bench 合格パッチの約半数は保守者ならマージしない」という測定(2026.03)という系譜の到達点です。なお Verifiability の軸には一つ補足ができます。評価系をほぼ持たないプロンプトtoアプリ製品(v0→Bolt→Lovable)が最速で大衆化したのは反例ではなく、プロトタイプ=失敗コストが低く検証要件が最小の領域だから先に自動化されたと読むべきです。自動化は「検証可能性が高い領域」と「検証要件が低い領域」の両端から進み、FrontierCode が照準する「マージ可能な本番コード」という、検証が難しく失敗コストの高い中間帯が最後に残ります。
**環境。**SWE-agent/ACI(2024)が定式化した環境設計の知見——構造化編集ツールやエージェント向けインターフェース——は、モデルが何世代変わっても2026年の主要コーディングハーネスにそのまま残存しています。新しい実装例が vault 環境変数(2026.06)で、実鍵をモデルの文脈に一切載せずネットワーク境界で付与する設計です。これは Willison の命名(2022.09)→ Greshake et al. の間接インジェクション(2023.02)→ OWASP の標準化(2023.08)→ lethal trifecta(2025.06)と続いてきた prompt injection 系譜への応答が、プロンプト側の防御から環境側の設計へ移ったことを示しています——lethal trifecta が示したのはまさに「LLM自身に防御させることはできず、3条件のどれかを環境側で断つしかない」という設計指針でした。
機械可読化されたドメイン知識。具体例は CLAUDE.md/AGENTS.md と Agent Skills です。Anthropic 社内では各チームが git 管理の CLAUDE.md にコーディング規約・設計指針・過去のミスを蓄積し、PRレビューで得た学習を @.claude タグで追記してエージェントの失敗を組織の資産に変換する運用(いわゆる compounding engineering)が報告されています(InfoQ、2026.01)。Agent Skills(2025.10)はこの「手続き的知識の機械可読化」をフォルダ+Markdown の形式として製品化したもので、系譜は Voyager(2023)の skill library に遡ります。これらが残存資産たりうるのは、蓄積される内容がモデルの能力ではなく組織の事実——自社の規約、ドメイン固有の制約、過去の意思決定——であり、モデルを乗り換えても持ち越せるからです。ただし一枚岩ではありません。前節で触れた「百科事典ではなく目次」の判断が示すように、モデルが既に知っていること・推論で導けることを書き溜めた部分は世代交代で剥がれます。つまりこの資産の減価耐性は「機械可読であること」ではなく「組織固有であること」に由来し、CLAUDE.md の中にも減価する行と残る行が混在します。この構図は視覚系にも現れています。ブラウザ操作ハーネスの browser-harness(browser-use、2026.05)は、エージェント自身が実行中に学んだサイト固有の知識——安定セレクタ、非公開API、ログイン境界、さらに「このサイトはブラウザよりAPIを使うべき」という判断——を domain skills ファイルとして書き残し、次回以降の実行やコミュニティに引き継ぐ仕組みを持ちます。スキルは人間ではなくハーネス(エージェント)自身が執筆し、方針は「地図を書け、日誌を書くな」——レイアウト変更で壊れる座標ではなく、サイトの恒久的な構造だけを残す。視覚グラウンディング自体がモデルに吸収されたあとも「サイト固有・組織固有の知識」だけが機械可読資産として残り、しかもその蓄積自体をエージェントが担う、という残存論と自動化論の交点にある実装例です。
**権限——逆向きの減価曲線。**安全・権限系のハーネス——on-the-loop監督への設計転換(2025.10)、Managed Agents の承認フロー(2026.04)、能力階層と分類器によるアクセス制御(Fable/Mythos、2026.06)——は、減価曲線が逆向きです。モデルが強くなるほど不要になるのではなく、強くなるほど load-bearing になる。つまり、減価するのは「能力の不足を補う」ハーネスであり、「能力の過剰を制御する」ハーネスはむしろ能力に比例して厚くなる、という非対称があります。ただし、この残存は評価系の残存とは由来が異なります。評価系が最適化の目的関数として技術的に必須であるのに対し、権限・承認系は組織と社会がコントロールを要求し続けるという需要側の必然です。レイヤーとしての残存は固い一方、個々の実装(承認UI・分類器・能力階層の設計)は能力と規制の動きに合わせて入れ替わり続けるでしょう。
5. 評価系の反転——残るだけでなく、何になるのか
残存論の核心である評価系には、2026年までに3つの動きが重なっています。
第一に、ハーネス設計の自動化です。2026.03の Meta-Harness/AutoHarness は、ハーネス設計自体をモデルに探索・合成させられることを示しました。公開されたアーティファクトでは、探索されたハーネスが Opus 4.6 で Terminal-Bench 2.0 の76.4%に達し、人手設計のハーネスを上回っています。最適化対象をプログラム的に探索するという発想自体は DSPy(2023)がプロンプト/パイプライン層で先行しており、その対象が一段上のハーネス層へ移ったものと位置づけられます。一見するとこれは減価の最終形——ハーネス設計という営みそのものがモデルに食われる——に見えますが、むしろハーネスというレイヤーが最適化対象として形式化されたと読むべきです。人手で書かれた個々のハーネスは減価しても、「良いハーネスを探索する」という問題と、その探索を駆動する評価系は残る。「残るのは評価系である」という残存論の、これが最も強い証拠です。
第二に、評価系の内部にも減価勾配があることです。テスト・型・linter のような検証可能報酬(verifiable reward)に基づく層は最も減価耐性が高い一方、LLM-as-judge 型の評価はモデルの自己検証能力の向上とともにモデル側へ吸収されえます。Anthropic の2026.03記事が evaluator 分離の根拠に挙げる「自己評価の甘さ」自体が「モデルが単体でできないことへの仮説」であり、本補論の論理を自己適用すれば、これも将来の減価候補です。残存論が最終的に賭けているのは評価系一般ではなく、モデルの外部にある検証可能な根拠——実行結果、テスト、実世界からのフィードバック——だ、と言い換えるのが正確でしょう。
第三に、訓練の生産手段への昇格です。RLVR(2024.11)が検証可能な報酬での強化学習を定式化し、R1(2025.01)が大規模に実証し、Environments Hub(2025.08)は「RL環境こそ次の進歩のボトルネック」と宣言して、RL訓練と評価を同一の環境資産として共有する基盤を公開しました。この見立てでは、今日の評価・検証ハーネスは明日の訓練環境であり、明後日のモデル能力です——最適化の単位が prompt→context→harness→loop と一段上がるたびに、その一段下が次世代モデルの訓練データになる。「縮小せず、移動する」の機構的な説明であり、Era of Experience(2025.04)の実装側でもあります。この線が伸びるなら、組織固有の評価・環境資産への投資は、コンテキスト資産(CLAUDE.md・Skills)と同様に「モデルを乗り換えても持ち越せる」にとどまらず、「自社特化モデルを作る原料になる」可能性を持ちます。
6. 結語——懐疑への応答
harness engineering という領域設定そのものへの懐疑も同時代に存在します(Latent Space「Is Harness Engineering Real?」2026.03 など。同記事は Big Model/Big Harness 両陣営を検討した上で、Bitter Lesson を尊重しつつハーネスエンジニアリングに実価値を認める中間に落ち着いています)。この懐疑が問うのは「ハーネスは恒久的な専門領域か、それとも過渡期の workaround 集か」であり、本補論はこれに「資産の種類によって答えが分かれる」と応じるものです——冒頭の表で言えば、「モデルに食われる」行だけを見れば過渡期論が正しく、「残存」の行だけを見れば恒久領域論が正しい。harness engineering と loop engineering が2026年に独立領域として確立したのは、この「残る側」への投資が言語化されたから、と読むことができます。
おわりに
この年表を貫く背骨は、最適化の単位が prompt → context → harness → loop と一段ずつ上がってきた一本の線です。各語の確立に要する期間も短縮しており(context engineering は約3.5ヶ月の記事連鎖、loop engineering はツイートから定義記事まで約48時間)、概念形成のサイクルそのものが加速しています。
網羅性よりも「原典の同定」を優先して編んでいます。誤り・抜け・「この一次資料も加えるべき」というご指摘があれば、コメントでご教示いただけると嬉しいです。