AIエージェント設計 用語集|Prompt・Context・Harness とその周辺
先日 note に公開した記事「AIエージェント設計を支える3つのエンジニアリング:Prompt・Context・Harness」で触れた用語を、リファレンスとして一気にまとめておきます。
この分野は新しい言葉が次々に出てきて定義も揺れているので、記事を読む際の副読本として、そして自分の整理として残しておくものです。
- 元記事(note):https://note.com/ebe0911/n/n9ee5dbd40546
⚠️ 定義は「実装者が現場で使う意味」を優先してかみ砕いています。厳密な学術定義とは粒度が異なる場合があります。
1. コアとなる3つのエンジニアリング
Prompt Engineering(プロンプトエンジニアリング)
LLMへの指示(プロンプト)の書き方を工夫して、1回のやり取りで良い出力を引き出す技術。「どう書くか」の最適化。2022〜2024年に確立された。
Context Engineering(コンテキストエンジニアリング)
モデルの推論時に、コンテキストウィンドウへ「何を・どの順で・どの形式で」入れるかを設計する技術。「何を渡すか」の設計。2025年に Andrej Karpathy が命名して広まった。
Harness Engineering(ハーネスエンジニアリング)
モデルの外側にある動作環境全体(ツール・制約・メモリ・フィードバック・人間の確認など)を設計する技術。「どんな環境で動かすか」の設計。2026年に主流化した。
Harness(ハーネス)
直訳は「馬具(手綱・鞍)」。エージェント文脈では、モデルを目的どおりに走らせるための外側の仕組み一式を指す。どれほど優秀な馬(モデル)でも、手綱がなければ思う方向には進まない、という比喩。
Agent = Model + Harness
Mitchell Hashimoto による定式化。エージェントの実力は「モデルの性能」と「ハーネスの設計」で決まる、という考え方。
この3つは置き換えではなく入れ子の関係:Harness ⊃ Context ⊃ Prompt。
2. プロンプトまわりの技法
Prompt(プロンプト)
LLM に与える入力テキスト。指示・文脈・例などを含む。
System Prompt(システムプロンプト)
モデルの役割や守るべきルールを定義する、会話の土台となる指示。元記事の Dify 例では、文字数や見出しの制約をスキーマではなくここで効かせた。
Chain-of-Thought / CoT(思考の連鎖)
「途中の考え」を順に書かせることで、複雑な推論の正答率を上げる手法。
Few-shot / Zero-shot(少数事例提示 / ゼロショット)
プロンプト内に解答例をいくつか示すのが Few-shot、例なしで指示だけ与えるのが Zero-shot。
Tree-of-Thought / ToT(思考の木)
複数の思考経路を枝分かれさせて探索・比較し、良い筋を選ぶ手法。CoT の発展形。
3. コンテキストまわり
Context Window(コンテキストウィンドウ)
モデルが一度に処理できるトークンの上限枠。有限のリソースであり、何を入れるかが性能を左右する。
Token(トークン)
モデルがテキストを扱う最小単位。単語より細かい「かたまり」で、コンテキスト量や料金の計算単位になる。
Context Rot(コンテキスト汚染 / 文脈の劣化)
コンテキストが増えるほどモデルの注意が分散し、必要な情報を正確に拾えなくなる現象。Anthropic が指摘している。
Transformer / Attention(トランスフォーマー / 注意機構)
現在の LLM の基盤アーキテクチャ。全トークンが互いの関連度を計算する(n² の計算量)。これが Context Rot の構造的な原因。
RAG(検索拡張生成 / Retrieval-Augmented Generation)
外部データを検索してコンテキストに足し込み、回答の根拠や鮮度を補う手法。Context Engineering の代表例。
4. エージェントの構成要素
AI Agent(AIエージェント)
LLM 自身が「次に何をするか」を動的に判断し、ツールを使って自律的にタスクを進めるシステム。
Workflow(ワークフロー)
LLM とツールを、あらかじめ決めたコードの道筋に沿って動かす方式。予測可能で安定。エージェントと対になる概念で、「派手な自律より地味なワークフローが正解」な場面は多い。
LLM(大規模言語モデル / Large Language Model)
大量テキストで学習した言語モデル。エージェントの「頭脳(推論コア)」にあたる。
Policy / 推論コア
状況を見て次の一手を決める中核。多くの場合 LLM が担う。
Planner(プランナー / 計画)
ゴールを実行可能な小さいステップに分解する機能。
Action Space / Tool Use / Function Calling(行動空間・ツール使用・関数呼び出し)
検索・コード実行・API 呼び出しなど、モデルが外界に働きかける手段の集合。LLM が構造化した「関数呼び出し」を出力し、確定的なコードが実行する形が基本。
Memory(メモリ)
作業中の文脈を保つ短期メモリと、セッションをまたいで知識を保つ長期メモリに大別される。
Verifier / Critic(検証器 / 批評役)
出力が妥当かを点検し、必要なら修正させる役割。元記事の Dify 例の「LLM2(自己批評)」がこれにあたる。
Agentic Loop(エージェントループ)
「行動 → 環境からの観測 → 記憶に追記 → 次の判断」を繰り返す循環。コンテキストは膨らみ、出力は短い、という非対称な構造になる。
5. 複数エージェントの組み合わせ(オーケストレーション)
Orchestration(オーケストレーション)
複数のエージェントやツールを協調させて 1 つのタスクを完成させる設計・制御。
Multi-agent(マルチエージェント)
役割の異なる複数エージェントを連携させる構成。単一で足りるならそれが最良で、必要になって初めて複数にする。
Prompt Chaining(プロンプトチェイニング)
タスクを複数ステップに分け、前の LLM 出力を次の入力に渡して直列につなぐパターン。
Routing(ルーティング)
入力を分類して、適切な専門処理に振り分けるパターン。
Parallelization(並列化)
タスクを分割して同時実行(sectioning)したり、複数回試して多数決を取る(voting)パターン。
Orchestrator-Workers(オーケストレーター–ワーカー)
親エージェントが動的にサブタスクを切り出し、複数のワーカーに割り振る Anthropic のパターン。
Evaluator-Optimizer(評価者–最適化者)
生成役と評価役を分け、フィードバックで反復改善するパターン。
Manager pattern(マネージャー型)
中央の司令塔エージェントが、他の専門エージェントを「ツールとして」呼び出す方式(OpenAI の整理)。
Handoff / Decentralized(ハンドオフ / 分散型)
専門エージェント同士が、担当に応じて制御を手渡し合う方式。
6. ハーネスの構成要素
CLAUDE.md / AGENTS.md(指示ファイル)
リポジトリに置き、エージェントに前提・規約・やり方を伝えるプロジェクト指示ファイル。ハーネスの代表的な部品。
Human-in-the-Loop / HITL(人間の確認)
重要な判断や、副作用のある操作の前に、人間のレビュー・承認を挟む設計。
Guides / Sensors(事前制御 / 事後制御)
Martin Fowler の整理。先回りして行動範囲を定めるのが Guides、逸脱を事後に検知して直すのが Sensors。ハーネスはこの 2 系統の組み合わせ。
Feedback Loop(フィードバックループ)
実行結果や検証結果をエージェントに戻し、次の行動を改善させる仕組み。
Evaluation Harness(評価ハーネス)/ lm-evaluation-harness
モデルを定型的に評価する枠組み。EleutherAI の lm-evaluation-harness(2020)が「harness」という語の出どころで、これがエージェント文脈に転用された。
7. ツール・製品・実装事例
Dify
ノーコード/ローコードで LLM アプリやワークフローを組めるプラットフォーム。元記事の LinkedIn 投稿生成エージェントはこれで構築した。
JSON Schema / strict mode
出力の構造(型・必須項目・追加プロパティの可否など)を定義する仕様。strict に寄せると、出力ノードの変数を 1 つずつ個別フィールドで参照し直す必要が出るなど、制約由来のハマりが生じる(=ハーネス側の問題)。
Temperature(温度パラメータ)
出力のランダムさを調整する値。高いと多様(元記事のドラフト生成は temp 0.7)、低いと安定(自己批評は temp 0.3)。
Codex(OpenAI)
OpenAI のコーディングエージェント。「Harness engineering」という言葉が広まる契機になった事例。
12 Factor Agents
Dex Horthy(HumanLayer)による、信頼できるエージェントを作るための原則集。「コンテキストを 4 割以上埋めると性能が落ちる」などの実践知で知られる。
関連リンク
- 元記事(note):「AIエージェント設計を支える3つのエンジニアリング:Prompt・Context・Harness」 https://note.com/ebe0911/n/n9ee5dbd40546
- Zenn:https://zenn.dev/ebe_ryuki
- X:https://x.com/EBE_Ryuki
クラウド × 生成AI × キャリアについて、実装ベースの知見を発信しています。間違いや補足があればコメントで指摘してもらえると嬉しいです。
