0
0

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?

PEP検定まとめ⑥|第6章 AIエージェントとコンテキストエンジニアリング(日本語 / 中文)

0
Last updated at Posted at 2026-03-04

PEP検定の公式資料(全6章)を整理するシリーズです。
本記事では「第6章 AIエージェントとコンテキストエンジニアリング」の内容をまとめています。

本系列文章对 PEP检定 官方资料(共6章)进行整理总结。
本文主要整理「第6章 AI智能体与上下文工程」的内容。

1. 「答えるAI」から「働くAI」へ / 从"回答型AI"到"工作型AI"

💡 核心定义 / 核心定義:AIエージェント=目標を起点に、コンテキストを賢く組み立て、最小ツールで行動し、反省しながら仕事を完了するAI / AI智能体=以目标为起点,智慧地组建上下文,用最少工具行动,边反省边完成工作的AI

1-1. 応答型AIとの違い / 与响应型AI的区别

観点 / 角度 応答型AI / 响应型AI AIエージェント / AI智能体
起点 質問→回答 / 问题→回答 目標→タスク分解→実行→納品 / 目标→任务分解→执行→交付
ふるまい 受動的(入力を待つ)/ 被动(等待输入) 能動的(方針更新・継続実行)/ 能动(更新方针・持续执行)
外界作用 テキスト生成中心 / 以文本生成为主 ツール/API/DB/GUI操作 / 操作工具/API/数据库/GUI
記憶 直近履歴に依存 / 依赖近期历史 短期+長期メモリ/RAGで知識補給 / 短期+长期记忆/RAG知识补充
成果物 文章 / 文章 JSON・表・チケット・予約など「使える出力」/ JSON、表格、工单、预约等"可用输出"

💡 ポイント / 重点:差を生むのはコンテキストの設計(何をどの順で見せるか)とループ制御の有無 / 关键差异在于上下文设计(以何种顺序展示什么)和循环控制的有无


1-2. AIエージェントの主要コンポーネント / AI智能体的主要组件

コンポーネント / 组件 役割 / 作用
LLM 理解・推論を担う「頭脳」/ 负责理解和推理的"大脑"
ツール/API 検索・計算・データ登録・予約などを行う「手足」/ 负责搜索、计算、数据录入、预约等的"手脚"
メモリ/RAG 必要知識を補う「記憶/知覚」/ 补充必要知识的"记忆/感知"
出力仕様 「成果物」/ "交付物"

1-3. 実社会での価値とユースケース / 社会价值与使用案例

価値 / 价值 説明 / 说明
スループット向上 調査・転記・集計・定型レポートを継続処理 / 持续处理调查、转记、汇总、定型报告
リードタイム短縮 探索→判断→実行を一気通貫で実施 / 探索→判断→执行一贯执行
品質安定 出力スキーマや手順化によりばらつきを抑制 / 通过输出模式和程序化抑制波动
学習する運用 反省ループで手順と文脈が継続改善 / 通过反省循环持续改善流程和上下文
監査容易性 観測ログ・根拠を残して説明責任に対応 / 保留观测日志和依据以应对问责

ユースケース例 / 使用案例示例

  • レポート自動化:資料収集→要約→根拠付きレポ出力 / 报告自动化:资料收集→摘要→带依据报告输出
  • オペレーション連携:在庫確認→需要予測→発注API→ダッシュボード更新 / 运营联动:库存确认→需求预测→发单API→仪表盘更新
  • 会議アシスト:議事要約→ToDo抽出→チケット登録→進捗フォロー / 会议辅助:会议摘要→待办事项提取→工单登录→进度跟进
  • 旅行支援:候補提案→日程調整→予約→確認通知 / 旅行支援:候选提案→日程调整→预约→确认通知

2. PAORサイクル(エージェントの内部ループ)/ PAOR循环(智能体内部循环)

💡 最重要概念 / 最重要概念:エージェントはPAORサイクルを終了条件を満たすまで繰り返し、構造化された成果物を出力する / 智能体反复执行PAOR循环直到满足终止条件,输出结构化交付物

Plan(計画)→ Act(行動)→ Observe(観察)→ Reflect(反省)→ また Plan へ
      计划        行动             观察             反省     再次计划

2-1. 各フェーズの詳細と設計ポイント / 各阶段详情与设计要点

フェーズ / 阶段 内容 / 内容 設計ポイント / 设计要点
Plan(計画) 目標をサブタスクに分解し、順番と依存関係を決める / 将目标分解为子任务,确定顺序和依赖关系 目標から逆算しサブタスクと依存関係を列挙。各タスクに情報源(メモリ/RAG/ツール)と出力スキーマを紐づけ、終了条件を先に決める / 从目标逆推,列举子任务和依赖关系,提前确定终止条件
Act(行動) 必要最小限のツール(検索API・表計算APIなど)を選んで実行 / 选择必要最少的工具(搜索API・表格计算API等)执行 関数定義に沿い最小ツールを正しい引数で呼ぶ。類似ツールの重複は避け、戻り値はスキーマ検証→正規化。コスト・時間・権限の上限値でガード / 按函数定义用正确参数调用最小工具,避免重复类似工具,对返回值进行模式验证→规范化,用上限值防护成本、时间、权限
Observe(観察) 結果を正規化・要約して状態を更新 / 对结果进行规范化、摘要并更新状态 ツール結果を要約+正規化して短期メモリへ。次の判断で使うキーファクトに蒸留 / 将工具结果摘要+规范化存入短期记忆,蒸馏为下次判断使用的关键事实
Reflect(反省) 達成度とリスクを評価し、必要なら再計画 / 评估达成度和风险,必要时重新计划 観測と目標の差を評価し、再計画が必要か判定。成功基準充足や上限超過なら終了 / 评估观测与目标的差距,判断是否需要重新计划,满足成功标准或超过上限则结束

2-2. PAORと「認知・判断・実行」の対応 / PAOR与"认知・判断・执行"的对应

PAORフェーズ / PAOR阶段 認知サイクル / 认知循环 内容 / 内容
Plan 判断 タスク分解・方針立案+ツール選択(最小集合・正しい引数)+終了条件の確認 / 任务分解・方案制定+工具选择(最小集合・正确参数)+终止条件确认
Act 実行 関数/API呼び出し。実行は上限(回数・時間・コスト)や承認でガード / 函数/API调用,执行受上限(次数・时间・成本)和审批防护
Observe 認知 ツール結果や根拠を要約・正規化し、次ターンで参照しやすい状態に整える / 摘要规范化工具结果和依据,整理为便于下一轮参考的状态
Reflect 反省 再評価・再計画・終了判定。成功基準を満たす/予算超過なら停止 / 重新评估・重新计划・终止判定,满足成功标准或预算超支则停止

💡 ポイント / 重点:これらは動的アセンブリ(ターンごとに必要情報を再構成)という思想により安定化する / 这些通过动态组装(每轮重新构建必要信息)的理念实现稳定化


3. 状態管理(State)/ 状态管理(State)

💡 ポイント / 重点:エージェントの状態は「7+1」の要素で構成される。重要点は二度以上再掲してLost-in-the-Middleを防ぐ / 智能体的状态由"7+1"个要素构成,重要点需重复两次以上以防止Lost-in-the-Middle

要素(7+1)/ 要素(7+1) 内容 / 内容
システム指示 役割・禁止・トーン・安全ポリシーの短い定盤。冗長化は中央埋没の原因 / 角色、禁止事项、语气、安全策略的简短基准,冗长化会导致中央埋没
ゴール/制約/成功・終了条件 評価軸と打切り条件を数値で固定 / 将评价轴和截止条件用数值固定
短期メモリ 直近の観測・決定を段階要約しキーファクトに / 将近期观测和决定分阶段摘要为关键事实
長期メモリ 用語・ルール・過去決定。必要時のみRAGで参照 / 术语、规则、过去决定,仅在必要时用RAG检索
RAG結果 根拠付きで蒸留・配置(出所・日付を付与)/ 带依据蒸馏・配置(附上来源・日期)
ツール定義 最小集合、引数と戻り値のスキーマ明確化 / 最小集合,明确参数和返回值的模式
出力仕様 JSON/表の検証条件・例を近接配置 / 将JSON/表的验证条件和示例近接配置
安全ガード(+1) 承認ゲート、回数・コスト上限、権限境界、監査ログ / 审批门控、次数・成本上限、权限边界、审计日志

4. コンテキストエンジニアリング / 上下文工程

4-1. 定義と目的 / 定义与目的

日本語:コンテキストエンジニアリングとは、生成AIモデルが回答や行動を生成する際に参照するあらゆる情報(システム指示/ユーザ入力/短期・長期メモリ/取得知識(RAG)/ツール定義/出力仕様など)を、目的に合わせて動的に組み立てる上位設計。単発の指示文(プロンプト)を磨くのではなく、必要情報の収集・圧縮(蒸留)・配置によって、常に"今必要な文脈"を供給し、PAORの自律ループを安定稼働させることが役割。

中文:上下文工程是指在生成AI模型生成回答或行动时,将所有参考信息(系统指示/用户输入/短期・长期记忆/获取知识(RAG)/工具定义/输出规格等)根据目的动态组建的高层设计。其角色不是打磨单次指示词(提示词),而是通过收集、压缩(蒸馏)、配置必要信息,持续供应"当前所需上下文",使PAOR自律循环稳定运行。

💡 重要 / 重要:「生成AIモデルが"読む全て"の設計=コンテキストエンジニアリング」。この設計が、応答型AIを"働くエージェント"へ拡張する土台 / "生成AI模型读取的全部内容"的设计=上下文工程,这一设计是将响应型AI扩展为"工作型智能体"的基础


4-2. 階層配置の原則(推奨順)/ 层级配置原则(推荐顺序)

⚠️ 重要 / 重要:先頭に"方針"、中段に"根拠・手段"、末尾に"契約(出力・ガード)"。重要点は先頭・末尾・再掲で注意を固定する / 开头放"方针",中段放"依据・手段",末尾放"约定(输出・防护)",重要点在开头・末尾・重复以固定注意力

順位 / 顺序 要素 / 要素 説明 / 说明
1 System/禁止事項 役割・禁止・トーン / 角色・禁止・语气
2 ゴール/制約/成功・終了条件 評価軸と打切り条件を数値で / 用数值确定评价轴和截止条件
3 短期メモリの要約(キーファクト)+長期メモリ前提 直近観測の段階要約 / 近期观测的阶段摘要
4 RAG蒸留結果(根拠+出所) 信頼度・関連度でフィルタした断片を蒸留 / 按可信度・关联度筛选片段并蒸馏
5 有効ツール(最小)と引数スキーマ 最小集合、引数・戻り値をJSON Schemaで厳密化 / 最小集合,用JSON Schema严格化参数・返回值
6 出力仕様(JSON/表・検証条件) 検証条件・例を近接配置 / 将验证条件和示例近接配置
7 安全ガード(回数/コスト/HITL) 承認ゲート・上限・監査ログ / 审批门控・上限・审计日志

4-3. 設計原則(最小で強い文脈を作る)/ 设计原则(创建最小且强大的上下文)

原則 / 原则 内容 / 内容
目的から逆算 最初にタスク定義(目標/制約/成果物/終了条件)を決める / 首先确定任务定义(目标/约束/交付物/终止条件)
必要十分な情報だけ 長期メモリ範囲、RAG対象、最小ツール集合を先に確定 / 提前确定长期记忆范围、RAG对象、最小工具集合
蒸留→配置 取得情報は蒸留(要点抽出)してから、優先度順に配置。重要情報は強調配置(冒頭/末尾/再掲)/ 对获取信息进行蒸馏(要点提取)后按优先度配置,重要信息强调配置(开头/末尾/重复)
ツールは最小化/スキーマ明確化 似機能ツールを統合し、引数・戻り値を厳格化して誤選択を抑制 / 整合类似功能工具,严格化参数和返回值以抑制误选择
評価ループを前提に 根拠率・ツール成功率・ハルシネーション率・コストを継続測定し、検索閾値や配置を調整 / 持续测定依据率・工具成功率・幻觉率・成本,调整检索阈值和配置

💡 中核パターン / 核心模式:「目的→情報源→蒸留→強調配置→最小ツール→評価で回す」/ "目的→信息源→蒸馏→强调配置→最小工具→评估循环"


4-4. 履歴管理(短期×長期×RAGの役割分担)/ 历史管理(短期×长期×RAG的角色分工)

種類 / 种类 内容 / 内容 運用ポイント / 运用要点
短期メモリ 直近の状態・結果を段階要約で軽量化 / 通过阶段摘要将近期状态和结果轻量化 重要点は二度以上再掲 / 重要点重复两次以上
長期メモリ エンティティ別(顧客/製品/案件など)に整理 / 按实体(客户/产品/案件等)整理 必要時だけRAGで検索 / 仅在必要时用RAG检索
RAG 信頼度・関連度でフィルタした断片を蒸留 / 按可信度・关联度筛选片段并蒸馏 先頭・末尾に配置 / 配置在开头和末尾

5. 6つのキーワード / 6个关键词

📌 試験頻出 / 考试高频:この6つは必ず覚えること / 这6个概念务必牢记

キーワード / 关键词 説明 / 说明 対策 / 对策
Lost-in-the-Middle 長いコンテキストの中央付近にある重要情報が無視されやすい現象 / 长上下文中间部分的重要信息容易被忽视的现象 強調配置と段階要約 / 强调配置和阶段摘要
ハルシネーション もっともらしいが根拠のない内容を出してしまう / 输出看似合理但无依据的内容 RAGで根拠文書を取り込み、低温度で自由度を管理 / 用RAG引入依据文档,用低温度管理自由度
重要情報の蒸留 長い文脈から意思決定に必要な最小の事実・制約・評価軸だけを抽出して短く再構成 / 从长上下文中提取决策所需的最小事实、约束、评价轴并简短重构
強調配置 モデルが最も読める位置に重要情報を置く設計。冒頭に最重要、同一表現で末尾再掲 / 将重要信息放在模型最易读取的位置,开头放最重要内容,末尾用相同表达重复
段階要約 長文を複数段階で圧縮し、階層的に要点を残す手法 / 将长文分多个阶段压缩,分层保留要点的方法
安全ガード 誤作動・越権・情報漏えいを避けるための技術的/運用的な防波堤 / 避免误操作、越权、信息泄露的技术性/运营性防护堤

6. ツール呼び出しと関数設計(Function Calling)/ 工具调用与函数设计(Function Calling)

💡 ポイント / 重点:ツールはPAORにおいて"Act"を担う標準インターフェース。最小・厳格・安全が安定性と再現性を生む / 工具是PAOR中负责"Act"的标准接口,最小化・严格・安全产生稳定性和可重现性

6-1. 設計の5箇条(原則)/ 设计五原则

原則 / 原则 内容 / 内容
目的逆算 成果物から必要行為だけを抽出し、ツールを目的駆動で定義 / 从交付物中提取必要行为,目的驱动地定义工具
単一責任(SRP) 1ツール=1動詞(検索/計算/登録)。複合機能は分割 / 1工具=1动词(搜索/计算/注册),复合功能需拆分
明確なスキーマ 引数・戻り値をJSON Schemaで厳密化(型/必須/enum/範囲)。例は近接配置 / 用JSON Schema严格化参数・返回值(类型/必须/枚举/范围),示例近接配置
決定性の確保 同じ入力→同じ出力(idempotency、バージョン、TZ、並び順)/ 相同输入→相同输出(幂等性、版本、时区、排序)
安全・監査 権限境界、回数/コスト上限、HITL承認、匿名化ログを標準化 / 权限边界、次数/成本上限、HITL审批、匿名化日志标准化

6-2. ツールスキーマ設計(引数・戻り値)/ 工具模式设计(参数・返回值)

項目 / 项目 内容 / 内容
引数 必須フィールド・型・範囲・enumを明文化(例を近接配置)。自由テキスト乱用を避ける / 明文化必填字段、类型、范围、枚举(示例近接配置),避免滥用自由文本
戻り値 構造化を必須にし、ok/error_code/error_message等の標準エラー、必要に応じてpreview_urlを返す / 必须结构化,返回ok/error_code/error_message等标准错误,按需返回preview_url
決定性の担保 idempotency_keyやsimulateフラグを持たせ、誤多重実行や副作用を抑止 / 设置idempotency_key和simulate标志,抑制误重复执行和副作用

6-3. エラーハンドリング(標準化と再試行)/ 错误处理(标准化与重试)

標準エラー処理フロー / 标准错误处理流程

Tool Execution Result(ツール実行結果 / 工具执行结果)
        ↓
  ok=false かつ error_code を確認
        ↓
Classify & Record(分類・記録 / 分类・记录)
 Input / Connection / Permission / Logic
        ↓
Retry Policy(再試行方針 / 重试方针)
 指数バックオフ+最大回数 / 指数退避+最大次数
        ↓
Return Error(エラー返却 / 返回错误)
 error_code と retry 可否を送信 / 发送error_code和是否可重试
  • 標準エラー:ok=falseとerror_codeを返し、再試行可否を判別。出所・コスト・レイテンシは観測ログへ格納 / 返回ok=false和error_code,判断是否可重试,将来源・成本・延迟存入观测日志
  • 再試行方針:指数バックオフ+最大回数。失敗要因は(入力不備/接続/権限/論理)で分類し短期メモリへ記録、Reflectで再計画に反映 / 指数退避+最大次数,按(输入不备/连接/权限/逻辑)分类失败原因并记录到短期记忆,在Reflect中反映到重新计划

6-4. セキュリティ考慮(プロンプトインジェクション/データ保護)/ 安全考量(提示词注入/数据保护)

層 / 层 対策 / 对策
方針層 外部文の命令は無視/引用のみ / 忽略外部文本的命令,仅引用
入力層 sanitize、危険語検知で隔離 / 清理(sanitize)、危险词检测隔离
選択層 Allowlistドメイン、MIME/URL正規化 / Allowlist域名,MIME/URL规范化
実行層 simulate=true→HITL→本実行、idempotency / simulate=true→HITL→正式执行,幂等性
監査層 根拠スニペット+出所・日付ログ / 依据片段+来源・日期日志

⚠️ アンチパターン(避けるべき設計)/ 反模式(应避免的设计)

  • 似た機能のツールを乱立→統合+フィルタで表現 / 大量建立类似功能工具→用统合+筛选表达
  • 自由テキスト引数の多用→型・範囲・enumで拘束 / 大量使用自由文本参数→用类型・范围・枚举约束
  • 文章だけの戻り値→構造化を必須に / 仅文字的返回值→必须结构化
  • 外部の命令文を無検証で実行→allowlistと正規化で遮断 / 无验证执行外部命令→用allowlist和规范化拦截

6-5. 実装前チェックリスト / 实施前检查清单

  • 1ツール=1動詞、重複は統合済みか / 1工具=1动词,重复已整合?
  • 引数は最小+JSON Schemaで型/範囲/必須を定義しているか / 参数是否用JSON Schema定义了类型/范围/必须字段?
  • 戻り値は構造化(データ+メタ+標準エラー)か / 返回值是否结构化(数据+元数据+标准错误)?
  • Read/Write分離とHITLガードはあるか / 是否有读/写分离和HITL防护?
  • 終了条件・上限・simulateが設定されているか / 是否设置了终止条件、上限、simulate?

7. 品質評価手法 / 质量评价方法

💡 ポイント / 重点:「測る→直す」をループ化。根拠率が低ければRAGの閾値やコーパスを見直し、中央埋没が多ければ強調配置と段階要約を強化する / "测量→修正"循环化,根据率低则重新审视RAG阈值和语料库,中央埋没多则强化强调配置和阶段摘要

評価指標 / 评价指标 内容 / 内容
計画妥当性 サブタスク網羅率、依存破綻率 / 子任务覆盖率、依赖破绽率
行動品質 ツール成功率、再試行率、平均所要時間 / 工具成功率、重试率、平均所需时间
知識品質 RAG根拠率、ハルシネーション検出率 / RAG依据率、幻觉检出率
コンテキスト効率 トークン/ターン、蒸留率、中央埋没(Lost-in-the-Middle)の有無 / 令牌/轮次、蒸馏率、中央埋没(Lost-in-the-Middle)的有无
成果物適合 出力スキーマ準拠率、HITL修正量 / 输出模式合规率、HITL修正量

これらをReflectの材料としてログ化し、次ループのコンテキスト組立とツール選択に反映する / 将这些作为Reflect的素材进行日志化,并反映到下一轮的上下文组建和工具选择中


8. 片假名用語まとめ / 片假名术语汇总

📌 試験頻出カタカナ用語 / 考试高频片假名术语

カタカナ 読み方 中文解释
エージェント agent 智能体:能自主规划、执行、观察、改善并完成任务的AI软件
コンテキストエンジニアリング context engineering 上下文工程:将AI生成所需的全部信息动态组建的高层设计技术
コンテキストウィンドウ context window 上下文窗口:AI模型在单次处理中能参考的最大信息量范围
PAOR Plan-Act-Observe-Reflect PAOR循环:AI智能体的自律循环机制,由计划、行动、观察、反省4个阶段构成
プランニング planning 规划:将目标分解为子任务并确定执行顺序和依赖关系的过程
ループ制御 loop control 循环控制:控制AI智能体何时继续循环、何时停止的机制
状態管理(ステート) state management 状态管理:智能体在执行过程中维护和更新信息的机制
動的アセンブリ dynamic assembly 动态组装:每轮根据当前需要重新构建上下文信息的设计方针
Lost-in-the-Middle Lost-in-the-Middle 中间迷失:长上下文中中间位置的重要信息容易被模型忽视的现象
強調配置 emphasis placement 强调配置:将重要信息放置在开头/末尾并重复以提高模型注意力的技术
蒸留 distillation 蒸馏:从大量信息中提取关键事实压缩为简短形式的处理方法
段階要約 hierarchical summarization 阶段摘要:将长文本分多阶段压缩、分层保留要点的摘要方法
安全ガード safety guard 安全防护:防止AI误操作、越权、信息泄露的技术和运营防护机制
Function Calling Function Calling 函数调用:LLM选择适当工具并以正确参数执行的机能(即Tool Calling)
Tool Calling Tool Calling 工具调用:与Function Calling同义,LLM调用外部工具的标准接口
HITL Human-in-the-Loop 人在回路:在AI执行高风险操作前需要人类确认和审批的机制
アイデンポテンシー(idempotency) idempotency 幂等性:相同输入始终产生相同输出,防止重复执行产生副作用的设计原则
サニタイズ(sanitize) sanitize 清理:对用户输入进行危险内容检测和净化处理以防止注入攻击
アローリスト(allowlist) allowlist 白名单:只允许预先批准的域名、操作或输入通过的安全控制列表
プロンプトインジェクション prompt injection 提示词注入:通过外部文本恶意操纵AI指令使其执行非预期行为的攻击手法
シミュレート(simulate) simulate 模拟执行:在正式执行前以simulate=true进行测试执行以确认安全性
エクスポネンシャルバックオフ exponential backoff 指数退避:重试时按指数级延长等待时间以避免系统过载的重试策略
スループット throughput 吞吐量:单位时间内AI智能体能处理完成的任务数量
リードタイム lead time 前置时间:从任务开始到完成交付所需的时间
スキーマ schema 模式/架构:定义数据结构、类型、约束条件的规范(如JSON Schema)
エンティティ entity 实体:在数据管理中具有独立身份的对象(如客户、产品、案件)
キーファクト key fact 关键事实:从大量信息中提取的对决策最重要的核心事实
ハルシネーション hallucination 幻觉:AI生成看似合理但实际无依据的错误信息的现象
トークン token 令牌:AI模型处理文本的基本单位,影响上下文窗口容量和处理成本
0
0
0

Register as a new user and use Qiita more conveniently

  1. You get articles that match your needs
  2. You can efficiently read back useful information
  3. You can use dark theme
What you can do with signing up
0
0

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?