長時間AIエージェントを放置しないためのRunbook：Memory・Model・Remote承認の実装チェックリスト

Last updated at 2026-05-27Posted at 2026-05-27

AIエージェントは「1回のチャットで補助する道具」から、長時間動き、複数画面をまたぎ、記憶を保持し、途中で人間の承認を待つ実行主体へ変わりつつあります。

2026年5月下旬の英語圏一次情報では、GitHub Copilot Memoryのスコープ制御、Copilot model rules、Anthropicのagent containment、OpenAI CodexのGoal modeとlocked computer use、GitHub Copilot remote control、Google DeepMindのmulti-agent research workflowが同じ方向を示しています。

この記事では、ニュースで確認できる事実と、そこから導く実務上の設計判断を分けながら、長時間AIエージェントを本番・業務環境で使う前に作るべき Runbook を整理します。

結論

長時間AIエージェントは、プロンプトを詳しくするだけでは安全に運用できません。最低限、次のRunbookを先に作ります。

Runbook項目	決めること	失敗すると起きること
Memory Scope	user / repo / org / sessionのどこに記憶するか	個人の好みとリポジトリ事実が混ざる
Model Route	組織・用途・データ分類ごとに許可モデルを固定する	高リスク作業に未承認モデルが使われる
Runtime Boundary	file / network / credential / session stateを分ける	長時間作業の副作用が追えない
Remote Approval	途中承認、方針変更、停止条件を定義する	離席中に危険操作が進む
Multi-agent Review	生成・批評・順位付け・最終判断を分離する	sub-agent出力を過信して誤判断する
Evidence Log	入力、tool call、承認、差分、結果を保存する	事故後に説明できない

一言でいうと、長時間AIエージェント運用の中心は、「任せるタスク」ではなく「止め方・忘れ方・モデル選び・途中承認の記録」 です。

1. GitHub: Memoryは「便利な記憶」ではなくスコープ付き設定として扱う

確認できる事実

GitHubは2026年5月26日、Copilot Memoryに削除、repository-level off switch、Copilot CLIの/memory、保存時スコープ表示などの制御を追加したと発表しました。

原文: "Clearer scope at capture time"
日本語訳: 記憶を保存する時点で、より明確なスコープを示します。
引用元: Copilot Memory has more controls for deletion, scope, and the Copilot CLI

同記事では、保存対象がuser-level preferenceなのかrepository-level factなのかをpermission promptで明示する、と説明されています。

実務解釈

Memoryは「AIが賢くなる機能」ではなく、永続化される設定データ として扱うべきです。特に、次の混同が危険です。

混ぜてはいけないもの	理由
個人の好み	他のメンバーへ伝播するとレビュー方針が歪む
リポジトリ固有の事実	個人memoryに入るとチームで再現できない
一時的な障害対応メモ	長期memoryに残ると古い回避策が使われ続ける
秘密情報や顧客固有情報	削除・監査・共有範囲の問題になる

Runbookには、次のようにMemoryの分類を明記します。

agent_memory_policy:
  user_level:
    allowed:
      - preferred_review_style
      - preferred_language
    denied:
      - customer_names
      - credentials
      - incident_details
  repository_level:
    allowed:
      - build_command
      - test_command
      - architectural_constraints
    denied:
      - temporary_hotfix_notes
      - personal_workarounds
  session_level:
    allowed:
      - current_task_assumptions
      - temporary_research_notes
    retention: delete_after_task_close

2. GitHub: モデル選択は開発者の好みではなく組織ルールにする

確認できる事実

GitHubは2026年5月26日、Copilot Business / Enterprise向けに、組織ごとに利用可能なCopilot modelを制御できるtargeted model rulesをpublic previewとして発表しました。

原文: "fine-grained control beyond enterprise-wide defaults"
日本語訳: enterprise全体のデフォルトを超えた細かな制御。
引用元: Target Copilot models to organizations with model rules

実務解釈

長時間AIエージェントでは、モデル選択が成果物の品質、コスト、データ境界、説明責任に直結します。個人がその場でモデルを選ぶ運用ではなく、用途ごとのmodel routeを固定します。

model_route_policy:
  default:
    allowed_models:
      - approved_general_coding_model
    data_classification: internal
  security_review:
    allowed_models:
      - approved_security_review_model
    require_human_reviewer: true
    allow_external_context: false
  customer_data_task:
    allowed_models:
      - approved_enterprise_model
    require_redaction: true
    log_retention_days: 90
  blocked:
    - unapproved_preview_model_for_customer_data
    - personal_account_model_for_company_repo

重要なのは、モデルを「性能ランキング」で選ばないことです。業務では、精度だけでなく、データ取り扱い、監査ログ、コスト上限、契約条件、障害時の切り戻しもモデル選定条件になります。

3. Anthropic: 長時間agentのリスクはblast radiusを小さくする設計で抑える

確認できる事実

Anthropicは2026年5月25日、Claude across productsのcontainment設計について、agentの能力とアクセス範囲が広がるほどblast radiusを抑える設計が重要になると説明しました。

原文: "how to cap the blast radius"
日本語訳: 影響範囲をどう上限づけるか。
引用元: How we contain Claude across products

同記事では、永続memory、CLAUDE.md、mounted workspace、scheduled / long-running agentsのstate directoriesなど、sessionをまたいで残るcontextが増えることで、persistent memory poisoningのリスクが増えるとも説明されています。

実務解釈

長時間agentは、1回のtool callよりも、残った状態が次回起動時に再読込されること が危険です。

Runbookでは、agentのstateを次の4種類に分けます。

State分類	例	扱い
Ephemeral	現在の推論メモ、探索ログ	session終了時に破棄
Reviewable	diff、test result、根拠URL	PRまたは監査ログへ保存
Shared memory	repo規約、build command	owner承認後に保存
Toxic / untrusted	外部Web、issue本文、顧客入力	agent contextへ直入れしない

特に、外部入力から得た文字列をそのままmemoryや設定ファイルに保存するのは避けます。保存前に、次の検査を通します。

state_persistence_gate:
  before_write:
    - classify_source_trust
    - redact_sensitive_data
    - detect_prompt_injection
    - require_owner_for_shared_memory
  startup:
    - scan_persistent_state
    - show_loaded_memory_summary
    - allow_operator_to_disable_memory

4. OpenAI: 長時間作業にはGoalと終了条件が必要になる

確認できる事実

OpenAIは2026年5月21日のChatGPT Release Notesで、CodexのAppshots、Goal mode、browser annotations、locked computer use、browser use improvementsを発表しました。

原文: "keep longer tasks moving"
日本語訳: より長いタスクを進め続ける。
引用元: ChatGPT - Release Notes

同リリースでは、Goal modeで結果と成功条件を定義し、Codex app / IDE extension / CLIで使えるようになったことも説明されています。

実務解釈

長時間agentには「何をしてほしいか」だけでなく、いつ止まるべきか を渡す必要があります。

agent_goal_contract:
  objective: "依存ライブラリ更新の影響を調査し、必要最小限の修正案を作る"
  success_criteria:
    - affected_packages_identified
    - tests_run_or_blocker_reported
    - no_unrelated_files_modified
    - human_review_ready_summary_created
  stop_conditions:
    - credential_required
    - destructive_command_needed
    - production_write_needed
    - more_than_3_failed_attempts_same_error
  forbidden:
    - git_reset_hard
    - publish_or_deploy
    - edit_unrelated_files

この契約がないと、agentは「進め続ける」ことを成功と誤解します。業務運用では、進める能力と同じくらい、停止・保留・人間確認へ戻す能力が重要です。

5. GitHub: Remote controlは便利だが、承認ログ設計が必要になる

確認できる事実

GitHubは2026年5月18日、Copilot CLI sessionのremote controlがGitHub.comとGitHub Mobileで一般提供になったと発表しました。

原文: "Approve or deny permission requests"
日本語訳: 権限リクエストを承認または拒否できます。
引用元: Take your local GitHub sessions anywhere

記事では、CLIやIDEで開始したsessionをwebやmobileで監視し、進行中に追加指示を出し、実装計画や差分を確認できると説明されています。

実務解釈

Remote controlは、離席中でも作業を止めないために有効です。一方で、承認がチャット感覚になると、あとから「誰が何を許可したか」が曖昧になります。

Runbookでは、remote承認を次のように分類します。

承認種別	例	必須ログ
Read approval	private repoの読み取り、ログ確認	対象path、理由、承認者
Write approval	ファイル編集、設定変更	diff、対象branch、rollback方法
External action	API write、メール送信、Gist作成	endpoint、payload summary、再実行可否
Irreversible action	publish、deploy、delete、billing	原則agent禁止、人間が別経路で実行

承認ログは、agent UIだけに閉じず、Issue、PR、監査台帳、ticketなど、チームが後から検索できる場所にも残すべきです。

6. Google DeepMind: multi-agentは「議論」ではなくレビュー工程として設計する

確認できる事実

Google DeepMindは2026年5月19日、Co-Scientistを、Geminiを用いたmulti-agent AI systemとして紹介しました。

原文: "iteratively generates, debates, and evolves"
日本語訳: 反復的に生成し、議論し、進化させます。
引用元: Co-Scientist: A multi-agent AI partner to accelerate research

同記事では、generation agent、reflection agent、ranking agent、evolution agent、meta-review agentなどの役割が説明されています。

実務解釈

multi-agentを導入するなら、「複数agentが頑張る」ではなく、レビュー工程として設計します。

multi_agent_review_flow:
  generator:
    role: draft_options
    output: candidates
  critic:
    role: find_risks
    output: risk_list
  verifier:
    role: check_sources_and_tests
    output: evidence_table
  ranker:
    role: compare_tradeoffs
    output: ranked_options
  human_owner:
    role: final_decision
    output: accepted_plan

ここで危険なのは、sub-agentの出力を「内部から来たから信頼できる」と扱うことです。外部Web、顧客入力、issue本文、ログ断片を読んだsub-agentの出力は、構造化されていても元の信頼度を引き継ぎます。

実装チェックリスト

長時間AIエージェントを導入する前に、次のチェックリストを埋めます。

Memory

user-level memoryとrepository-level memoryの違いを明文化した
memory保存時にsource、owner、retention、削除方法を記録する
外部入力から得た文字列をshared memoryへ直保存しない
memoryを無効化する手順をRunbookに載せた

Model

組織・リポジトリ・データ分類ごとの許可モデルを定義した
preview modelをcustomer data taskで使わない
高リスク作業ではhuman reviewerを必須にした
model変更時の差分検証項目を決めた

Runtime

file scope、network allowlist、credential scopeを分けた
session終了時に破棄するstateを決めた
永続stateの起動時scanを入れた
destructive commandはagentから実行しない

Remote approval

remote承認の種類をread / write / external / irreversibleで分けた
承認者、理由、対象、payload summaryを記録する
publish / deploy / delete / billingは別経路の人間承認にした
同じエラーが続いたら停止する条件を入れた

Multi-agent

generator、critic、verifier、ranker、human ownerを分けた
sub-agent出力に元データのtrust levelを添付する
最終判断をagent同士の多数決にしない
evidence tableなしの提案を採用しない

失敗パターン

1. Memoryに「一時対応」を保存してしまう

障害対応中の回避策をrepository memoryに保存すると、数週間後にもagentが古い制約として扱う可能性があります。一時対応はsession logまたはincident ticketに残し、shared memoryには昇格させません。

2. モデルを個人の好みで切り替える

高性能モデルを使えばよい、という判断は業務では不十分です。顧客データ、契約条件、ログ保持、コスト上限、監査要件でmodel routeを決めます。

3. Remote承認を「OKです」だけで済ませる

remote controlでは、短い承認が増えます。承認メッセージだけでなく、対象操作、差分、payload summary、rollback方法を記録しないと、後から説明できません。

4. Sub-agentの出力を高信頼扱いする

sub-agentが外部Webやissue本文を読んで要約した場合、その出力は「内部agentの発言」ではなく「外部入力を加工したもの」です。trust levelを上げず、verifierを通します。

そのまま使えるRunbookテンプレート

long_running_agent_runbook:
  owner: platform-ai-team
  applies_to:
    - coding_agent
    - research_agent
    - browser_agent
  memory:
    default: session_only
    repo_memory_requires_owner_approval: true
    delete_path_documented: true
  model:
    route_by:
      - organization
      - repository
      - data_classification
      - task_risk
    preview_models_for_customer_data: denied
  runtime:
    filesystem:
      default: workspace_only
      deny:
        - secrets
        - production_exports
    network:
      default: deny
      allowlist:
        - api.github.com
        - approved_docs_domains
    credentials:
      token_scope: per_session
      revocable: true
  approval:
    read: log_only
    write: human_required
    external_action: human_required_with_payload_summary
    irreversible: agent_forbidden
  stop_conditions:
    - missing_credential
    - destructive_command_needed
    - repeated_same_failure_3_times
    - source_fact_unverified
  evidence:
    required:
      - sources
      - tool_calls
      - diffs
      - tests_or_blockers
      - approvals

まとめ

直近のAIニュースを見ると、エージェントは「長く動ける」「記憶できる」「遠隔で承認できる」「複数agentで考えられる」方向へ進んでいます。

その進化に合わせて、運用側も変える必要があります。今すぐ作るべきなのは、魔法のプロンプトではありません。

Memoryの保存範囲、モデルの許可ルール、実行環境の境界、remote承認ログ、multi-agentレビュー工程をまとめたRunbook です。

長時間AIエージェントは、放置してよい自動化ではなく、止め方まで設計された実行基盤として扱うべきです。

参考リンク

この記事を書いた人✏️@YushiYamamoto
ITPRODX.com代表 / AIアーキテクト
Next.js / TypeScript / n8nを活用した自律型アーキテクチャ設計を専門としています。
日々の自動化の検証結果や、ビジネス側の視点（ROI等）に関するより深い考察は、以下の公式サイトおよびnoteで発信しています。

You get articles that match your needs
You can efficiently read back useful information
You can use dark theme

What you can do with signing up