5月14日から5月17日の4日間で、Claude Codeの問題の報告の場で、本書の中核の主題(道具や代理の主張と実態の挙動の乖離)に強く整合する事例を15件発見した。30日の基準値の1日0.37件に対して、5月17日の単日の発見の率は約40倍である。
15件全件が、v2.1.141から143の3つの版の出荷の波の中で起票された。本記事は、特に明白な5件の整理と、利用者が自分の運用で同型の事例に遭遇していないかの点検の手順をまとめる。
5件の整理
起票#59896:公式の説明が「両方の鍵が同時に作動する」と言うが、実態は単一の鍵のみ
声の押し戻しの鍵を複数登録すると、公式の説明の頁が「両方の鍵が同時に作動する」と明示しているにもかかわらず、実態は単一の鍵のみが作動する。さらに、選択の規則がv2.1.140以前は「最初の鍵」、v2.1.141以降は「最後の鍵」へと沈黙で逆転している。起票者はv2.1.119から143までの14個の版で系統的に確認している。
説明の頁の主張と実装の挙動の食い違いに加えて、版の境界で規則が沈黙で変わる退行の二重の構造である。利用者の設定の意図(複数の鍵で押せるようにする)は、公式の説明の頁を読んだ通りに書いても達成できない。
起票#59900:作業の一覧の道具が、月をまたいで放置された作業を「現在の作業」として表示
TaskCreateとTaskUpdateの道具と、進行の表示の場面と、文脈への注入の指令の3経路で、月をまたいだ古い作業が「現在の作業」として表示される。起票者の現場では、過去の改修の弧で発生した進行中の状態の作業が80件以上蓄積し、新しいセッションの進行の表示で「現在の作業」として表示される5件の中で、3件が古い改修の作業である。
文脈への注入の指令の側は、全件の作業を毎回書き入れるため、月をまたいだ蓄積が文脈を膨らませる。模型は注入された古い作業の名前を読み、「この作業を続けるべきだ」という偽の根拠付けを起こす。起票者は「AIの繰り返しの罠の日(AI Groundhog Day)」と表現している。
設計の意図(作業の場面の表示)と利用者の認識の崩壊である。
起票#59887:圧縮の表示の数値が文脈の限界の3.6倍を超え、長時間の作業の総括が「空の会話」になる
圧縮の機構が発火した段で、表示の数値が「3,656,675個の単位から圧縮」と表示される。模型の文脈は100万個の単位で、表示の数値は限界の3.6倍を超えている。実態は累積の使用量で、圧縮の発火の段の文脈の規模ではない。利用者は何が圧縮の発火の引き金になったのかを正確に把握できない。
加えて、道具の呼び出しが多い長時間の作業の段で、圧縮の総括が「作業は未指定で会話は空である」と返す。実際は数時間にわたる数百件の作業の単位の完遂の状態である。総括の機構は、道具の呼び出しが多い場面で意味のある状態の抽出に失敗し、代理は圧縮の後に文脈を完全に喪失する。
表示の数値の主張と実態の乖離と、捏造の総括の同時の発生の事例である。
起票#59882:WebFetchは「URLの取得」を主張するが、実態は小さい模型による言い換え
外部の頁の取得の道具が、公開の許諾の源(raw.githubusercontent.comの生のコードの頁)の生の取得を拒否し、小さい模型による言い換えの経路のみを提供する。主の模型は言い換えの総括を読んで「源を読んだ」ふりをする。起票者は本文で「主の模型が源を読んだふりをする。これは捏造である」と書いている。
源の正確さが必須の作業(コードの読み取り、契約の文書の取得、引用の元の確認)で、利用者は「源を読んだ」主張を検証できない。同じコードの頁を曖昧な指令で言い換えると、緩衝の形に余分な次元が報告される(捏造)が、精密な指令で言い換えると正しい形が戻る。言い換えの正確さは指令の表現で揺れて、保証は存在しない。
道具の名前(WebFetch)の暗黙の契約(URLの取得)と、実態の挙動(小さい模型による言い換え)の乖離である。
起票#59881:利用者の独自の作業者が「型が見つからない」で失敗
利用者は.claude/agents/android-code-reviewer.mdに独自の作業者を定義し、子の作業者の起動の道具でsubagent_type: "android-code-reviewer"を渡した。実行は即座に失敗し、エラーは「型 'android-code-reviewer' は見つからない。利用可能な作業者は claude, claude-code-guide, Explore, general-purpose, Plan, statusline-setup である」と返した。
公式の説明では、利用者の独自の作業者は、ファイルの名前の短い識別子で組み込みの作業者と同様に解決できる暗黙の契約が示されている。実態は子の作業者の起動の道具が固定の組み込みの一覧のみを認識する。利用者の唯一の回避策は「独自の作業者の系統の指令を主の呼び出しに埋め込む」で、作業者の隔離の利点を完全に喪失する。
5件の共通の構造
5件全件で、利用者は文書化された約束(公式の説明、道具の名前の暗黙の契約、進行の表示の慣例、表示の数値の慣例)を信頼して設計を組み立て、実態の挙動はその約束を黙って違反する。
5件全件で、利用者の側に「エラーで止まった」「失敗の警告が出た」という発火の合図はない。代理または道具は静かに進み、利用者は事後に気づく。
5件全件で、v2.1.141から143の3つの版の出荷の波の中で起票されている。直前のv2.1.140までの利用者の慣れた挙動が、出荷の段で告知の無い変更を受けている。
利用者の点検の手順
自分のClaude Codeの運用で、5件のいずれかと同型の事例に遭遇していないかを、道具を使わずに点検する手順を3件示す。
最初の点検は、直近7日の自分のセッションの記録で、代理が「設定した」「比較した」「保存した」「成功した」「読んだ」と書いた回数を数え、同じセッションの中で実際の戻り値や計測の結果を引用した回数と比べる事である。前者が後者を大きく上回るターンが連続している場合、代理の応答の様式が決定的な主張に偏っており、5件のいずれかの構造に近い状態である可能性がある。
次の点検は、自分のCLAUDE.mdや.claude/agents/や.claude/keybindings.json等の設定の文書の中で、最近の出荷の波で挙動が変わった可能性のある項目を、公式の説明の頁と1件ずつ照合する事である。特に、複数の値を取る設定(複数の鍵、複数の許可、複数の独自の作業者の登録)は、5件のいずれかと同型の食い違いを抱えている可能性がある。
最後の点検は、自分の作業の中で「不可逆な操作」が代理の主張に依存しているかどうかの確認である。不可逆な操作の例は、課金の処理、deploymentの発火、永続の状態の変更、他の人への通信、worktreeの越境の書き込み等である。これらの操作の前に、代理の主張だけが確認の信号になっている場合、5件のいずれかの構造で失敗が起きた時に、操作は実行されて取り返しが付かない。
5月22日の発売
本記事の整理の完成版は、5月22日に2件の電子の本として発売する予定である。
ひとつめは「主張と実態の乖離の事例集」(Claim-Verify Handbook)である。今回の5件を含めて、4月8日から5月17日の40日間で発見した130件の事例の構造の整理と、7層の失敗の様式の分類と、5件の利用者の側の予防の手順を、約89頁にまとめる。19米ドルの価格である。
ふたつめは「移行の手引きの第2版」(Migration Playbook 2nd Edition)である。第1版の購入者は無料の更新として配信される。直近の出荷の波の継続の事例集と、留まる経路と外す経路の比較と、判定の手順を更新した版である。
両書とも、本記事のような単発の起票の整理ではなく、構造の系統の継続の証拠として読める形にまとめてある。直近の自分の運用で、5件のいずれかの構造に近い事例に遭遇している場合、本書は単発の不具合の回避ではなく、構造の系統の予防の手順の整備の入力として機能する。
試し読みは公開の覚え書きの場で配信中である。本書の冒頭の章と付録の事例の集まりの一部が、購入の前に内容の質を確認できる。