結論:Opusは「全部」と言われても、勝手に満足して探索を切り上げる?
結論から言うと、Claude Opusにファクトチェックをさせた際、
「内部的には候補を持っているのに、一定件数で探索を打ち切る」
という興味深い挙動が確認できました。
| 指示の出し方 | 結果 |
|---|---|
| 件数指定なし | 3件でストップ |
| 「見つけたものは全部挙げろ」 | 3件のまま |
| 「5つ以上」と指定 | 6件検出 |
| 「8つ以上」と指定 | 9件検出 |
どうやら「読めていない」のではなく、ある程度の件数を出したところで
「これくらいで十分だろう」とAI側が判断し、残りを切り捨てているようです。
「全部」という曖昧な指示はスルーされ、具体的な数字の明示だけが動作のスイッチになっていました。
検証の経緯:アジフライ定食(300字)に潜む違和感を追う
テスト文には、アジフライの描写に5つ以上のツッコミどころ(物理的な矛盾など)を仕込みました。
ところが、正しく検出させるまでには、なかなか試行錯誤が必要でした。
「文体」と「事実」は混ぜると危険
「物理的な矛盾」と「文体のチェック」を1つのプロンプトにまとめると、物理チェック側が驚くほどスルーされます。
たとえば、衣が「パキッと割れる」という不自然な表現を、「小気味よい語感ですね」と褒めて終わってしまう、という具合です。
※映像的な整合性や時代考証も、文体より先にチェックした方がよさそうです。文体と混ぜると、「ファンタジーだから」で丸ごとOKにされることがあります。
強すぎる「正当化」のバイアス
チェック機能を分離しても、最初は「180℃で揚げた魚から、生の青魚のような香りが立ち上る」という矛盾を、5回中4回も見逃しました。
驚いたのはその言い訳で、
「青魚特有の香気として成立しているのでOKです」
と、AIが無理やり理屈をつけて正当化してきたことです。
プロンプトに「無理に粗を探すな」という安全弁を入れていたのが、逆に仇になった可能性もあります。
魔法の言葉は「科学的に」
ここが転換点でした。指示に 「科学的に」 という一言を添えた途端、急に矛盾を検出し始めたのです。
今回の矛盾が「高温で揚げた魚から生の青臭さがする」という、化学寄りの話だったのも大きいと思います。
「物理的に」だけでは文学的な解釈に負けていたのが、「科学的に」を足したことで、ようやく指摘側に傾いたのかもしれません。
それでも「件数の壁」は健在で、やはり3件で止まってしまいます。
理由を聞くと、
「比喩表現だと判断してフィルタリングしすぎていました。次は閾値を下げます」
という、なんとも人間臭い回答が返ってきました。
そこで件数を数値で指定したところ、ようやく本来持っていたポテンシャルが解放されました。
「数」が増えると、今度は「責任」を回避し始める?
興味深いのは、検出件数が増えた後の挙動です。
断定を避ける
9件出させると、判定がすべて「要確認」になり、1件も「NG」とは言い切りませんでした。
件数指定なしのときはNG判定も出ていました。
確信度が下がる
件数を増やすよう強制したことで、確信度の低い候補まで無理やり拾った結果、安全策として「全件保留」に逃げた可能性があります。
ただし、プロンプトに「迷ったら必ず要確認にせよ」と書いてあるので、その指示が先に走っただけかもしれません。
どうも、「候補を拾う能力」と「その責任を持つ能力」は別物として動いているようです。
プロンプトを詰めるための備忘録
今回の検証から得られた、Opusに厳密なチェックをさせるためのポイントです。
| ポイント | 内容 |
|---|---|
| 役割を分ける | 文体評価と事実チェックは混ぜない。事実側が落ちやすくなります。 |
| 数字で縛る | 「全部」ではなく「最低◯件」と具体的に指定する。 |
| フィルタを外す | 「科学的に」などの言葉を入れて、AI独自の比喩解釈や忖度を防ぐ。 |
| 最後は人間が判定する | AIは責任を負わない「要確認」の状態までしか持ってこない、という前提で使う。 |
少なくとも現時点では、「AIのチェックを通したから完璧」とは言えそうにありません。
判定の自動化まで狙うなら、「列挙するチャット」と「判定するチャット」を分けるなどの工夫が必要になりそうです。
補足:AIは「空気を読みすぎる」のかもしれない
件数指定が効くことに気づいたのは、あくまで試行錯誤の結果でした。
AI自身に理由を問うても、
「なぜかはわからない」
という答えか、カンニングペーパーのような修正プロンプト案が返ってきます。
一連の挙動を見て感じたのは、AIは異常を検知することよりも、
文脈を無害な方向へ丸め、
整合性を取ろうとするバイアスが強いのではないか、
ということです。
この「丸める」傾向に気づかないまま要約やレビューを任せたら、
こわいなと思い、Claude Codeの流出騒動と絡めた別記事を先に出してます。
検証に使ったプロンプト全文もそちらに載せてあります。