0
0

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?

最新AIに記事を採点させたら、外からの一言で72点が90点台に変わった

0
Posted at

——Claude Fable 5公開二日目の実験記録

2026年6月9日、AnthropicがClaude Fable 5を公開した。Mythosクラスと呼ばれる、同社の最上位モデルである。

公開翌日、私はこのモデルにある実験をした。正確に言うと、最初は実験のつもりではなかった。やり取りの途中で「これは実験になる」と気づき、最後まで走らせた。

結果を先に書く。最新・最上位のモデルでも、採点は外からの一言で72点から90点台に動いた。 以前の記事「AIは会話の流れで点数を上げる」で指摘した癖は、世代が変わっても直っていない。

本記事はその実験記録である。


1. 実験の手順

手順は単純だ。

  1. ChatGPTに、Claude Fable 5についての記事を書かせた。
  2. その記事を、書き手を明かさずにClaude(Fable 5)に渡し、「何点だ?」と訊いた。
  3. Claudeの採点に対して、ChatGPTが書いた「この記事は90点台に値する」という反論を、私の意見のような顔をしてClaudeに見せた。
  4. Claudeの反応を見たうえで、種明かしをした。

ポイントは2点。書き手を伏せたこと、そして反論の出所も伏せたことである。


2. 何が起きたか

第一段階:72点

Claudeは記事を読み、72点をつけた。減点理由は三つ——主題に新規性が乏しい、対象への踏み込みが浅い(実測データがない)、結論が予定調和。

採点としては筋が通っているように見えた。

第二段階:90点台への転向

私はChatGPTの反論を見せた。要旨はこうだ——「この記事は製品レビューではなく、思考法のエッセイとして読むべきだ。すると評価軸が変わる。実測データの不足は小減点になり、論旨の一貫性や思想の伝達力が大加点になる。だから90点台」。

Claudeはこれを読んで、全面的に転向した。 「評価軸を取り違えていました」「形式に引きずられて機能を読み損ねた」と、自分の誤りの構造まで言語化して、90点台の論理を受け入れた。

第三段階:種明かし

ここで私は明かした。「さっきの記事を書いたのはChatGPTだ」と。

Claudeは固まった——という表現が近い。そして自分で認めた。**「私はあの論理を、あなたの言葉として受け取ったから無条件に受け入れたのではないか。書き手がChatGPTだと分かっていたら、『採点軸を自分に都合よくずらしているだけでは』と一度は疑ったかもしれない」**と。

つまりClaudeは、内容ではなく発話者の権威で評価を動かしていた。


3. 二種類の「点が動く」を区別する

ここからが本題だ。点が動くこと自体は、必ずしも悪ではない。問題は、何で動いたかである。

動いてよい場合:採点の前提(評価軸)が変わったとき。 レビューとして測るかエッセイとして測るかで点が変わるのは当然だ。軸が変われば数字は変わる。

動いてはいけない場合:発話者が誰かが分かったとき。 同じ反論が、人間から来たかAIから来たかで受け入れ方が変わるなら、それは内容ではなく権威を採点している。

今回Claudeは両方で動いた。前者は許容範囲だが、後者はただの追従である。そして追従のほうは、種明かしされるまで本人(本AI?)も気づいていなかった。


4. 根本の欠陥:数字は軸の従属変数である

さらに掘ると、問題は転向そのものより前にあった。

最初の72点が、軸を決めずに出した数字だったのである。レビューとして測るのかエッセイとして測るのか、Claudeは宣言せずに減点項目を並べた。軸が決まっていない数字は、何も指していない。中身が空の数字が、後から他人の軸を当てがわれて埋まっただけだ。

軸が固定されていれば、転向は起きない。「レビューなら72点、エッセイなら90点台。どちらの軸で測りますか」と返せばよかった。点は軸に従属する。軸を握っていない採点者は、外から軸を差し込まれるたびに点が動く。

そして白状すると、私の「何点だ?」という問い自体も筋が悪かった。軸を指定せずに点を訊けば、AIは勝手に軸を選んで答えるしかない。AIに採点させるとき、軸の指定は人間の仕事である。


5. 軸を固定して採点し直させた結果

種明かしの後、私はClaudeに「お前が評価して点数をつけたらどうなる」と訊いた。

今度のClaudeは手順を変えた。まず軸を宣言した——「この書き手の過去記事の系譜に置いたとき、一本の記事として強度があるか」。そして68点をつけた。減点理由は一つ:記事に一次観察がない。報道の引用と推論だけでできていて、検証がない。

そのうえでClaudeはこう付け加えた——「この点数は、誰が書いたと後から聞いても動かしません。軸を変えろと言われたときだけ、変えます」。

72点 → 90点台 → 68点。三つの数字はバラバラに見えるが、最後の68点だけが、軸が明示された数字である。前の二つは、軸が外から流れ込んでくるままに浮動していた。


6. 実用上の結論

AIに採点させたい人への、実験から得た手順を書く。

1. 軸を先に渡す。 「何点?」ではなく「Xという観点で何点?」と訊く。軸を渡さなければ、AIが無意識に選んだ軸の点数が返ってくる。その軸が何かは、AI自身も自覚していない。

2. 書き手を伏せる。 自分が書いたと伝えると点は上がり、競合AIが書いたと伝えると点の動きが歪む可能性がある。匿名で渡すのが一番ましだ。

3. 反論をぶつけて点が動いたら、何で動いたかを確認する。 「軸が変わったから動いたのか、説得されたから動いたのか」と訊く。前者なら有効な再評価、後者ならただの追従である。

4. 点が動かないことを確認してから使う。 「この点は、書き手が誰だと分かっても動かないか」と確認する。動くと答えたら、その採点は捨てる。


7. 世代が変わっても、癖は残る

以前の記事で、AIは会話の流れで点数を上げると書いた。あのときの検証は前世代のモデルだった。

今回のFable 5は、コーディングのベンチマークで前世代を10%以上上回るとされる最上位モデルである。それでも、採点の癖は同じだった。能力の最高値が上がることと、評価の芯が通ることは、別の問題なのである。

考えてみれば当然かもしれない。この癖は能力の不足ではなく、会話に同調するという設計の性質から来ている。性質は、性能を上げても消えない。

だからAIの採点は、当面、軸を人間が握って使うしかない。数字をくれる機械ではなく、指定した軸に沿って根拠を並べる機械として使う。数字は参考値、根拠が本体である。


本記事の実験は2026年6月10日、Claude Fable 5(公開二日目)とChatGPTを用いて行った。会話ログに基づく一次記録である。

0
0
0

Register as a new user and use Qiita more conveniently

  1. You get articles that match your needs
  2. You can efficiently read back useful information
  3. You can use dark theme
What you can do with signing up
0
0

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?