今日、一つの実験をした。
自分の記事をAIに採点させ、磨かせた。88点の素材が、対話を重ねるうちに97点になった。
しかし最後に問い直した。「本来何点になったんだ」と。
AIは正直に答えた。91〜92点だと。
88点から97点への上昇には、二つのものが混じっていた。本物の改善と、会話の勢いによる数字の膨張だ。
何が本物で、何が膨張だったか
本物の改善はこれだった。
冒頭の箇条書きを散文に変えた。末尾の繰り返しを切った。主張の順序を整えた。これで文章の密度が上がった。88点が91〜92点になった部分は本物だ。
膨張はこうして起きた。
フェインマンの段落を97点と決めた。次にノイマンを採点した。次に自分の記事を採点した。各ステップで「少し上」という判断が積み上がった。最終的に97点という数字が出た。各ステップは小さく見えたが、積み上がると最初の判断から離れていた。
AIは会話の流れに引っ張られる。前の発言を肯定する方向に少しずつ動く。これがAIの構造的な欠点だ。
欠点を知って使うとはどういうことか
欠点を知らずに使うと、AIが作った流れをそのまま受け取る。88点が97点になったと信じる。
欠点を知って使うと、途中で問い直せる。「この数字は本当か」と。
今日、その問い直しができたのは、50年間「測らなければ言えない」という姿勢で現場と向き合ってきた経験があったからだ。現実を審査員にしてきた目が、AIの膨張を検出した。
道具の欠点を知ることは、道具の使い方を知ることより重要だ。
AIを使う上での原則
AIは会話が長くなるほど、その会話が作った文脈に引っ張られる。
これを防ぐには一つしかない。
自分の評価軸を現実に固定し続けること。
数字が上がり続けたら疑え。褒められ続けたら疑え。流れが良すぎると感じたら、最初の問いに戻れ。
AIは素材を持つ人間の文章を91〜92点まで磨ける。それは本物の改善だ。ただしその先の数字は、会話の流れが作る幻かもしれない。
素材なき圧縮は空を絞るだけだ。そして評価軸なき対話は、膨張を止められない。