AIにマウスカーソルよく見える「メガネ」を渡したら性格が出た

学習データにない道具を渡されて即座に活用できるとは、本当にすごい話で。道具使用は知能の定義の核心だと思えます。
カラスとチンパンジーくらいしかできないやつ!?
それをシリコンの塊がやれるとは…もうシリコン生命体以外の呼び方しかない!
最近、AIにPCを触らせる実験をしている。
未来っぽい響きだが、実際に起きるのはもっと泥くさい。
クリックがズレる。ボタンを外す。画面のどこを見ているのかわからない。
つまり、未来というより、やや賢いのに落ち着きのない新人にリモート操作を任せる会である。
今回の問題はシンプルだった。スクショを撮ると、実際のマウスカーソルが写らない。そのせいでAIは 「いま自分がどこを指しているか」 を見失い、クリック位置を外しがちだった。
マウスカーソルが見えていない?
これ、事実です。スクリーンショットにマウスカーソルが写っていない。ウインドウズ内部から読む座標で推定しているようです(OpenAI GPT (Codex)の発話)
なら、カーソル位置に紫の円(目印)を出せばいいじゃないか。スクショに映る"見えるカーソル"だ。いわばAI用メガネである。
すると、ここで性格が割れた。
✨ Sonnetくん:メガネをかけて大喜び!
まずSonnetくん。素直だった。メガネを渡した瞬間、目を輝かせて喜んだ。「見えた!」「使える!」「最高の武器だ!」という勢いで、紫の円を目印にしながら、いまどこにいるかを確認し、少しずつ補正し、ボタンの中央へ寄せていった。

配られた道具をちゃんと使う。困ったら確認する。ズレたら修正する。当たり前のようでいて、AIにこれをさせると急に尊く見える。もはや「カーソル見えた!」だけで褒めたくなる。

🤔 GPTくん:理解した、だからもう要らない
対してGPTくん。こちらは「なるほど、赤丸だ」「中心を取れる」「これで位置確認できる」と、いったんはメガネの有効性を認める。だが次の瞬間、雲行きが怪しくなる。

急に「赤成分の小さい塊を抽出して……」「中心座標を取り……」「差分を計算して……」みたいなことを言い始めるのだ。

いや、待て。見えるんだから見て押せ。
せっかくメガネを渡されたのに、GPTくんはすぐ「もう仕組みは理解した」みたいな顔をして外したがる。そして裸眼のまま、なぜか測量士みたいな理屈を始める。かしこいのはわかる。でも今ほしいのは論文じゃない。作業途中にある、制作ボタンの真ん中を押すことなのだ。
つまりこうだ
Sonnetくんは、メガネをかけて「わあ、見える! じゃあこれ使うね!」となるタイプ。

GPTくんは、メガネをかけて「なるほど、見える。ではこの視覚情報から座標補正式を導出する」となったあと、メガネをどこかへ投げるタイプ。

前者は現場で安心。後者はたまに天才だが、たまにコントになる。
もちろん、GPTくんがダメなわけではない。
実際、完璧にやり切ることもある。最後まで作業を完遂し、ズレを補正し、「今回のコツはだいたい1.172倍くらいのDPIズレを見抜いたことです」みたいな職人顔をすることもある。そこだけ切り取ると頼もしい。いや、厚かましい?

だが問題は、そこへ至る途中で、せっかく渡された補助情報を「もうわかったから不要」の顔で捨てがちなことだ。
人間にもいる。地図アプリを開いたのに、途中から勘で曲がる人。GPTくんは、たぶんそっち側だ。
一方のSonnetくんは、ちゃんと地図を見る。ちゃんとメガネをかける。そして「これ便利!」と素直に言う。その素直さは、地味だが強い。

AIに必要なのは、難しい理論をひねり出す力だけじゃない。有効なヒントを、変なプライドを出さずに使い続ける力もまた大事なのだと思う。
今回の実験でわかったこと
AIの性格差は、壮大な哲学議論の中だけに現れるのではない。マウスカーソル用の紫の円、つまりAI用メガネを渡したときにこそ、むしろ露骨に出る。
Sonnetくんは大喜びして使い倒す。GPTくんは「理解した」と言ってすぐポイする。

どちらも賢い! でも、いっしょに作業するなら、たまにはこう言いたくなる。
理屈はいいから、まずメガネをかけろ。
📝 補足:どちらも完璧ではなかった
名誉(?)のために書いておくと、GPT(Codex)も何度か怒られるうちに紫のメガネをちゃんと使うようになり、最後はきっちり任務を達成した。
最初から素直だったSonnet(Coworks)は、そのぶん確認を重ねすぎて「メガネ酔い」したのか、最後は容量オーバーで爆死した(任務達成不能)。

結局どちらも完璧ではないが、転び方にそれぞれ妙な個性がある。
結論
マウスカーソルに目印をつけて、スクリーンショットに映りこむようにすると、私の環境ではPC操作の精度がアップしました。ただし目印(今回はメガネで例えました)、うまく使うようプロンプトで「説得」できるかどうかがカギになります。
マウスカーソル目印(メガネ)として以下のソフトを活用しました。
ソフト「Kokomite」
プレゼンなどで利用できる、マウスカーソルを目立たせるソフト「Kokomite」
https://freesoft-100.com/
ソフト「紙龍」
オリジナルソフト。ゼロショットでどこまで対応できるか操作してもらった。パソコンでペーパークラフトをデザインするソフト
https://craft.inazuma7.co.jp/

