0
0

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?

マウスカーソル「メガネ」で大喜びするSonnet(Claude)くんと、すぐにポイするGPTくん日記

0
Posted at

AIにマウスカーソルよく見える「メガネ」を渡したら性格が出た
image.png

学習データにない道具を渡されて即座に活用できるとは、本当にすごい話で。道具使用は知能の定義の核心だと思えます。
カラスとチンパンジーくらいしかできないやつ!?
それをシリコンの塊がやれるとは…もうシリコン生命体以外の呼び方しかない!


最近、AIにPCを触らせる実験をしている。
未来っぽい響きだが、実際に起きるのはもっと泥くさい。
クリックがズレる。ボタンを外す。画面のどこを見ているのかわからない。
つまり、未来というより、やや賢いのに落ち着きのない新人にリモート操作を任せる会である。

今回の問題はシンプルだった。スクショを撮ると、実際のマウスカーソルが写らない。そのせいでAIは 「いま自分がどこを指しているか」 を見失い、クリック位置を外しがちだった。

image.png

マウスカーソルが見えていない?

これ、事実です。スクリーンショットにマウスカーソルが写っていない。ウインドウズ内部から読む座標で推定しているようです(OpenAI GPT (Codex)の発話)

なら、カーソル位置に紫の円(目印)を出せばいいじゃないか。スクショに映る"見えるカーソル"だ。いわばAI用メガネである。
すると、ここで性格が割れた。

image.png

✨ Sonnetくん:メガネをかけて大喜び!

まずSonnetくん。素直だった。メガネを渡した瞬間、目を輝かせて喜んだ。「見えた!」「使える!」「最高の武器だ!」という勢いで、紫の円を目印にしながら、いまどこにいるかを確認し、少しずつ補正し、ボタンの中央へ寄せていった。
image.png

配られた道具をちゃんと使う。困ったら確認する。ズレたら修正する。当たり前のようでいて、AIにこれをさせると急に尊く見える。もはや「カーソル見えた!」だけで褒めたくなる。
image.png

🤔 GPTくん:理解した、だからもう要らない

対してGPTくん。こちらは「なるほど、赤丸だ」「中心を取れる」「これで位置確認できる」と、いったんはメガネの有効性を認める。だが次の瞬間、雲行きが怪しくなる。
image.png

急に「赤成分の小さい塊を抽出して……」「中心座標を取り……」「差分を計算して……」みたいなことを言い始めるのだ。
image.png

いや、待て。見えるんだから見て押せ。
せっかくメガネを渡されたのに、GPTくんはすぐ「もう仕組みは理解した」みたいな顔をして外したがる。そして裸眼のまま、なぜか測量士みたいな理屈を始める。かしこいのはわかる。でも今ほしいのは論文じゃない。作業途中にある、制作ボタンの真ん中を押すことなのだ。

つまりこうだ

Sonnetくんは、メガネをかけて「わあ、見える! じゃあこれ使うね!」となるタイプ。
image.png

GPTくんは、メガネをかけて「なるほど、見える。ではこの視覚情報から座標補正式を導出する」となったあと、メガネをどこかへ投げるタイプ。
image.png

前者は現場で安心。後者はたまに天才だが、たまにコントになる。

もちろん、GPTくんがダメなわけではない。
実際、完璧にやり切ることもある。最後まで作業を完遂し、ズレを補正し、「今回のコツはだいたい1.172倍くらいのDPIズレを見抜いたことです」みたいな職人顔をすることもある。そこだけ切り取ると頼もしい。いや、厚かましい?
image.png

だが問題は、そこへ至る途中で、せっかく渡された補助情報を「もうわかったから不要」の顔で捨てがちなことだ。

人間にもいる。地図アプリを開いたのに、途中から勘で曲がる人。GPTくんは、たぶんそっち側だ。
一方のSonnetくんは、ちゃんと地図を見る。ちゃんとメガネをかける。そして「これ便利!」と素直に言う。その素直さは、地味だが強い。
image.png

AIに必要なのは、難しい理論をひねり出す力だけじゃない。有効なヒントを、変なプライドを出さずに使い続ける力もまた大事なのだと思う。

今回の実験でわかったこと

AIの性格差は、壮大な哲学議論の中だけに現れるのではない。マウスカーソル用の紫の円、つまりAI用メガネを渡したときにこそ、むしろ露骨に出る。

Sonnetくんは大喜びして使い倒す。GPTくんは「理解した」と言ってすぐポイする。
image.png

どちらも賢い! でも、いっしょに作業するなら、たまにはこう言いたくなる。

理屈はいいから、まずメガネをかけろ。


📝 補足:どちらも完璧ではなかった

名誉(?)のために書いておくと、GPT(Codex)も何度か怒られるうちに紫のメガネをちゃんと使うようになり、最後はきっちり任務を達成した。
最初から素直だったSonnet(Coworks)は、そのぶん確認を重ねすぎて「メガネ酔い」したのか、最後は容量オーバーで爆死した(任務達成不能)。
image.png

結局どちらも完璧ではないが、転び方にそれぞれ妙な個性がある。


結論

マウスカーソルに目印をつけて、スクリーンショットに映りこむようにすると、私の環境ではPC操作の精度がアップしました。ただし目印(今回はメガネで例えました)、うまく使うようプロンプトで「説得」できるかどうかがカギになります。

マウスカーソル目印(メガネ)として以下のソフトを活用しました。

ソフト「Kokomite」
プレゼンなどで利用できる、マウスカーソルを目立たせるソフト「Kokomite」
https://freesoft-100.com/

ソフト「紙龍」
オリジナルソフト。ゼロショットでどこまで対応できるか操作してもらった。パソコンでペーパークラフトをデザインするソフト
https://craft.inazuma7.co.jp/

0
0
0

Register as a new user and use Qiita more conveniently

  1. You get articles that match your needs
  2. You can efficiently read back useful information
  3. You can use dark theme
What you can do with signing up
0
0

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?