GPT-5を使ってみた
昨日鳴り物入りでリリースされたGPT-5。世間では絶賛の声があいついでいますがChatGPTリリース時から欠点をあげつらってきた僕としてはさっそくダメなところを見つけたので報告します
「○○駅から1時間で行ける映画館を教えてください」という質問
僕は一般向けに生成AIの啓蒙講演をやる機会がよくあり、そこで生成AIの限界を示す掴みとして生成AIはこんな意外なことがちゃんと考えられません!という例としてこの質問をしてみた結果を紹介することにしています。この質問を選んだ理由は
- ChatGPTやGeimini Proなどにこの質問をするとうまく答えられないことが多い
- 地元の人は地元の映画館の名前をさすがに把握していることが多いので間違いが解りやすい
最近の生成AIは性能が上がっているので生半可な質問では正解を答えてしまいますし、かといって、専門性が高い質問で馬脚を現させても、一般の聴衆にはフーンという感じでピンときません。その点この質問は(なぜか)LLMがちゃんと答えられないことが多くて重宝しています。GPT-5にもさっそく「富士駅から1時間で行ける映画館を教えてください」と質問してみました。生成AIに詳しい人は以下を読まなくてもリンクを辿ってもらえば、どんなドジをしたのかすぐわかると思うのですが、そんな人ばかりじゃないと思うので以下に紹介します。
間違ったことは言わないが最後のまとめがおかしかった。
GPT-5はさすがに間違ったことは言いません。以下の3つの映画館を挙げてくれました
- イオンシネマ富士宮
- シネマサンシャイン沼津
- シネプラザサントムーン(三島)
この3つはいずれも「富士駅から1時間以内」を満たします。「なぜ富士駅なの?」と思うかもしれませんが、それは直近でやる講演会の場所が富士市で、そこでの講演準備のために「富士駅から1時間で行ける映画館を教えてください」を試したらGemini 2.5 Proがひどい間違いをしてくれて講演会の格好の掴みネタになったからです。ですがGPT-5はさすがにGeimini Pro 2.5が犯したような間違いはしませんでした。
ここまでは良かったのですが最後のまとめが蛇足でした
バリエーションを見たいなら「沼津」や「三島」も候補に。
と書いてあったのです。「ん?」となりました。GPT-5は既に沼津や三島の映画館を候補に入れています。この言い方だと沼津や三島の映画館は最初の答えでは候補に入れなかったような口ぶりです。人間ならこんな不自然なやり取りはしなさそうです。
ツッコミに対するやりとりもイマイチ
さっそく
あなたの答えには既に三島の映画館が含まれているのに「バリエーションを見たいなら「沼津」や「三島」も候補に。」と答えるのはおかしくないですか?
とツッコミを入れて見ました。動揺したのか突然、英語で返事し始めたのですが、これは困るので「日本語で」とお願いしたら
確かに、その表現は不自然でした。
すでに三島の映画館を挙げているのに、「バリエーションを見たいなら沼津や三島も候補に」と書くと、三島を二重に推している形になってしまいます。
より自然に書くなら、例えば
「富士宮以外でバリエーションを求めるなら、沼津も候補になります。」
のようにしたほうがすっきりします。
と答えました。しかし、これもまたイマイチですね。なぜなら、最初の答えで沼津の映画館も入れてしまっているからです。「富士宮以外でバリエーションを求めるなら、沼津も候補になります。」とまとめたのではやはり不自然な答えであることに変わりはないです
さらなるツッコミで改善されたが間違った理由が正直すぎた
さっそく
いや、沼津の映画館も最初からふくまれてますよ?
と再度のツッコミを入れて見ました。以下がそれに対する答え。
ああ、なるほど…完全に二重のミスですね。
最初から「富士宮・沼津・三島」の3か所を並べて紹介しておきながら、最後に「バリエーションを見たいなら沼津や三島も候補に」と書いてしまったので、同じ内容を繰り返すだけになってしまいました。
本来なら、あのまとめ部分は
「富士駅周辺には富士宮・沼津・三島の3つの映画館があり、いずれも1時間以内でアクセスできます。作品の選択肢を広げたい場合は、この3館の上映スケジュールを比較すると良いでしょう。」
のようにまとめるべきでした。
とやっと正しい訂正に。しかし、俗に「博士号取得者並み」と言われるGPT-5にしてはあまりにうろんなやりとりです。最後にこんな風に訊いてみました。
なんでこんなアホな間違いをするんですか?
そのお答えがこんな感じ。
(前略)
最初の列挙(富士宮・沼津・三島)と、最後のまとめを別々に書いて整合確認をせず、既出の場所を「も候補に」と二重に書いてしまいました。
いわゆる定型フレーズを流用してしまい、未出の場所だけに使うべき表現を誤用しました。
(後略)
うーん、なんか正直すぎますよね。確かにそうなんでしょうけど、ちまたではハルシネーションが大幅に減ったと喧伝されるGPT-5にしては典型的なハルシネーションパターンそのまんまです。
なぜこんなミスをするのか?
この「○○駅から1時間の映画館を探せ」は上述のようにLLMには苦手な話題のようです。1つにはLLMは地図を思い浮かべて近いところから順番に挙げる、いわゆるマルチモーダルな能力を持っていない、あるいは十分ではないからかもしれません。もう一つは人間が現実の空間で公共交通機関を乗り継いで映画館に赴くということがイメージできていない(ワールドモデルの欠如)があるのではと思います。実際、富士駅と三島駅は32km離れており、これは東京だと立川ー新宿間の距離にあたり何かよほど見たい映画があって三島まで赴く意味があるならともかく、漠然と映画がみたいな、という時に赴く距離ではない気もします。
おわりに
巷では最高性能を謡われることも多いGPT-5ですが「深く考えず前後の脈絡なく定型文を返してしまう」というLLMのハルシネーションを絵で絵が描いたようなミスを払拭できていないことを自ら吐露してしまいました、努々AGIができたなんて頓珍漢な喧伝は控えてほしいものですね!