44
16

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?

More than 1 year has passed since last update.

最速でGPT4の粗探しをしてみた

Last updated at Posted at 2023-03-15

敢えて逆張りしてみる

2023/3/15の朝起きたら何やらTwitterのTLが騒がしい。なんとGPT-4がリリースされているではないか。
AIの凄さを皆に共有するのが好きな私は、二度寝したい欲望に打ち勝ち情報を調査を始めた。

ところが、既にTLにいる強い方々が様々な情報を出しているではないか。

とのことだ。素晴らしい。ブラボー。で終わりたくないのが天邪鬼な私。
皆が賞賛しているものを見るとケチを付けたくなってしまう性なのだ。

という訳で、今回は「ここがダメだぞGPT-4」を最速でお届けします。
※ ChatGPTでGPT-4を使うには、有料のChatGPT Plusに登録する必要があります。

(注1)私はアンチAIではなく熱狂的なAI推進派ですが、ありのままのAIをお届けしたい気持ちからこの記事を書いています。

(注2) 私のプロンプトエンジニアリングが悪い可能性もありますが、「上手く指示を出さないと正しく回答できない」というのもUX的にはマイナスなので、ご容赦ください。

依然として正確性に難あり

情報の正確性に難があるのはGPT-3.5から言われていましたが、大幅な改善はなされていないようです。
HR数.PNG
試しに日本プロ野球の通算ホームランランキングを聞いてみた。

1位:王貞治 868本!
当然ですね。世界のホームラン王ですから。

2位:野茂英雄 657本!?
ちょっと待って!?野茂って日米で大活躍したピッチャーだよね!?
ピッチャー657本は大谷翔平もびっくりのウルトラ二刀流だよ笑

という具合に正しい情報を返してはくれないようだ。

ただ、ChatGPTは(本人も自覚している通り)webのデータベースにアクセスできないようなので、外部のソースも参照できるBingを使って同じ質問をしてみた。
HR数3.PNG
やっぱりだめです。正しいソースにはアクセス出来ているようですが、情報としては不正確です。

BingのエンジンにもGPT-4が導入されているようです。

(参考)正しい日本プロ野球の通算ホームラン数ランキング
HR数2.PNG

まとめ

  • 依然として情報の正しさには難がある
  • 加えて、知識が無いと分からない様なそれっぽいものを生成してくるので注意が必要

しりとりが出来ない

日本人なら小学生でも出来るしりとり。ところがGPT-4はしりとりが得意ではない。
しりとり1.PNG
早速しりとりを挑んでみた。しりとり自体は理解できている感じ。
しりとり2.PNG
反射的に「ゴリラ」と返したくなるが、あえて「ゴン中山」と答える。
ん、、、?「ゴン中山」のラストは「や」ではなく「ま」ですよ?
しかも「や」に対する返しが「ヤクザ」笑。
しりとり3.PNG
次は「ざああああああ」とかいう存在しない単語を入力した。
言葉としては難しい、といいつつ許してくれた。寛大だ。しりとり4.PNG
私の返答は「南無阿弥陀仏」。やはり漢字は得意ではないのか「つ」ではなく「く」で終わると判断したようだ。
そして「クレヨン」笑。まさかの自爆。
私があんまり意地悪するからやめたくなったのかな、、、
しりとり5.PNG
いいえ、終わりませんよ。
カウンターで「ンジャメナ(チャドの首都)」を叩きこんでやりました。が、何事も無かったかのように続けるGPT-4。
今度は「エキシビション」で私が自爆。ところがGPT-4は「ンモフィラ」という存在しない言葉を作り出して続行を決意。
流石にルールが分かっているかどうか心配になって聞いてみた。
しりとり6.PNG
一応ルールは理解してるっぽい。
しかし、最後の行がルールを理解する者の発言とは思えない、、、
しりとり7.PNG
「ライオン」で再び強制終了したが、GPT-4は再び謎の単語を生成。

流石に可哀想になったので自ら負けを申し出てみた所、GPT-4は自分が負けたと誤解。
最後まで純粋なしりとり勝負をすることは出来ませんでした。

まとめ

  • 「漢字」と「読み方」の対応が苦手
  • しりとりのルールを文字列としては理解しているが、文字列と実際の行動基準が結びついていない
  • 「存在する単語」と「存在しない単語」の区別が曖昧

感想

最初はノリで書き始めたのですが、結構真剣になってしまいました。

GPT-4はテクニカルレポートにもある通り、ベンチマークなどではかなり高い性能を発揮しているのですが、人間に比べると見劣りする部分も多く、チューリングテストに合格する為にはまだ壁があると感じました。
(逆に、文体そのものは人間に勝る整った文章を書いてしまうので、チューリングテストに落ちるという話もある。)

個人的に一番興味があるのは、今の方向性で言語モデルを大規模化して汎用人工知能 (AGI) が実現するのか否かです。
ChatGPTの登場で、今の路線で突き進めばAGIに到達できる派が優勢になってきましたが、一説には2026年には訓練データが枯渇するなんて見立てもあり、もう一つ壁を超える為には新たな風が必要なのかもしれないという考えもあります。

宣伝

私は「AI技術を学び、新しい時代で活躍できる人材を育てる」ことを目的としたオンラインコミュニティ「AcademiX」を立ち上げ・運営しています。

Slack上で最新のAIの情報交換なども行っているので、ご興味のある方は是非ご参加ください。

44
16
0

Register as a new user and use Qiita more conveniently

  1. You get articles that match your needs
  2. You can efficiently read back useful information
  3. You can use dark theme
What you can do with signing up
44
16

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?