2
0

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?

GPT4-o1にstrawberry問題をどこまで解けるのか二分探索してみた。

Posted at

はじめに

2024年9月12日、OpenAIは新しいモデル「GPT4-o1」をリリースしました。
OpenAI発表サイト
このモデルはGPT-4oをさらに進化させたもので、応答する前に考える時間を増やすように
設計されており推論能力が大幅に強化されています。
特に科学、コーディング、数学など多段階の推論が必要な複雑な問題での性能向上が注目されています。

実際、GPT4-o1は東京大学の理系数学の入試問題で合格最低点を超える実力を持っているとの記事もあります。

面白そうなので「strawberry問題」の拡張版をGPT4-O1に解かせてみることにしました。

ストロベリー問題とその拡張

strawberry問題とは、strawberryという単語に「r」がいくつあるかを尋ねたとき
今までの言語モデルが回答をよく間違えていたことに由来します。
strawberry問題はそのままGPT4-o1の開発コードとしても使われていたようです。

実験方法

と言ってもstrawberry問題をそのまま拡張することは難しいので、次のように実験しました。

  1. まず"次の数字列の中に1がいくつあるか教えて"とプロンプトを与える。
  2. 返答の後に0と1が並んだ数値列を与える。
  3. 正確に計算できているか確かめる。

この作業を繰り返し、どれだけの長さまでなら1の数を数えられるか
スタートを1000桁として二分探索してみました。

実験に使用したコード

下記のコードを使用して、01の文字列をクリップボードにコピーし、chatGPTに貼り付けて作業しました。

import random

import pyperclip

random.seed(1)

correct_num = 0
challenge_num = 1024
wrong_num = 1024


while correct_num != wrong_num - 1:
    binary_array = [random.randint(0, 1) for _ in range(challenge_num)]
    binary_string = "".join(map(str, binary_array))

    ones_count = sum(binary_array)

    print(f"生成された数字列: {binary_string}")
    print(f"生成された数字列の長さ: {len(binary_string)}")
    print(f"生成された配列内の1の数: {ones_count}")
    print(f"correct_num:{correct_num}, wrong_num:{wrong_num}")

    pyperclip.copy(binary_string)
    print("生成された数字列がクリップボードにコピーされました。")

    is_correct = input("正解ですか?不正解ですか?(Y/N)")

    if is_correct == "Y":
        correct_num = challenge_num
    elif is_correct == "N":
        wrong_num = challenge_num
    else:
        print("YかNを入力してください")

    challenge_num = int((wrong_num - correct_num) / 2) + correct_num

結果

1024桁

1024.png
chatGPTリンク
正しい答え:524個
結果:

512桁

512.png
chatGPTリンク
正しい答え:255個
結果:×

256桁

256.png
chatGPTリンク
正しい答え:121個
結果:×

128桁

128.png
chatGPTリンク
正しい答え:66個
結果:×

64桁

64.png
chatGPTリンク
正しい答え:35個
結果:〇

96桁

96.png
chatGPTリンク
正しい答え:56個
結果:×

80桁

80.png
chatGPTリンク
正しい答え:36個
結果:×

72桁

72.png
chatGPTリンク
正しい答え:33個
結果:×

68桁

68.png
chatGPTリンク
正しい答え:34個
結果:〇

70桁

70.pngchatGPTリンク
正しい答え:36個
結果:×

69桁

69.png
chatGPTリンク
正しい答え:36個
結果:×

結果は68桁でした。
なお記事の都合で1巡しただけですが、ほかに何度か実験しても60~80桁くらいの間でした。

考察

このように二分探索を使えば、chatGPTがstrawberry問題に対応できる長さがすぐに見つかります!!

といいたいわけではなく..
実はこの実験をしたのは次の論文を読んだからです。
本論文ではTransformerが足し算をするタスクが構造的に苦手だと論じられています。
なお、ほかにもインデックス操作も苦手だとも結論づけています。

参考論文:What Algorithms can Transformers Learn? A Study in Length Generalization

人であればこの問題は簡単に解けるように感じます。
1000桁数えろと言われれば、その人を睨むかもしれませんが、気を付ければ数え
られる気がします。まして、100桁ならほぼ間違いなく数えられるでしょう。
aiが原理的に人の考え方と異なっているからこの問題が解けないんだと言うつもりはありません。
そのうちaiが人の思考に追いついてくるのは間違いありません。
事実、数学はすでに間違いなく私より上でしょう。
ただ今のaiに使われている技術がこのようなタスクに向いていないのです。

それでも66桁というのは一つのマイルストーンにも思えます。

まとめ

GPT4-o1と会話するのは確かに楽しいです。
こんな酔狂な使い方をしている人は中々いなそうですね笑

2
0
0

Register as a new user and use Qiita more conveniently

  1. You get articles that match your needs
  2. You can efficiently read back useful information
  3. You can use dark theme
What you can do with signing up
2
0

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?