はじめに
2024年9月12日、OpenAIは新しいモデル「GPT4-o1」をリリースしました。
OpenAI発表サイト
このモデルはGPT-4oをさらに進化させたもので、応答する前に考える時間を増やすように
設計されており推論能力が大幅に強化されています。
特に科学、コーディング、数学など多段階の推論が必要な複雑な問題での性能向上が注目されています。
実際、GPT4-o1は東京大学の理系数学の入試問題で合格最低点を超える実力を持っているとの記事もあります。
面白そうなので「strawberry問題」の拡張版をGPT4-O1に解かせてみることにしました。
ストロベリー問題とその拡張
strawberry問題とは、strawberryという単語に「r」がいくつあるかを尋ねたとき
今までの言語モデルが回答をよく間違えていたことに由来します。
strawberry問題はそのままGPT4-o1の開発コードとしても使われていたようです。
実験方法
と言ってもstrawberry問題をそのまま拡張することは難しいので、次のように実験しました。
- まず"次の数字列の中に1がいくつあるか教えて"とプロンプトを与える。
- 返答の後に0と1が並んだ数値列を与える。
- 正確に計算できているか確かめる。
この作業を繰り返し、どれだけの長さまでなら1の数を数えられるか
スタートを1000桁として二分探索してみました。
実験に使用したコード
下記のコードを使用して、01の文字列をクリップボードにコピーし、chatGPTに貼り付けて作業しました。
import random
import pyperclip
random.seed(1)
correct_num = 0
challenge_num = 1024
wrong_num = 1024
while correct_num != wrong_num - 1:
binary_array = [random.randint(0, 1) for _ in range(challenge_num)]
binary_string = "".join(map(str, binary_array))
ones_count = sum(binary_array)
print(f"生成された数字列: {binary_string}")
print(f"生成された数字列の長さ: {len(binary_string)}")
print(f"生成された配列内の1の数: {ones_count}")
print(f"correct_num:{correct_num}, wrong_num:{wrong_num}")
pyperclip.copy(binary_string)
print("生成された数字列がクリップボードにコピーされました。")
is_correct = input("正解ですか?不正解ですか?(Y/N)")
if is_correct == "Y":
correct_num = challenge_num
elif is_correct == "N":
wrong_num = challenge_num
else:
print("YかNを入力してください")
challenge_num = int((wrong_num - correct_num) / 2) + correct_num
結果
1024桁
chatGPTリンク
正しい答え:524個
結果:
512桁
chatGPTリンク
正しい答え:255個
結果:×
256桁
chatGPTリンク
正しい答え:121個
結果:×
128桁
chatGPTリンク
正しい答え:66個
結果:×
64桁
chatGPTリンク
正しい答え:35個
結果:〇
96桁
chatGPTリンク
正しい答え:56個
結果:×
80桁
chatGPTリンク
正しい答え:36個
結果:×
72桁
chatGPTリンク
正しい答え:33個
結果:×
68桁
chatGPTリンク
正しい答え:34個
結果:〇
70桁
chatGPTリンク
正しい答え:36個
結果:×
69桁
chatGPTリンク
正しい答え:36個
結果:×
結果は68桁でした。
なお記事の都合で1巡しただけですが、ほかに何度か実験しても60~80桁くらいの間でした。
考察
このように二分探索を使えば、chatGPTがstrawberry問題に対応できる長さがすぐに見つかります!!
といいたいわけではなく..
実はこの実験をしたのは次の論文を読んだからです。
本論文ではTransformerが足し算をするタスクが構造的に苦手だと論じられています。
なお、ほかにもインデックス操作も苦手だとも結論づけています。
参考論文:What Algorithms can Transformers Learn? A Study in Length Generalization
人であればこの問題は簡単に解けるように感じます。
1000桁数えろと言われれば、その人を睨むかもしれませんが、気を付ければ数え
られる気がします。まして、100桁ならほぼ間違いなく数えられるでしょう。
aiが原理的に人の考え方と異なっているからこの問題が解けないんだと言うつもりはありません。
そのうちaiが人の思考に追いついてくるのは間違いありません。
事実、数学はすでに間違いなく私より上でしょう。
ただ今のaiに使われている技術がこのようなタスクに向いていないのです。
それでも66桁というのは一つのマイルストーンにも思えます。
まとめ
GPT4-o1と会話するのは確かに楽しいです。
こんな酔狂な使い方をしている人は中々いなそうですね笑