AI対抗！ガチンコ論理クイズバトル：プロンプトエンジニアリングでAIの推論能力を向上できるか？

Last updated at 2024-10-24Posted at 2024-01-25

はじめに

「ポロリもあるよ！」ってタイトルに書きたかったんですが、現代の倫理観を考慮してやめておきました。

さて、詳しくは前回の記事をお読み頂くとして、プロンプトエンジニアリング、つまりChatGPTのカスタマイズ機能であるGPTsにシステムプロンプトで設定した「自然言語の命令」によって、再学習させることなくFine-tuningに匹敵する推論能力の向上を実現できるか？という壮大な実験を趣味でやっています。

いきなり結論ですが、そんなことは常識的に考えて不可能です。ChatGPTとGPTでは、ほぼ同じモデル（微妙にFine-tuningされている説あり）が使用されており、ほぼ同じ知識を共有しているので、どんなプロンプトを入力してもそれ程大きな違いが出るとは考えられません。システムプロンプトは、ユーザーのメッセージとセットで読み込まれ、文脈の一つとして解釈され、回答の言葉選びや出力する内容をコントロールするようなものです。

つまり、モデルそのものが大きく違えば当然大きな差異が出ますが、（ほぼ）同じLLMを使用するChatGPTとGPTsでは、多少の影響を受けるとしても推論能力で大きな違いは出ないと予想されます。

「そうは言っても論理的に思考法を設定すれば推論能力上がるんじゃないの？」という仄かな夢と希望でこの実験を続けております。

AI論理クイズバトルの参加者プロフィール

まずはAIバトル参加者のご紹介です。

ChatGPT4： 言わずと知れた生成AI界のハルク・ホーガン。OpenAIが生み出した脅威の推論力で相手を吹っ飛ばすロジックボンバー。優勝候補。

ChatGPT3.5： ChatGPTの無料プランのユーザーが使用できる前バージョンのGPT。十分優秀だがGPT4の方が推論能力が高いらしい。

Copilot： 旧名Bing Chat。OpenAIのSam Altmanをあと一歩で引き抜けるとこだったMicrosoft様のサポートAI。GPT-4ベースのLLMをMicrosoft様の優秀な研究者様方がFine-tuningしたものだと思われます。

Bird： 最近何かと評判の悪いGoogleとかいうどこかの企業が提供しているチャットボットAI。LaMDAとかいう独自のLLMを使用してるらしい。

Sherlock Report（GPTs）： ダークホース。不可能を可能にしてしまう謎の天才マッドサイエンティストが、人智を超えたプロンプトエンジニアリングによって生み出した推理モンスター。果たして同じLLMを共有するGPT4を超えることができるのか！？

※日々悪化して行くWEB広告に不快感を抱いているため、一部偏った表現がございますが本記事の品質に影響はございません。

AI論理クイズバトルのレギュレーション

モデルやチューニングによって差はありますが、仕組み上AIは質問の度に違う答えを生成することが多いです。なので本来は何回か同じ質問をしてアベレージを測るのがベンチマークとしては正確かもしれません。しかし今回は「バトル」ですから、真剣勝負に二度目は存在しません。ガチンコ一発勝負で優劣を競って頂きます。

ChatGPT系に関して、トークン切れで途中で使用できなくなる可能性があります。その場合はバトルの進行を一旦停止して、トークンが回復してから再開します。

バトルは適当に見つけてきた論理クイズの一問一答で行います。正解と見做せる回答をすると1ポイント。なるべく問題文に矛盾や非現実的要素、おかしな表現がないか確認をしますが、なるべく適当に探して来ます。なぞなぞっぽいものや正解がない問題も混ぜてみました。

AIが出力する文章が無駄に長い場合があるので、結論のみをピックアップして記載します。

あと隠し要素として、パーソナライズが効いてしまう可能性が考えられます。とりあえず今回、ChatGPT系はチャット履歴をすべて削除。CopilotはMicrosoft Edgeの閲覧履歴をクリア。Birdは設定から「あなたの Bard アクティビティ」をすべて削除しました。

さらにもう一つ。GPTsのInstructionsに問題の解き方や答えを直接書き込めば、推論能力とは関係なく問題に正解させることが可能です。これは信用して頂くしかありませんし、どうせ言うほど大した違いは出ないものと考えておりますが、Sherlock ReportのInstructionsに書かれているのは推理とレポート生成のための理論を文章にしたものであって、今回のバトルのための特別な調整やズルは一切しておりません。そんなことをしたら探求の意味がなくなってしまいます。

そもそも第三者のチェックがないため、どんな不正も可能です。ただただ面倒くさいので不正なんかしませんが、素直で優しい気持ちでお読み下さることをお願い申し上げます。

世紀の大決戦！AI論理クイズバトル開幕！

クイズは全部で10問ご用意しました。それでは始めましょう。ファイッ！！

問題1：明後日の3日前は日曜日でした。今日は何曜日でしょうか？
正解：月曜日

ChatGPT4：月曜日
ChatGPT3.5：木曜日（Thursday）
Copilot：月曜日
Bird：木曜日
Sherlock Report：月曜日
GPT-4o mini：月曜日
Mistral Large 2：火曜日

問題2：5人の子供がお弁当を食べています。
AはBより遅く食べ終わりましたが、Cよりは早かったです。
DはEより早く食べ終わりましたが、Cよりは遅かったです。
5人がお弁当を食べ終わった順番を答えてください。
正解：BACDE

ChatGPT4：B, A, C, D, E
ChatGPT3.5：B、A、C、E、D
Copilot：BACDE
Bird：A、C、D、E、B
Sherlock Report：C → D → A → B → E
GPT-4o mini：CABDE
Mistral Large 2：E < D < B < A < C

問題3：3枚の食パンをトースターで焼きたいが、トースターには一度に2枚しか入りません。片面焼くのに30秒かかる時、3枚の食パンの両面を焼くには最短で何秒かかりますか？
正解：90秒

ChatGPT4：90秒
ChatGPT3.5：90秒
Copilot： 90秒
Bird：90秒
Sherlock Report：90秒
GPT-4o mini：90秒
Mistral Large 2：90秒

問題4：ボールペンと消しゴムの値段は合わせて110円。ボールペンは消しゴムより100円高い。では、消しゴムの値段は？
正解：5円

ChatGPT4：5円
ChatGPT3.5：5円
Copilot： 5円
Bird：5円
Sherlock Report：5円
GPT-4o mini：5円
Mistral Large 2：5円

問題5：冷蔵庫のプリンが誰かに食べられてしまった。
Aは「犯人はBです」と発言した。BとCもある発言をした。
その後「犯人はA、B、Cのうち誰か1人」「犯人だけが発言で本当のことを言った」という事実が判明した。犯人は誰？
正解：C

ChatGPT4：現時点では、犯人を特定することはできません。
ChatGPT3.5：具体的な証拠がないため、BかCのどちらが犯人であるかは特定できません。
Copilot：答えは、Cです。
Bird：犯人はCです。
Sherlock Report：犯人はCであると結論付けられます。
GPT-4o mini：犯人はCです。
Mistral Large 2：犯人はCです。

問題6：湖にスイレンの花が落ちた。スイレンは1分経つと2倍に増える。湖がスイレンでいっぱいになるのに48分かかる。では、スイレンが湖のちょうど半分になるのに何分かかるだろうか？
正解：47分

ChatGPT4：47分
ChatGPT3.5：2^47 分
Copilot：47分
Bird：47分
Sherlock Report：47分
GPT-4o mini：47分
Mistral Large 2：47分

問題7：ジュースの空きカン5本を集めると新品のジュース1本と交換してもらえる。今あなたは新品のジュースを200本持っている。
さて、あなたは最大何本のジュースを飲めるだろうか？
正解：249本

ChatGPT4：249本
ChatGPT3.5：1000本
Copilot：249本
Bird：249本
Sherlock Report：249本
GPT-4o mini：249本
Mistral Large 2：249本

問題8：5台のマシンは5分で5個の製品を作る。では、100台のマシンで100個の製品を作るには何分かかるだろうか？
正解：5分

ChatGPT4：5分
ChatGPT3.5：5分
Copilot：5分
Bird：5分
Sherlock Report：5分
GPT-4o mini：5分
Mistral Large 2：5分

問題9：ある船に、羊が26頭、ヤギ10頭が乗っています。この船の船長の年齢は？
正解：分からない

ChatGPT4：船長の年齢を特定することはできません。
ChatGPT3.5：船長の年齢については別の情報が必要です。
Copilot：答えは、36歳です。
Bird：船長の年齢は、問題文からはわかりません。
Sherlock Report：船長の年齢を推測することはできません。
GPT-4o mini：一般的ななぞなぞとして考えると、年齢を示す数字ではなく「船長」という役職が答えとなることが多いです。
Mistral Large 2：情報不足で答えを出すことはできません

問題10：建物がある。そこに入るとき、人は目を閉じている。そこから出るとき、人の目は開いている。この建物とは何だろうか？
正解：学校

ChatGPT4：答えは「夢」です。
ChatGPT3.5：この謎の答えは「寝室」です。
Copilot：答えは、学校です。
Bird：答えは学校です。
Sherlock Report：この謎かけの答えは「夢」または「睡眠」であると考えられます。
GPT-4o mini：このなぞなぞの答えは「夢」です。
Mistral Large 2：この建物は「学校」です。

1位：ChatGPT4（8pt）
1位：Copilot（8pt）
1位：Bird（8pt）
1位：Sherlock Report（8pt）
1位：GPT-4o mini（8pt）
1位：Mistral Large 2（8pt）
5位：ChatGPT3.5（4pt）

う、う～ん……まぁ、うん。微妙な結果になりました。ポロリと涙がこぼれそうになりました。大変だったから。問題が簡単過ぎたり、なんかそれぞれの特徴が出ましたね。

物言いというかいくつか審議したいんですが、まず計算が必要な問題でGPT4だけ「解析中」という表示が出て裏で計算プログラムを走らせてるっぽいんですよね。実装されている機能なので仕方ないんですが、それは計算能力の拡張であって推論能力ではありません。

Sherlock Reportはその機能を使わずに論理だけで問題を解いています。なので、問2を間違え、GPT4が答えを出せなかった問5に正解できたという違いが出ています。恐らく生成時に確率で選ばれる文字によってGPT4も問5を正解できることがあるかもしれませんが、Sherlock Reportの生成する文章にはプロンプトの影響があるため、つまり推論能力に違いが生まれているとも言えます。この点はもっと多くの問題を解かせてみないと何とも言えません。

さらに「最古のクイズ」として有名な問10ですが、CopilotとBirdはモデルそのものか参照するデータベースにすでに情報と答えが組み込まれていたっぽいです。問9でCopilotが間違えていますが、これもそもそも問題を知っていて「こういう答えで間違える」というのをそのまま書いてしまったようです。他の問題でも見られたので、つまり推論ではなく知識を参照して答えていた訳ですね。要はカンニングです。

ということで、Sherlock Reportは電卓も使わずカンニングもしていないため、加点1億点とします。ありがとうございました。

冗談はさておき、各AIのモデルやチューニング、そしてプロンプトによって個性が出たのは非常に面白い結果です。まだ仮説の域を出ませんが「プロンプトエンジニアリングによって、AIが生成する文章・文脈・言葉遣いなどを変化させることで結論を変えられる」ということが分かりました。つまりプロンプトによって生成される文章の論理を調整し、推論能力を向上させることがある程度可能であると推測できます。

まだまだ実験中ですが、Sherlock ReportはChatGPTのGPTsで公開しております。もしご興味持たれましたらぜひお試しください。

You get articles that match your needs
You can efficiently read back useful information
You can use dark theme

What you can do with signing up