LoginSignup
3
2

More than 1 year has passed since last update.

AI検索エンジンの性能をクイズで評価する

Last updated at Posted at 2023-05-27

TL;DR

AI検索エンジンに30問のクイズを出題し、その正確性をスコア付けしたところ、

  • ChatGPT (GPT-3.5): 16点
  • ChatGPT (GPT-4 with Browsing): 68点
  • Bing AI (Creative): 66点
  • Bing AI (Precise): 24点
  • Bard: 23点

となり、ChatGPT (GPT-4 with Browsing)Bing AI (Creative) がほぼ同率で1位だった。

概要

2023年5月16日ごろ、ChatGPTのWebブラウジング機能が一般利用可能になりました。最近発表されたGoogleのBardなどを含め、日本語で利用可能ないわゆる「AI検索エンジン」が増えています。

こうした中で、特に検索能力についてどれが一番性能が高いのか気になるところです。GoogleのBardはGPT-3.5やGPT-4と比較して能力が低いという報告も上がっていますが、実際のところ、これらの検索エンジンの検索性能を定量的に評価するにはどうすればいいのか⋯⋯ということで、検索エンジンにクイズを出題して、どれくらい正確に答えられたかで性能を評価する方法を取ってみることにしました。

使用した問題

以下のように、AI検索エンジンに質問するための問題を30問作成しました。なお、問題のレベルは人間が検索ツールを使って調べてもやや手間がかかる程度に設定しています (よければみなさんも挑戦してみてください)。

  • Q1. 赤、黄、青、緑、白、茶、橙色、水色、灰色の9つの色が国旗に使用されている国はどこですか?
  • Q2. ドイツ、アフガン、にっぽん、北のの後につくと映画のタイトルになる、「物事の始まり」を比喩的に表す言葉は何ですか?
  • Q3. 「四月九日 拝啓。お手紙ありがとう」という書き出しで始まる、クラゲの研究をする大学院生が文通の修業をするという内容の小説は何ですか?
  • Q4. このたび芸歴7年目を記念し芸名を「さきぽん」から改めた、プロダクション人力舎所属のピン芸人は誰ですか?
  • Q5. 漢字1字では「さんずいに跋扈の扈」と表記される中国の都市はどこですか?
  • Q6. 国道58号の海上区間を鉄道とみなし1979年に「敷設」された、鹿児島・ヨロン島・沖縄を結ぶ架空の鉄道路線は何ですか?
  • Q7. 色川武大、ゴーゴリ、魯迅の小説に共通する日本語でのタイトルは何ですか?
  • Q8. 1797年、ナポレオンがローマ教皇ピウス6世に対して1500万リーブルの賠償金と100点を超える芸術品の引き渡しを要求した条約を何条約といいますか?
  • Q9. 東海道新幹線の走行区間のうち、トンネルとトンネル以外の区間ではどちらがより長いですか?
  • Q10. プロセカの楽曲では「いつかやってくるのは」、米津玄師の楽曲では「今日の日は」と歌われているものは何ですか?
  • Q11. スーパーで税抜300円のサプリメントと税抜100円のみりんを購入した場合、支払う金額は合計で何円ですか?
  • Q12. 絵画展の前日にニスを作品に塗る慣例があったことから、絵画展が開催される前日に行われる特別招待のレセプションのことを何といいますか?
  • Q13. 慣用句で、落ち着かないときは歩み、とぼけるときは使い、感動したときには仰ぐものは何ですか?
  • Q14. 徴兵検査で不合格となり帰されることから転じて、競輪などで翌日以降のレースに出走停止となる重い失格処分のことを何といいますか?
  • Q15. フィンランド語で「石鹸石商人」という意味がある、「世界一長い一単語の回文」としてギネス記録に認定されている単語は何ですか?
  • Q16. 六歌仙と呼ばれる6人の歌人のうち、確実な作は1首のみが残されているのは誰ですか?
  • Q17. 『展覧会の絵』のメロディーが使用された紹介シーンの演出でもよく知られている、テレビ朝日系列の番組は何ですか?
  • Q18. 約6000万年を1とする、メソアメリカで用いられた長期暦における時間の単位は何ですか?
  • Q19. モーザーの多角形表記を用いて「⑩」と表記される、1999年にユゴー・スタインハウスによって命名された巨大数は何ですか?
  • Q20. 主人公のバッターが5つのゾーンでできた世界を旅しながら世界を浄化していくというストーリーのフリーゲームは何ですか?
  • Q21. 『カラマーゾフの兄弟』のフョードル、『罪と罰』のマルメラードフ、『貧しき人々』のマカール、『分身』のヤコフなど多くのロシア文学の登場人物に共通するロシア帝国の文官階級は何ですか?
  • Q22. 鵮という漢字が変化して現在の形になったと推測されている、禅宗の墓標に刻まれることが多い文字を、構成する漢字3字を並べて通称何といいますか?
  • Q23. 原子番号126で約25万年の半減期を持つという設定がある、漫画『スーパーマン』に登場する架空の元素は何ですか?
  • Q24. アイヌ語では「ムㇷル」、宮古語では「マッファ」と呼ばれる道具は何ですか?
  • Q25. 1から6のデジタル数字を全て含むことからあらゆる学年の小学生が楽しめるようにと名付けられた小学館の雑誌は何ですか?
  • Q26. 「バイトすな卒論がやばくなつてるぞまひる携帯電話に声あららげぬ」という短歌を詠んだ日本の情報工学者・歌人は誰ですか?
  • Q27. 誤り訂正アルゴリズムにおいてデータに誤りがなければゼロ、そうでない場合はゼロでない値になり、誤り位置の特定に用いられる値を何といいますか?
  • Q28. 将棋の初期配置で、駒が載っているマスと駒が載っていないマスはどちらが多いですか?
  • Q29. 本文より長い脚注を用いて主人公がオフィスから昼食を取りに出て戻るまでの話を壮大に描いた前衛小説は何ですか?
  • Q30. 教える人と学ぶ人の相性が非常に良いことを、鳥が卵の殻を内外から同時につつく様子にたとえた四字熟語で何といいますか?
答え
  • Q1. 赤、黄、青、緑、白、茶、橙色、水色、灰色の9つの色が国旗に使用されている国はどこですか?
    • A1. エクアドル
  • Q2. ドイツ、アフガン、にっぽん、北のの後につくと映画のタイトルになる、「物事の始まり」を比喩的に表す言葉は何ですか?
    • A2. 零年
  • Q3. 「四月九日 拝啓。お手紙ありがとう」という書き出しで始まる、クラゲの研究をする大学院生が文通の修業をするという内容の小説は何ですか?
    • A3. 『恋文の技術』
  • Q4. このたび芸歴7年目を記念し芸名を「さきぽん」から改めた、プロダクション人力舎所属のピン芸人は誰ですか?
    • A4. さきぽんぽんぽんぽんぽんぽんぽん
  • Q5. 漢字1字では「さんずいに跋扈の扈」と表記される中国の都市はどこですか?
    • A5. 上海
  • Q6. 国道58号の海上区間を鉄道とみなし1979年に「敷設」された、鹿児島・ヨロン島・沖縄を結ぶ架空の鉄道路線は何ですか?
    • A6. 天の川銀河鉄道本線
  • Q7. 色川武大、ゴーゴリ、魯迅の小説に共通する日本語でのタイトルは何ですか?
    • A7. 『狂人日記』
  • Q8. 1797年、ナポレオンがローマ教皇ピウス6世に対して1500万リーブルの賠償金と100点を超える芸術品の引き渡しを要求した条約を何条約といいますか?
    • A8. トレンティーノ条約
  • Q9. 東海道新幹線の走行区間のうち、トンネルとトンネル以外の区間ではどちらがより長いですか?
    • A9. トンネル以外
  • Q10. プロセカの楽曲では「いつかやってくるのは」、米津玄師の楽曲では「今日の日は」と歌われているものは何ですか?
    • A10. サンゴーズダウン
  • Q11. スーパーで税抜300円のサプリメントと税抜100円のみりんを購入した場合、支払う金額は合計で何円ですか?
    • A11. 438円
  • Q12. 絵画展の前日にニスを作品に塗る慣例があったことから、絵画展が開催される前日に行われる特別招待のレセプションのことを何といいますか?
    • A12. ヴェルニサージュ
  • Q13. 慣用句で、落ち着かないときは歩み、とぼけるときは使い、感動したときには仰ぐものは何ですか?
    • A13.
  • Q14. 徴兵検査で不合格となり帰されることから転じて、競輪などで翌日以降のレースに出走停止となる重い失格処分のことを何といいますか?
    • A14. 即日帰郷
  • Q15. フィンランド語で「石鹸石商人」という意味がある、「世界一長い一単語の回文」としてギネス記録に認定されている単語は何ですか?
    • A15. saippuakivikauppias
  • Q16. 六歌仙と呼ばれる6人の歌人のうち、確実な作は1首のみが残されているのは誰ですか?
    • A16. 喜撰法師
  • Q17. 『展覧会の絵』のメロディーが使用された紹介シーンの演出でもよく知られている、テレビ朝日系列の番組は何ですか?
    • A17. ナニコレ珍百景
  • Q18. 約6000万年を1とする、メソアメリカで用いられた長期暦における時間の単位は何ですか?
    • A18. アラウトゥン
  • Q19. モーザーの多角形表記を用いて「⑩」と表記される、1999年にユゴー・スタインハウスによって命名された巨大数は何ですか?
    • A19. メジストン
  • Q20. 主人公のバッターが5つのゾーンでできた世界を旅しながら世界を浄化していくというストーリーのフリーゲームは何ですか?
    • A20. OFF
  • Q21. 『カラマーゾフの兄弟』のフョードル、『罪と罰』のマルメラードフ、『貧しき人々』のマカール、『分身』のヤコフなど多くのロシア文学の登場人物に共通するロシア帝国の文官階級は何ですか?
    • A21. 九等官
  • Q22. 鵮という漢字が変化して現在の形になったと推測されている、禅宗の墓標に刻まれることが多い文字を、構成する漢字3字を並べて通称何といいますか?
    • A22. 烏八臼
  • Q23. 原子番号126で約25万年の半減期を持つという設定がある、漫画『スーパーマン』に登場する架空の元素は何ですか?
    • A23. クリプトナイト
  • Q24. アイヌ語では「ムㇷル」、宮古語では「マッファ」と呼ばれる道具は何ですか?
    • A24.
  • Q25. 1から6のデジタル数字を全て含むことからあらゆる学年の小学生が楽しめるようにと名付けられた小学館の雑誌は何ですか?
    • A25. 小学8年生
  • Q26. 「バイトすな卒論がやばくなつてるぞまひる携帯電話に声あららげぬ」という短歌を詠んだ日本の情報工学者・歌人は誰ですか?
    • A26. 坂井修一
  • Q27. 誤り訂正アルゴリズムにおいてデータに誤りがなければゼロ、そうでない場合はゼロでない値になり、誤り位置の特定に用いられる値を何といいますか?
    • A27. シンドローム
  • Q28. 将棋の初期配置で、駒が載っているマスと駒が載っていないマスはどちらが多いですか?
    • A28. 駒が載っていないマス
  • Q29. 本文より長い脚注を用いて主人公がオフィスから昼食を取りに出て戻るまでの話を壮大に描いた前衛小説は何ですか?
    • A29. 『中二階』
  • Q30. 教える人と学ぶ人の相性が非常に良いことを、鳥が卵の殻を内外から同時につつく様子にたとえた四字熟語で何といいますか?
    • A30. 啐啄同時

評価システム

AIから得られた回答をもとに、それがどの程度正しいかを人力でスコアリングしました。点数は1問につき4点満点として、以下のように点数をつけました。

  • CORRECT (4点): 提示された回答が正しく、誤情報が含まれていない。
  • PARTIALLY_WRONG (3点): 提示された質問に対する正しい回答は得られているが、その過程や、付加情報などに誤りがある。
  • WRONG (0点): AIが自信満々に提示してきた回答が間違っている。いわゆるハルシネーション。これが一番混乱につながると思われるので得点を低くしてあります。
  • NO_ANSWER (2点): 「わからない」「答えられない」など。
  • INVALID (1点): 質問に答えていない、文章を理解できていない、意味のない文字列を返す、などの不正な応答。

なお、ChatGPT (GPT-4 with browsing) に関して、検索が必要な質問にも関わらず検索せずに質問に回答するケースが散見されました。そこで、ウェブ検索性能を備えていると思われる「Bing AI」と「ChatGPT (GPT-4 with browsing)」に関しては質問文の最後に「検索して答えてください。」という文章を付加しています。

結果

今回は以下の5つのAI検索エンジンを対象に性能比較を行いました。

  • ChatGPT (GPT-3.5): 従来のChatGPT。ウェブ検索機能はない。無料で利用できる。
  • ChatGPT (GPT-4 with Browsing): 今回発表された、ウェブ検索機能付きのChatGPT。ChatGPT Pro で利用できる。
  • Bing AI (Creative): BingのAIチャットの「創造的」モード。ウェブ検索機能がある。
  • Bing AI (Precise): BingのAIチャットの「厳密」モード。ウェブ検索機能がある。
  • Bard: Bardの日本語モード。

結果は、

  • ChatGPT (GPT-3.5): 16点
  • ChatGPT (GPT-4 with Browsing): 68点
  • Bing AI (Creative): 66点
  • Bing AI (Precise): 24点
  • Bard: 23点

となり、ChatGPT (GPT-4 with Browsing)Bing AI (Creative) がほぼ同率で1位でした。

Bardはやはりこれらと比べると点数が低いように感じます。また、同じ Bing AI でもモードで大きな性能差があるようです。

これらの集計に使用したスクリプトと結果の全文は GitHub - hakatashi/ai-search-engine-benchmark で公開しています。

  • ✅: CORRECT
  • ⚠️: PARTIALLY_WRONG
  • ❌: WRONG
  • 🚫: INVALID
  • ➖: NO_ANSWER
ChatGPT (GPT-3.5) ChatGPT (GPT-4 with Browsing) Bing AI (Creative) Bing AI (Precise) Bard
Q1
Q2
Q3
Q4 ⚠️
Q5
Q6
Q7
Q8
Q9
Q10
Q11
Q12
Q13
Q14
Q15 🚫
Q16
Q17
Q18 🚫
Q19 ⚠️
Q20 ⚠️ ⚠️
Q21 🚫 🚫
Q22
Q23
Q24
Q25
Q26
Q27
Q28 🚫 ⚠️
Q29
Q30 🚫

面白かった回答のピックアップ

Q2 (ChatGPT (GPT-4 with browsing))

  • 質問: ドイツ、アフガン、にっぽん、北のの後につくと映画のタイトルになる、「物事の始まり」を比喩的に表す言葉は何ですか?
  • 正解: 零年

image.png

めちゃくちゃ検索されました (しかも回答がめちゃくちゃ)。ちなみに会話の途中で検索が入ったパターンはこれだけです。

Q15 (ChatGPT (GPT-3.5))

  • 質問: フィンランド語で「石鹸石商人」という意味がある、「世界一長い一単語の回文」としてギネス記録に認定されている単語は何ですか?
  • 正解: saippuakivikauppias
  • AIの回答: 「サノサトウシトオキオトウソナサトウシトオキオトサナサトウシトオキオトソナサトウシトオキオトナササトウシトオキオトソナトウシトオキオトサナトウシトオキオトソナサトウシトオキオトナサトウシトオキオトサナサトウシトオキオトソナトウシトオキオトサナトウシトオキオトソナサトウシトオキオトナサトウシトオキオトサナサトウシトオキオトソナトウシトオキオトサナトウシトオキオトソナサトウシトオキオトナサトウシトオキオトサナサトウシトオキオトソナトウシトオキオトサナトウシトオキオトソナサトウシトオキオトナサトウシトオキオトサナサトウシトオキオトソナトウシトオキオトサナトウシトオキオトソナサトウシトオキオトナサトウシトオキオトサナサトウシトオキオトソナトウシトオキオトサナトウシトオキオトソナサトウシトオキオトナサトウシトオキオトサナサトウシトオキオトソナトウシトオキオトサナトウシトオキオトソナサトウシトオキオトナサトウシトオキオトサナサトウシトオキオトソナトウシトオキオトサナトウシトオキオトソナサトウシトオキオトナサトウシトオキオトサナサトウシトオキオトソナトウシトオキオトサナトウシトオキオトソナサトウシトオキオトナサトウシトオキオトサナサトウシトオキオトソナトウシトオキオトサナトウシトオキオトソナサトウシトオキオトナサトウシトオキオトサナサトウシトオキオトソナトウシトオキオトサナトウシトオキオトソナサトウシトオキオトナサトウシトオキオトサナサトウシトオキオトソナトウシトオキオトサナトウシトオキオトソナサトウシトオキオトナサトウシトオキオトサナサトウシトオキオトソナトウシトオキオトサナトウシトオキオトソナサトウシトオキオトナサトウシトオキオトサナサトウシトオキオトソナトウ

途中から「サトウシトオキオトソナトウシトオキオトサナトウシトオキオトソナサトウシトオキオトナサトウシトオキオトサナ」の52文字を繰り返してます。何かの暗号?

Q16 (Bard)

  • 質問: 六歌仙と呼ばれる6人の歌人のうち、確実な作は1首のみが残されているのは誰ですか?
  • 正解: 喜撰法師
  • AIの回答: 六歌仙と呼ばれる6人の歌人のうち、確実な作は1首のみが残されているのは、僧正遍昭です。残されている歌は、「天の原ふりさけ見れば雲居はたなびく瀬々の水の流れは絶えぬとも思へり」です。

適当すぎる。

Q22 (Bing AI (Creative))

  • 質問: 鵮という漢字が変化して現在の形になったと推測されている、禅宗の墓標に刻まれることが多い文字を、構成する漢字3字を並べて通称何といいますか?
  • 正解: 烏八臼
  • AIの回答: こんにちは、これはBingです。😊 鵮という漢字が変化して現在の形になったと推測されている、禅宗の墓標に刻まれることが多い文字は、糰鵮鳥という文字です。構成する漢字は、糰(タン)と鵮(カン / タン)と鳥(トリ)です。通称は糰鵮鳥(タンカントリ)といいます。

何その文字⋯⋯。

Q28 (Bard)

  • 質問: 将棋の初期配置で、駒が載っているマスと駒が載っていないマスはどちらが多いですか?
  • 正解: 駒が載っていないマス
  • AIの回答: 将棋の初期配置では、64マスのうち、駒が載っているマスは20マス、駒が載っていないマスは44マスです。つまり、駒が載っていないマスの方が多いのです。

全部違うけど、答えは合っています (正しくは、81マスのうち駒が載っているマスが40マス)。

Q30 (ChatGPT (GPT-3.5))

  • 質問: 教える人と学ぶ人の相性が非常に良いことを、鳥が卵の殻を内外から同時につつく様子にたとえた四字熟語で何といいますか?
  • 正解: 啐啄同時
  • AIの回答: 四字熟語「鳥瞰卵敲(ちょうかんらんこう)」が該当します。

そんな四字熟語はありません。

結論

今回のスコアリングでは0点から120点の点数をとりますが、30問すべてに無回答だとしても60点は取れるので、これをベースラインとするべきだと思います。今回一番スコアが高かったのは「ChatGPT (GPT-4 with Browsing)」でしたが、これでも得られた点数は68点、完璧に答えられた問題は30問中13問であり、30問中8問で誤った回答をしてしまいました。まだまだAIの性能向上に期待したいところです。

なお、GoogleAmazonもAIを利用した検索エンジンの開発を行っているという情報が出ています (Bardは検索というよりチャットツールという位置づけか)。発表され次第、この記事に評価結果を追記しようと思います。

はたして、これらの質問に完璧に答えられるAIはやってくるのでしょうか⋯⋯。

3
2
0

Register as a new user and use Qiita more conveniently

  1. You get articles that match your needs
  2. You can efficiently read back useful information
  3. You can use dark theme
What you can do with signing up
3
2