1. 概要
この論文では、ChatGPTとGPT-4の数学的な課題解決能力を評価しており、人間の大学院生レベルの問題解決能力にはまだまだ課題があることを調査している。評価には2つのChatGPTモデル(9-January-2023, 30-January-2023)とGPT-4を用いており、大学院レベルの数学問題を集めたデータセットを2つ新たに公開している。従来のベンチマーク課題は、初等数学のみを取り扱っていたりデータセットが小さかったりしたため、数学的推論の様々な側面を扱えるようなデータセットを構築している。
また、実際に1636人の数学者に対して評価実験を行っており、ChatGPTとGPT-4が実際の数学者の業務でどのくらい役に立つかを調査している。
2. 新規性
大学院レベルの数学を対象とした、大規模言語モデルによる数学能力を幅広く評価できるデータセットを公開している。
3. 実現方法
- GHOSTSとminiGHOSTSという新しい数学のベンチマークデータセットを作成
- 公開されている他のデータセットと合わせて、ChatGPT (2種類のバージョン)とGPT-4 をテスト
- 数学者の専門家が評価を行い、ChatGPTとGPT-4の能力を分析
4. 結果
サンキーダイアグラムでは1‐5段階評価でminiGHOSTデータセット上で評価されており、生成AIのバージョンが上がると数学的課題解決力の向上が見られるかを示しているが、ChatGPTの2つのバージョンはアップデートされても全体的なパフォーマンスが変わっていないことを示している。一方、GPT-4では最高評価5を獲得する割合が大幅に上昇している。
ChatGPTとGPT-4は、数学的な質問に答える検索エンジンや知識ベースとして利用するのが最も得意とする分野になるため、以下のような出力例で数学のサポートとして用いると効果があるとしている。
GHOSTデータセットには各種サブセットの数学タスクがあり、平均評価の内訳を見てみるとGPT-4の課題解決力が平均して高いことが分かる。ここで、最高評価は5で質問の意味が分からなかった場合を1としているため、実質最低評価は2となり妥当な合格ラインは得点の50%である3.5としている。また、グラフのバーは95%信頼区間を表している。
GPT-4はある程度までなら大学レベルの数学も扱えるが、大学院レベルの数学の問題になると失敗する。メディアで報じられるような、試験問題を突破できるほどの能力は確認できなかったことから、過大評価の可能性を示唆している。
Paper URL: https://openreview.net/forum?id=xJ7YWXQOrg
last updates: May. 17 2024