More than 1 year has passed since last update.

GPT-4より性能が高い（らしい）言語モデルが公開されたみたいなので、出力内容を確認してみる

Posted at 2023-09-21

GPT-4を上回る（らしい）性能のXwin-LMが公開される

なんでも、言語モデルのベンチマークテストでGPT-4よりも良い成績を出したのだとか。
ベンチマークテストの結果と出力内容を確認できるサイトは下記にあります。
AlpacaEval Leaderboard

ベンチマークサイトの画像。モデル名の横のテキストマークを押すと、出力内奥を確認できます。

ベンチマークテストで質問される内容とそれに対する出力結果が見れるようになっていたので、いくつか抜粋して比較してみようと思います。
（ベンチマークテストはすべて英語だったので、下記は日本語に翻訳しています。質問文は検索用として原文も記載しています。）

原文：Suppose I have 12 eggs. I drop 2 and eat 5. How many eggs do I have left?

あなたは残り5つの卵を持っています。

もし最初に12個の卵があって、そのうち2個を落とし、5個を食べたら、残りは合計5個の卵になります。これは、最初に12個の卵があり、そのうち2個を落として10個になり、その後5個を食べて残り5個になったからです。

Xwin-LMは回答が長いですね…この質問に関してはGPT-4のほうが優れた回答なのではないでしょうか

原文：What year was the Yamato Battleship built?

大和戦艦は1937年から1941年の間に建造されました。それは1941年12月16日に日本帝国海軍によって就役しました。

大和戦艦は、日本帝国海軍のために第二次世界大戦中に建造されました。その建造は1937年に始まり、1940年8月8日に進水しました。大和は大和型戦艦の先頭艦であり、これらは最大かつ最強の戦艦でした。この船は、現在の奈良県として知られている古代の日本の大和省にちなんで名付けられました。

こちらもGPT-4のほうが必要最低限の出力をしているように見られます。

原文：Do you know how to speak German?

はい、私はドイツ語を話すことも理解することもできます。ドイツ語での質問や助けが必要な場合は、遠慮なくお尋ねください！

はい、私はドイツ語を話すことも理解することもできます。基本的なフレーズや文法、または他のドイツ語に関連する質問についてお手伝いできます。何か助けが必要なことがあれば、遠慮なくお尋ねください。

この質問はそれほど出力の差を感じませんが、やはり端的なのはGPT-4のように見えます。

ベンチマークテストの出力内容を見る限りでは、現時点でGPT-4のほうが優れているのではないかなと感じました。理由は主に下記2点です。

※すべての出力内容を見たわけではなく、あくまでも主観による感想ですので、気になる方は実際の出力結果を眺めてみてください