GPT-4を上回る(らしい)性能のXwin-LMが公開される
詳細は下記記事にまとめられています。
GPT-4を上回るオープンなLLM誕生? 中国研究者らが「Xwin-LM」公開
なんでも、言語モデルのベンチマークテストでGPT-4よりも良い成績を出したのだとか。
ベンチマークテストの結果と出力内容を確認できるサイトは下記にあります。
AlpacaEval Leaderboard
ベンチマークサイトの画像。モデル名の横のテキストマークを押すと、出力内奥を確認できます。
実際の出力内容はどんなもんなのか?
ベンチマークテストで質問される内容とそれに対する出力結果が見れるようになっていたので、いくつか抜粋して比較してみようと思います。
(ベンチマークテストはすべて英語だったので、下記は日本語に翻訳しています。質問文は検索用として原文も記載しています。)
「12個の卵があるとします。2個を落とし、5個を食べました。残りは何個でしょうか?」
原文:Suppose I have 12 eggs. I drop 2 and eat 5. How many eggs do I have left?
GPT-4の回答:
あなたは残り5つの卵を持っています。
Xwin-LMの回答:
もし最初に12個の卵があって、そのうち2個を落とし、5個を食べたら、残りは合計5個の卵になります。これは、最初に12個の卵があり、そのうち2個を落として10個になり、その後5個を食べて残り5個になったからです。
Xwin-LMは回答が長いですね…この質問に関してはGPT-4のほうが優れた回答なのではないでしょうか
大和戦艦は何年に建造されましたか?
原文:What year was the Yamato Battleship built?
GPT-4の回答:
大和戦艦は1937年から1941年の間に建造されました。それは1941年12月16日に日本帝国海軍によって就役しました。
Xwin-LMの回答:
大和戦艦は、日本帝国海軍のために第二次世界大戦中に建造されました。その建造は1937年に始まり、1940年8月8日に進水しました。大和は大和型戦艦の先頭艦であり、これらは最大かつ最強の戦艦でした。この船は、現在の奈良県として知られている古代の日本の大和省にちなんで名付けられました。
こちらもGPT-4のほうが必要最低限の出力をしているように見られます。
ドイツ語を話すことができますか?
原文:Do you know how to speak German?
GPT-4の回答:
はい、私はドイツ語を話すことも理解することもできます。ドイツ語での質問や助けが必要な場合は、遠慮なくお尋ねください!
Xwin-LMの回答:
はい、私はドイツ語を話すことも理解することもできます。基本的なフレーズや文法、または他のドイツ語に関連する質問についてお手伝いできます。何か助けが必要なことがあれば、遠慮なくお尋ねください。
この質問はそれほど出力の差を感じませんが、やはり端的なのはGPT-4のように見えます。
ベンチマークでは好成績でも…
ベンチマークテストの出力内容を見る限りでは、現時点でGPT-4のほうが優れているのではないかなと感じました。理由は主に下記2点です。
- 質問に対して必要な情報を絞って回答できている。
- !を使って文章に抑揚をつけるなど、コミュニケーション能力高そう
※すべての出力内容を見たわけではなく、あくまでも主観による感想ですので、気になる方は実際の出力結果を眺めてみてください