LoginSignup
0
0

GPT-4oはどこがどう優秀なのか?

Last updated at Posted at 2024-05-15

Googleが2023年12月に発表したGeminiの最初の紹介動画をみてみましょう。
https://www.youtube.com/watch?v=UIZAiXYceBI
この動画は、すぐに「フェイク」と指摘され、Geminiの性能が疑われることになりました。

OpenAIが2024年5月に発表したGPT-4oのデモは、Googleへの回答でした。
https://www.youtube.com/watch?v=DQacCB9tDaw
あらかじめ録画された動画ではなく、リアルタイムで動作する様子を見せることで、翌日に控えたGoogle I/Oの発表をかすませる目的もあったでしょう。いや、あえて前日に発表しているのですから、98%はGoogleへの当てつけです。

さて、世の中ではGPT-4oがスゴイともてはやされていますが、本当にスゴいんでしょうか?
GPT-4oを紹介するOpenAIのブログポストでは、

It matches GPT-4 Turbo performance on text in English and code, with significant improvement on text in non-English languages

と述べられており、「英語以外の言語のテキストでは大幅に改善された」とは言っていますが、「英語のテキストおよびコードでは GPT-4 Turboのパフォーマンスに匹敵」としか言っていません。GPT-4oで日本語の性能がどれだけ上がったかは公式発表ではよくわからない(トークン数が圧縮された、とは言っている)のです。

image.png

そこで、GPT-4系にSPI型の問題295問を生成AIツール for Excelで解かせて比較したのが以下のグラフです。

image.png

ご存じのとおり、SPIには英語、言語(日本語)、非言語(計算、論理問題)の3分野があります。英語はほぼ満点なので比較にならず、言語でみるとGPT-4 Turboと同等の能力(言語分野の満点は69点)とわかります。OpenAIの説明どおりです。一方で、非言語問題はGPT-4よりやや性能が落ちており、GPT-4oは能力が高まったと言っている一部のAI驚き屋の解説は鵜呑みにできないとわかります。問題を解かせる際に「ステップバイステップで考えよう」を入れても、GPT-4 Turboの能力には達しませんでした。

では、GPT-4oはどの性能が高まったのでしょうか? 同じブログポストでは

being much faster and 50% cheaper in the API.

と述べています。API経由で50%安くなる原価率の改善は不明ですが、単価を50%下げられるなら、原価も50%安くなった、としましょう。コンピューターの原価は電気代のことですが、電気代はワット数と時間で決まります。そして、

GPT-4o is especially better at vision and audio understanding compared to existing models.

とも述べています。GPT-4oを安価に提供できるということは、以前よりも計算量が少なくなり、より少ない回路(GPU)を使って、より短い時間で処理できるから、単価を下げられ、視覚と聴覚、音声の処理にかけられる時間とコストが生まれ、人間並みの応答時間で会話ができる、ということのはずです。実際、GPT-4oを採用したボイスチャットでは、単一モデルで入力系(視覚、聴覚)と出力系(発話)を処理するように改善されたといいますから、この分析でだいたいは合っているはずです。

こう説明すると性能差がないように思えますが、さらに詳しくみると、性能が高まった分野もあります。

image.png

上のグラフは、GPT-4系のSPI型能力試験の単元ごとの成績を示しています。もっとも注目したいのは、GPT-4oが特殊計算の問題で「ステップバイステップで考えよう」を入れて推論させると、他のモデルより明らかに性能が高まることです。

SPI型試験の特殊計算とは、問題文を読み解かないと式を作れないような、国語と算数を合わせたような分野です。OpenAIがマルチモーダルな方向でフラッグシップモデルを更新したということは、GPT-4oが能力を発揮する形で大きな取引があった、と考えられます。「取引」とは、AppleのSiriがGPT-4oに置き換わるのかもしれないし、Windows 11にGPT-4oが搭載されるのかもしれません。あるいは、ジョナサン・アイブとサム・アルトマンのプロジェクトが進展しているのかもしれません。

いずれにしても、テキストチャットアプリを大企業に売りつけるビジネスはもうすぐ終了です。マルチモーダルな方向に作り直さないといけません。そういえば、企業内のファイルをRAG検索するシステムは、閉店前最後の売り時ということで、情弱企業向けのセールスが盛んに動いています。ごみ拾いさせられないよう、皆さんお気を付けください。

0
0
0

Register as a new user and use Qiita more conveniently

  1. You get articles that match your needs
  2. You can efficiently read back useful information
  3. You can use dark theme
What you can do with signing up
0
0