昨日、AnthropicがClaude 3を発表しました。ベンチマークではChatGPT4を上回っています。(⇩図)
ベンチマーク結果に対して、数学問題の解決能力とコード生成能力は特に注目すべきところだと思います。
LLMが数学問題を解決する能力はいつも性能を検証する上で非常に重要な指標です。(一部の意見では、モデルが数学の問題を得意とするほど、ロジカルシンキング能力が高く、知能が高いとされています)
例えば、図に書いてる”math problem-solving”項目について、スコアだけを見ると、Claude 3はGPT-4を数%だけ越えてるようですが、実はそれだけではなくポイントとなっているのは、Claude 3が数学の問題に対して全て0-shotで答えたです(一方でChatGPT4は4-shotです)。これは非常に大きな進化だと思います。つまり、モデルが人間の解法を参照する必要がなく、ある程度自ら数学問題を正確に解けるようになったことを示しています。
もう一つのコード生成について、こちらのスコアは67%から84%へ上げてますし、私が今日実際にコードを書いてみたところ、確かにChatGPT4より精度が高いと感じてました。(ChatGPTから生成されたコードは基本的にdebugする前提で使用していますが、Claude3は、今日試した限り、基本的には一発で実行できるコードを生成されました)
あとは、Claude 3は日本語能力も向上されたと言われています(これはまだ感じていません。多分私は外国人からかもしれません)。
興味ある方試してみてください:(最新モデル使うためにはProにアップグレードする必要があります。料金はGPT-4と同じく月20ドルです)