概要
現在 LLM と言えば OpenAI の GPT が最も有名かと思いますが、この記事ではそれと並び得る性能を持つ Anthropic の Claude と Google の PaLM 2 について取り上げます。
- 現時点の性能は大体
GPT-4 > Claude v1 ≈ PaLM 2 > GPT-3.5
- Claude 100k は GPT-4 のコンテキスト幅を大きく上回るため期待できる
- Google は更に次世代のモデル Gemini を訓練中で、完全に未知数
- Chatbot Arena, Chain of Thought Hub, HELM が性能比較に有用
比較表
モデル | 利用できる UI | API | 備考 |
---|---|---|---|
GPT-4 | ChatGPT (有料), Bing | Waitlist | 最高性能 |
Claude v1.3 100k | Claude web app (Waitlist) | Waitlist | Claude のコンテキスト幅を 10 万トークンに拡張した。有望だが情報が乏しい |
Claude v1.3 | Poe (有料), Slack アプリ | Waitlist | GPT-3.5 と GPT-4 の中間の性能 |
PaLM 2 | Bard | Waitlist | Claude v1.3 に近い性能? |
GPT-3.5 | ChatGPT | 一般公開 | 誰でも使える |
Claude Instant 100k | Poe (有料) | Waitlist | Claude Instant のコンテキスト幅を 10 万トークンに拡張した |
Claude Instant | Poe | Waitlist | GPT-3.5 に少し劣る性能 |
各モデルの解説
GPT
もはや説明するまでもありませんが、OpenAI の ChatGPT で使われているモデルです。
特に GPT-4 は、ベンチマーク結果を見ても、実際の応答を目視で主観的に判断しても、ほとんどのケースで他の LLM より明らかに優れています。
Claude
Anthropic が開発しているモデルで、Poe や Slack アプリを通じて一般公開されています。Claude には高性能な v1 と高速な Instant の 2 種類のモデルがあり、Claude v1 は GPT-3.5 と GPT-4 の中間ぐらいの性能を持っています。
特に注目に値するのは、5 月 11 日に発表されたコンテキスト幅 10 万トークンのバージョン 1 でしょう。これは gpt-4-32k と比較して約 3 倍で、実用レベルの性能を持つ LLM の中では最長のコンテキスト幅です。10 万トークンもあれば、小規模なコードベースや数百ページのドキュメントが丸ごとコンテキストに収まります。参考までに、Auto-GPT の /auto-gpt ディレクトリ以下の全ファイルを繋げるとおよそ 6 万トークンになります。
記事作成時点で Claude v1 100k はアーリーアクセスに限られ、実際に使用・評価した情報は多くありませんが、コンテキスト幅を活かしたデモとして以下のような例があります。
- Netflix の 10k レポートの PDF (85 ページ) を読み込んで、特に重要な部分とその理由を回答させた 1
- Langchain のドキュメントの PDF (240 ページ) を読み込んで、Langchain の簡単なデモコードを書かせた 1
- 5 時間のポッドキャストの文字起こし (8 万トークン) を入力し、要約させたり質問したりした 2
上記のデモはいずれも非常に簡単なタスクを扱っているため、これだけでは何とも言い難いところですが、「GPT-4 に次ぐ性能」+「GPT-4 を凌ぐコンテキスト幅」という点で、個人的に期待が持てます。
PaLM 2
5 月 10 日に発表され、最新版の Google Bard で使われているモデルです。
Google のブログ記事では Gecko / Otter / Bison / Unicorn の 4 種類のモデルサイズが利用可能になると発表しています。一方「テクニカルレポート」では S / M / L の 3 種のモデルの評価結果を報告しており、上記 4 種とどう対応するのか定かではありません。
更に、Bard がどのモデルを使用しているのかも不明です。
PaLM 2-L の評価結果を見る限り、Claude v1 と並ぶ程度の性能を持つようです (後述の Chain of Thought Hub 参照) 。
また別のブログ記事によるとコンテキスト幅は 8,000 トークンであり、際立って優れている部分は見当たりません。
Gemini
Google が PaLM 2 を発表したのと同時に、次世代のモデル Gemini を訓練中であると明かしました。記事によれば「マルチモーダル」、「ツール・API 連携」、「記憶・計画能力」を念頭に入れて設計されているようで、自律行動型の AI エージェント (Auto-GPT など) を意識しているかのような印象を受けます。
OpenAI の CEO は現在 GPT-5 を開発しておらず当面その予定も無いと明言している3 ため、仮に Gemini が GPT-4 を凌ぐ性能を発揮すれば、一歩リードする形になります。
LLM の性能比較に有用なリンク
Chatbot Arena
LLM 同士を 1v1 で「対戦」させて、勝敗をもとに Elo レート (チェスなどの競技でプレイヤーの実力を示すために使われるスコア) を付けて公開しています。2 種類の LLM とモデル名を隠した状態で並列にチャットし、最終的にどちらの返答が良かったかを人間が選ぶ仕組みです。
この評価方法の利点に関してはブログ記事に詳しく書かれているので、興味のある方は参照してみてください。
5 月 8 日に更新されたリーダーボードを一部抜粋します。興味深いことに GPT-4 と Claude はかなりの僅差で、直接対決の結果は 34 勝 32 敗となっています。
順位 | モデル | Elo レート |
---|---|---|
1 | GPT-4 | 1274 |
2 | Claude v1 | 1224 |
3 | GPT-3.5 | 1155 |
4 | vicuna-13b | 1083 |
… | … | … |
13 (最下位) | llama-13b | 826 |
Chain of Thought Hub
自然言語処理のベンチマークデータの中でも特に複雑な推論タスクを扱う GSM8K, MATH, MMLU, BBH に絞って結果をまとめたレポジトリです。公平な評価にするため、全て Chain-of-Thought プロンプトを使った場合のスコアに統一されています。
本記事で紹介したモデルに関する部分のみを下の表に抜粋します。 (数値は正答率のパーセント)
モデル | GSM8K | MATH | MMLU | BBH |
---|---|---|---|---|
GPT-4 | 92.0 | 42.5 | 86.4 | - |
Claude v1 | 81.8 | - | 74.8 | - |
PaLM 2 | 80.7 | 34.3 | 78.3 | 78.1 |
GPT-3.5 | 74.9 | - | 67.3 | 70.1 |
Claude Instant | 70.8 | - | - | - |
注意点
- GPT-4 の MATH のスコアは “Sparks of AGI” の論文が元になっています。これは安全措置を施す前の GPT-4-early の評価結果なので、リリース版の性能はこれよりも低いはずです。
- PaLM 2 のスコアは「テクニカルレポート」に記載されている L モデルの数値です。Bard が L モデルを使っているかどうかは不明です。
HELM
非常に多数のモデルとデータセットで検証した結果がまとまっています。
ただし記事作成時点で最終更新が 3 月 19 日となっており、GPT-4 などのモデルの評価がまだ有りません。