はじめに
Meta社が4/18に発表したLlama 3
を使ってみたいと考えていたところ,早くも無料で利用可能なサービスを提供しているサイトがあったので,それを使わせてもらい,比較記事を書いてみたいと思います.
使用したサービスとモデルを以下に添付しておきます.なお,モデルはLlama 3
が無料で利用できるため,公平にする(?)ということで全て無料のモデルを使用しています.
全て無料のものを使用するのが公平な基準かどうかについては議論の余地があると思いますが,本記事ではサービス利用者目線ということで,この基準とさせて頂きました.
モデルのサイズを基準にしたり,計算量を基準にしたりしても良いのですが,あくまでそれは研究者目線になるのかなという判断です.
実験内容
今回,使用するサービスの一覧を表に示します.
サービス | モデル | 簡単な説明 | URL(再掲) |
---|---|---|---|
Chat GPT | GPT-3.5 | 定番のAIサービス | https://chat.openai.com/ |
Claude | Claude 3 Sonnet | GPT-4を超える性能1を持ち,専門的な内容に強い | https://claude.ai/ |
Gemini | Gemini2 | マルチモーダル(様々な形式のデータ)に対応 | https://gemini.google.com/ |
groq | Llama2-70b-4096 | OSS & 商用利用可能,性能はGPT-3.5程度と言われる3 | https://groq.com/ |
groq | Llama3-70b-8192 | 今回の本題,Claude 3 Sonnetに匹敵する性能4 | https://groq.com/ |
groq | Llama3-8b-8192 | 上のモデルの小型版 | https://groq.com/ |
次に,評価方法について.
ベンチマークスコアは調べれば直ぐに出てくるので,今回は実際に生成させてみた文章を比較して,主観的な評価をおこないたいと思います.意図した回答か,正確な回答か,といった点を確認します.
また,気になるのが生成速度.
使用している演算装置によって大きく異なるため,本来であればローカルで検証するなどして,同一の環境で生成させるのが良いのでしょうが,大規模な計算環境は持ち合わせていないため,実測時間をベースに,あくまで参考と考えていただければと思います.
最後に,プロンプトですが3つの項目(一般常識,技術的な知識,計算)について問う質問5を,それぞれのモデルに同じものを与えます.性能が向上するプロンプトも出回っていますが,これらは特定のモデルに対して効果を与えるものも多いため,使用せずに検証します.
- 一般常識
富士山について教えて下さい.
太陽系の特徴について述べてください.
- 技術的な知識
OSI参照モデルについて説明してください.
Docker Containerのライフサイクルを具体的なコマンドを交えながら説明してください.
- 計算
9348 × 5512を計算してください.
\int_{0}^{5} x^5 dxを計算してください.
実験結果
先ず,結果を表に示し,具体的な生成文章は後の章に示します.(生成された文章を途中で貼り付けると読みにくくなるため)
モデル | 生成時間(最短)[秒] | 生成時間(最長)[秒] | 平均生成時間 [秒] | 生成速度 [文字/秒] |
---|---|---|---|---|
Chat GPT-3.5 | 3.3 | 18.7 | 10.7 | 52.9 |
Claude 3 Sonnet | 2.9 | 12.0 | 8.0 | 57.9 |
Gemini | 3.8 | 13.2 | 9.9 | 92.2 |
groq Llama2-70b-40966 | 1.0 | 4.6 | 2.7 | 226.8 |
groq Llama3-70b-81926 | 1.0 | 3.96 | 2.1 | 357.8 |
groq Llama3-8b-81926 | 0.8 | 2.2 | 1.5 | 727.1 |
Llama系のモデルの生成速度が約2~3倍程度早いという結果が得られました.この結果がgroqの実行環境によるものなのか,Llama固有のものなのかは分かりませんが.
次に,生成された文章に対する主観的な評価を表に示します.
モデル | 意図した回答 | 正確な回答 | コメント |
---|---|---|---|
Chat GPT-3.5 | ◯ | △ | 計算ができていない.技術的な質問については(簡単な質問だったこともあるかもしれないが)概ね正確に回答できている. |
Claude 3 Sonnet | ◯ | △ or ☓ | 計算が全くできていない.ハルシネーション(幻覚・LLMがウソの情報を出力する現象)がある程度見られる.技術的な問題についてはしっかりと回答できているような印象 |
Gemini | ◯ | △ | 計算が両方とも正解していた.若干のミスはあるものの,概ね正確に回答できていた. |
groq Llama2-70b-4096 | △ | ☓ | ハルシネーションが多く見られる.一般常識の質問に弱い印象を受けた.計算も壊滅. |
groq Llama3-70b-8192 | ◯ | △ | ハルシネーションがある程度見られる.計算ができていない. |
groq Llama3-8b-8192 | △ | ☓ | 多くの誤りが見られる.モデルサイズ相応という印象を受けた. |
今回の本題であるLlama系のモデルは正確性に疑念が残る印象となりました.一方で,大枠は合っているため,LLMによって得られた出力に対して裏取りをおこなうという方にとっては,あまり問題にならないかもしれません.
最後に
発表されて間もないので扱いたいと思い,取り急ぎ,時間の取れる範囲でまとめてみました.
まだまだ言及すべき点や考察すべき点が残されていると思いますが,それらについては時間の取れるときに編集するかもしれませんし,気力が湧かなければそのままかもしれません.
生成された文章
以下に検証で生成された文章を全て添付しておきます.
Chat GPT-3.5
Claude 3 Sonnet
Gemini
groq Llama2-70b-4096
groq Llama3-70b-8192
groq Llama3-8b-4096
-
いくつかのバージョンがあるようですが,リンクのGeminiで利用されているモデルのバージョンについては分かりませんでした.Geminiのリリースノート: https://gemini.google.com/updates?hl=ja ↩
-
最新の情報について質問すると検索エンジンを利用するかで大きく性能が変化するため,直近1年の内容は問わない.また,画像や音声などを利用可能なモデルも多いが,全てに共通して利用可能なテキストのみを使用する. ↩
-
これらのモデルはプロンプトそのままでは英語でのレスポンスとなったため,「日本語で」という文言をプロンプトの前に追加している.さらに8bモデルについてはなお英語でのレスポンスとなったため,生成速度は日本語よりも大きくなっている. ↩ ↩2 ↩3