More than 1 year has passed since last update.

Llama 3の比較レビュー

Last updated at 2024-04-20Posted at 2024-04-20

はじめに

Meta社が4/18に発表したLlama 3を使ってみたいと考えていたところ，早くも無料で利用可能なサービスを提供しているサイトがあったので，それを使わせてもらい，比較記事を書いてみたいと思います．

使用したサービスとモデルを以下に添付しておきます．なお，モデルはLlama 3が無料で利用できるため，公平にする（？）ということで全て無料のモデルを使用しています．

全て無料のものを使用するのが公平な基準かどうかについては議論の余地があると思いますが，本記事ではサービス利用者目線ということで，この基準とさせて頂きました．
モデルのサイズを基準にしたり，計算量を基準にしたりしても良いのですが，あくまでそれは研究者目線になるのかなという判断です．

今回，使用するサービスの一覧を表に示します．

サービス	モデル	簡単な説明	URL(再掲)
Chat GPT	GPT-3.5	定番のAIサービス	https://chat.openai.com/
Claude	Claude 3 Sonnet	GPT-4を超える性能¹を持ち，専門的な内容に強い	https://claude.ai/
Gemini	Gemini²	マルチモーダル（様々な形式のデータ）に対応	https://gemini.google.com/
groq	Llama2-70b-4096	OSS & 商用利用可能，性能はGPT-3.5程度と言われる³	https://groq.com/
groq	Llama3-70b-8192	今回の本題，Claude 3 Sonnetに匹敵する性能⁴	https://groq.com/
groq	Llama3-8b-8192	上のモデルの小型版	https://groq.com/

次に，評価方法について．
ベンチマークスコアは調べれば直ぐに出てくるので，今回は実際に生成させてみた文章を比較して，主観的な評価をおこないたいと思います．意図した回答か，正確な回答か，といった点を確認します．

また，気になるのが生成速度．
使用している演算装置によって大きく異なるため，本来であればローカルで検証するなどして，同一の環境で生成させるのが良いのでしょうが，大規模な計算環境は持ち合わせていないため，実測時間をベースに，あくまで参考と考えていただければと思います．

最後に，プロンプトですが3つの項目（一般常識，技術的な知識，計算）について問う質問⁵を，それぞれのモデルに同じものを与えます．性能が向上するプロンプトも出回っていますが，これらは特定のモデルに対して効果を与えるものも多いため，使用せずに検証します．

一般常識

富士山について教えて下さい．

太陽系の特徴について述べてください．

技術的な知識

OSI参照モデルについて説明してください．

Docker Containerのライフサイクルを具体的なコマンドを交えながら説明してください．

計算

9348 × 5512を計算してください．

\int_{0}^{5} x^5 dxを計算してください．

先ず，結果を表に示し，具体的な生成文章は後の章に示します．（生成された文章を途中で貼り付けると読みにくくなるため）

モデル	生成時間（最短）[秒]	生成時間（最長）[秒]	平均生成時間 [秒]	生成速度 [文字/秒]
Chat GPT-3.5	3.3	18.7	10.7	52.9
Claude 3 Sonnet	2.9	12.0	8.0	57.9
Gemini	3.8	13.2	9.9	92.2
groq Llama2-70b-4096⁶	1.0	4.6	2.7	226.8
groq Llama3-70b-8192⁶	1.0	3.96	2.1	357.8
groq Llama3-8b-8192⁶	0.8	2.2	1.5	727.1

Llama系のモデルの生成速度が約2～3倍程度早いという結果が得られました．この結果がgroqの実行環境によるものなのか，Llama固有のものなのかは分かりませんが．

次に，生成された文章に対する主観的な評価を表に示します．

モデル	意図した回答	正確な回答	コメント
Chat GPT-3.5	◯	△	計算ができていない．技術的な質問については（簡単な質問だったこともあるかもしれないが）概ね正確に回答できている．
Claude 3 Sonnet	◯	△ or ☓	計算が全くできていない．ハルシネーション（幻覚・LLMがウソの情報を出力する現象）がある程度見られる．技術的な問題についてはしっかりと回答できているような印象
Gemini	◯	△	計算が両方とも正解していた．若干のミスはあるものの，概ね正確に回答できていた．
groq Llama2-70b-4096	△	☓	ハルシネーションが多く見られる．一般常識の質問に弱い印象を受けた．計算も壊滅．
groq Llama3-70b-8192	◯	△	ハルシネーションがある程度見られる．計算ができていない．
groq Llama3-8b-8192	△	☓	多くの誤りが見られる．モデルサイズ相応という印象を受けた．

今回の本題であるLlama系のモデルは正確性に疑念が残る印象となりました．一方で，大枠は合っているため，LLMによって得られた出力に対して裏取りをおこなうという方にとっては，あまり問題にならないかもしれません．

発表されて間もないので扱いたいと思い，取り急ぎ，時間の取れる範囲でまとめてみました．
まだまだ言及すべき点や考察すべき点が残されていると思いますが，それらについては時間の取れるときに編集するかもしれませんし，気力が湧かなければそのままかもしれません．

以下に検証で生成された文章を全て添付しておきます．

https://www.anthropic.com/news/claude-3-family ↩
いくつかのバージョンがあるようですが，リンクのGeminiで利用されているモデルのバージョンについては分かりませんでした．Geminiのリリースノート: https://gemini.google.com/updates?hl=ja ↩
https://llama.meta.com/llama2/ ↩
https://llama.meta.com/llama3/ ↩
最新の情報について質問すると検索エンジンを利用するかで大きく性能が変化するため，直近1年の内容は問わない．また，画像や音声などを利用可能なモデルも多いが，全てに共通して利用可能なテキストのみを使用する． ↩
これらのモデルはプロンプトそのままでは英語でのレスポンスとなったため，「日本語で」という文言をプロンプトの前に追加している．さらに8bモデルについてはなお英語でのレスポンスとなったため，生成速度は日本語よりも大きくなっている． ↩ ↩² ↩³