12
15

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?

Llama 3の比較レビュー

Last updated at Posted at 2024-04-20

はじめに

Meta社が4/18に発表したLlama 3を使ってみたいと考えていたところ,早くも無料で利用可能なサービスを提供しているサイトがあったので,それを使わせてもらい,比較記事を書いてみたいと思います.

使用したサービスとモデルを以下に添付しておきます.なお,モデルはLlama 3が無料で利用できるため,公平にする(?)ということで全て無料のモデルを使用しています.

全て無料のものを使用するのが公平な基準かどうかについては議論の余地があると思いますが,本記事ではサービス利用者目線ということで,この基準とさせて頂きました.
モデルのサイズを基準にしたり,計算量を基準にしたりしても良いのですが,あくまでそれは研究者目線になるのかなという判断です.

実験内容

今回,使用するサービスの一覧を表に示します.

サービス モデル 簡単な説明 URL(再掲)
Chat GPT GPT-3.5 定番のAIサービス https://chat.openai.com/
Claude Claude 3 Sonnet GPT-4を超える性能1を持ち,専門的な内容に強い https://claude.ai/
Gemini Gemini2 マルチモーダル(様々な形式のデータ)に対応 https://gemini.google.com/
groq Llama2-70b-4096 OSS & 商用利用可能,性能はGPT-3.5程度と言われる3 https://groq.com/
groq Llama3-70b-8192 今回の本題,Claude 3 Sonnetに匹敵する性能4 https://groq.com/
groq Llama3-8b-8192 上のモデルの小型版 https://groq.com/

次に,評価方法について.
ベンチマークスコアは調べれば直ぐに出てくるので,今回は実際に生成させてみた文章を比較して,主観的な評価をおこないたいと思います.意図した回答か,正確な回答か,といった点を確認します.

また,気になるのが生成速度.
使用している演算装置によって大きく異なるため,本来であればローカルで検証するなどして,同一の環境で生成させるのが良いのでしょうが,大規模な計算環境は持ち合わせていないため,実測時間をベースに,あくまで参考と考えていただければと思います.

最後に,プロンプトですが3つの項目(一般常識,技術的な知識,計算)について問う質問5を,それぞれのモデルに同じものを与えます.性能が向上するプロンプトも出回っていますが,これらは特定のモデルに対して効果を与えるものも多いため,使用せずに検証します.

  • 一般常識
    富士山について教えて下さい.
    
    太陽系の特徴について述べてください.
    
  • 技術的な知識
    OSI参照モデルについて説明してください.
    
    Docker Containerのライフサイクルを具体的なコマンドを交えながら説明してください.
    
  • 計算
    9348 × 5512を計算してください.
    
    \int_{0}^{5} x^5 dxを計算してください.
    

実験結果

先ず,結果を表に示し,具体的な生成文章は後の章に示します.(生成された文章を途中で貼り付けると読みにくくなるため)

モデル 生成時間(最短)[秒] 生成時間(最長)[秒] 平均生成時間 [秒] 生成速度 [文字/秒]
Chat GPT-3.5 3.3 18.7 10.7 52.9
Claude 3 Sonnet 2.9 12.0 8.0 57.9
Gemini 3.8 13.2 9.9 92.2
groq Llama2-70b-40966 1.0 4.6 2.7 226.8
groq Llama3-70b-81926 1.0 3.96 2.1 357.8
groq Llama3-8b-81926 0.8 2.2 1.5 727.1

Llama系のモデルの生成速度が約2~3倍程度早いという結果が得られました.この結果がgroqの実行環境によるものなのか,Llama固有のものなのかは分かりませんが.

次に,生成された文章に対する主観的な評価を表に示します.

モデル 意図した回答 正確な回答 コメント
Chat GPT-3.5 計算ができていない.技術的な質問については(簡単な質問だったこともあるかもしれないが)概ね正確に回答できている.
Claude 3 Sonnet △ or ☓ 計算が全くできていない.ハルシネーション(幻覚・LLMがウソの情報を出力する現象)がある程度見られる.技術的な問題についてはしっかりと回答できているような印象
Gemini 計算が両方とも正解していた.若干のミスはあるものの,概ね正確に回答できていた.
groq Llama2-70b-4096 ハルシネーションが多く見られる.一般常識の質問に弱い印象を受けた.計算も壊滅.
groq Llama3-70b-8192 ハルシネーションがある程度見られる.計算ができていない.
groq Llama3-8b-8192 多くの誤りが見られる.モデルサイズ相応という印象を受けた.

今回の本題であるLlama系のモデルは正確性に疑念が残る印象となりました.一方で,大枠は合っているため,LLMによって得られた出力に対して裏取りをおこなうという方にとっては,あまり問題にならないかもしれません.

最後に

発表されて間もないので扱いたいと思い,取り急ぎ,時間の取れる範囲でまとめてみました.
まだまだ言及すべき点や考察すべき点が残されていると思いますが,それらについては時間の取れるときに編集するかもしれませんし,気力が湧かなければそのままかもしれません.

生成された文章

以下に検証で生成された文章を全て添付しておきます.

Chat GPT-3.5

image.png

image.png

image.png

image.png

image.png

image.png

Claude 3 Sonnet

image.png

image.png

image.png

image.png

image.png

image.png

Gemini

image.png

image.png

image.png

image.png

image.png

image.png

image.png

groq Llama2-70b-4096

image.png

image.png

image.png

image.png

image.png

image.png

groq Llama3-70b-8192

image.png

image.png

image.png

image.png

image.png

image.png

groq Llama3-8b-4096

image.png

image.png

image.png

image.png

image.png

image.png

  1. https://www.anthropic.com/news/claude-3-family

  2. いくつかのバージョンがあるようですが,リンクのGeminiで利用されているモデルのバージョンについては分かりませんでした.Geminiのリリースノート: https://gemini.google.com/updates?hl=ja

  3. https://llama.meta.com/llama2/

  4. https://llama.meta.com/llama3/

  5. 最新の情報について質問すると検索エンジンを利用するかで大きく性能が変化するため,直近1年の内容は問わない.また,画像や音声などを利用可能なモデルも多いが,全てに共通して利用可能なテキストのみを使用する.

  6. これらのモデルはプロンプトそのままでは英語でのレスポンスとなったため,「日本語で」という文言をプロンプトの前に追加している.さらに8bモデルについてはなお英語でのレスポンスとなったため,生成速度は日本語よりも大きくなっている. 2 3

12
15
0

Register as a new user and use Qiita more conveniently

  1. You get articles that match your needs
  2. You can efficiently read back useful information
  3. You can use dark theme
What you can do with signing up
12
15

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?