はじめに
前回は Hello Worldの評価をしました。
今回は同じローカル環境で複数モデルを実行し、「走れメロス」要約タスクの評価結果をまとめます。
「どのモデルが速いか」だけでなく、
「指示どおりに答えるか」「内容が正しいか」も確認します。
対象者
GPUなし・クラウドなしのローカル環境でLLMを試したい人。
今回も10年ほど前のデスクトップのWSLで動かしています。
環境
OS : Ubuntu 24.04.1 LTS
CPU : Intel(R) Core(TM) i7-4790 CPU @ 3.60GHz
メモリ : 16GB
llama.cpp: version 8146 (418dea39c)
関連記事
CPUだけでローカルLLMを動かしてみた
llama.cppのオプションを調べてみた
llama-serverを試してみた
評価方針
今回は要約タスクの評価を行いました。
- 「走れメロス」の一部を200字で要約させる
- 日本語で出力する
「走れメロス」
出典:青空文庫
評価対象モデル
| モデル | リリース元 | 備考 | ファイル容量 |
|---|---|---|---|
| Meta-Llama-3-8B-Instruct-Q4_K_M | Meta | 8B | 約4.9 GB |
| Mistral-7B-Instruct-v0.3-Q4_K_M | Mistral AI | 7B | 約4.1 GB |
| Qwen2.5-7B-Instruct-Q4_K_M | Alibaba | 7B | 約4.7 GB |
| gemma-2-9b-it-Q4_K_M | 9B | 約5.4 GB | |
| qwen2.5-3b-instruct-q4_k_m | Alibaba | 3B | 約2.0 GB |
Hello Worldの評価に使ったモデルと同じです。
モデルのダウンロード
各モデルは Hugging Face からダウンロードできます。
# Meta-Llama-3-8B-Instruct-Q4_K_M
wget https://huggingface.co/bartowski/Meta-Llama-3-8B-Instruct-GGUF/resolve/main/Meta-Llama-3-8B-Instruct-Q4_K_M.gguf
# Mistral-7B-Instruct-v0.3-Q4_K_M
wget https://huggingface.co/bartowski/Mistral-7B-Instruct-v0.3-GGUF/resolve/main/Mistral-7B-Instruct-v0.3-Q4_K_M.gguf
# Qwen2.5-7B-Instruct-Q4_K_M
wget https://huggingface.co/bartowski/Qwen2.5-7B-Instruct-GGUF/resolve/main/Qwen2.5-7B-Instruct-Q4_K_M.gguf
# gemma-2-9b-it-Q4_K_M
wget https://huggingface.co/bartowski/gemma-2-9b-it-GGUF/resolve/main/gemma-2-9b-it-Q4_K_M.gguf
# qwen2.5-3b-instruct-q4_k_m
wget https://huggingface.co/Qwen/Qwen2.5-3B-Instruct-GGUF/resolve/main/qwen2.5-3b-instruct-q4_k_m.gguf
結果
プロンプト
以下の要約200字以内でお願いします。
結果一覧
| モデル名 | 要約の特徴 | 結果の信頼性 | 生成時間 |
|---|---|---|---|
| Meta-Llama-3-8B-Instruct-Q4_K_M | 日本語指定指示を無視し、英語で要約 | 低 | 3.7 t/s |
| Mistral-7B-Instruct-v0.3-Q4_K_M | 英語出力。原文にない補完(音楽禁止など)が含まれる | 低 | 3.5 t/s |
| Qwen2.5-7B-Instruct-Q4_K_M | 日本語で簡潔。原文要点を比較的素直に要約 | 高 | 4.0 t/s |
| gemma-2-9b-it-Q4_K_M | 日本語で読みやすいが、一部推測がある | 中 | 2.7 t/s |
| qwen2.5-3b-instruct-q4_k_m | 速度は最速だが、事実誤認がある | 低 | 8.6 t/s |
まとめ
個人的な感想ですが、このラインナップの中ではQwenが圧倒的に応答速度、精度の面で優秀ですね。
実用面では Qwen2.5-7B-Instruct で
応答速度重視なら qwen2.5-3b-instruct という印象は今回の評価でのかわりませんでした。
この記事を書いている中で新しいモデルがリリースされたみたいなので、次はそちらの
評価をおこなってみます。