ローカルLLMの生成能力を評価してみた(要約編)

Posted at 2026-03-11

はじめに

前回は Hello Worldの評価をしました。
今回は同じローカル環境で複数モデルを実行し、「走れメロス」要約タスクの評価結果をまとめます。

「どのモデルが速いか」だけでなく、
「指示どおりに答えるか」「内容が正しいか」も確認します。

対象者

GPUなし・クラウドなしのローカル環境でLLMを試したい人。
今回も10年ほど前のデスクトップのWSLで動かしています。

環境

OS : Ubuntu 24.04.1 LTS
CPU : Intel(R) Core(TM) i7-4790 CPU @ 3.60GHz
メモリ : 16GB
llama.cpp: version 8146 (418dea39c)

CPUだけでローカルLLMを動かしてみた
 llama.cppのオプションを調べてみた
 llama-serverを試してみた

評価方針

今回は要約タスクの評価を行いました。

「走れメロス」の一部を200字で要約させる
日本語で出力する

「走れメロス」
出典：青空文庫

評価対象モデル

モデル	リリース元	備考	ファイル容量
Meta-Llama-3-8B-Instruct-Q4_K_M	Meta	8B	約4.9 GB
Mistral-7B-Instruct-v0.3-Q4_K_M	Mistral AI	7B	約4.1 GB
Qwen2.5-7B-Instruct-Q4_K_M	Alibaba	7B	約4.7 GB
gemma-2-9b-it-Q4_K_M	Google	9B	約5.4 GB
qwen2.5-3b-instruct-q4_k_m	Alibaba	3B	約2.0 GB

Hello Worldの評価に使ったモデルと同じです。

モデルのダウンロード

各モデルは Hugging Face からダウンロードできます。

# Meta-Llama-3-8B-Instruct-Q4_K_M
wget https://huggingface.co/bartowski/Meta-Llama-3-8B-Instruct-GGUF/resolve/main/Meta-Llama-3-8B-Instruct-Q4_K_M.gguf

# Mistral-7B-Instruct-v0.3-Q4_K_M
wget https://huggingface.co/bartowski/Mistral-7B-Instruct-v0.3-GGUF/resolve/main/Mistral-7B-Instruct-v0.3-Q4_K_M.gguf

# Qwen2.5-7B-Instruct-Q4_K_M
wget https://huggingface.co/bartowski/Qwen2.5-7B-Instruct-GGUF/resolve/main/Qwen2.5-7B-Instruct-Q4_K_M.gguf

# gemma-2-9b-it-Q4_K_M
wget https://huggingface.co/bartowski/gemma-2-9b-it-GGUF/resolve/main/gemma-2-9b-it-Q4_K_M.gguf

# qwen2.5-3b-instruct-q4_k_m 
wget https://huggingface.co/Qwen/Qwen2.5-3B-Instruct-GGUF/resolve/main/qwen2.5-3b-instruct-q4_k_m.gguf

結果

プロンプト

以下の要約200字以内でお願いします。

結果一覧

モデル名	要約の特徴	結果の信頼性	生成時間
Meta-Llama-3-8B-Instruct-Q4_K_M	日本語指定指示を無視し、英語で要約	低	3.7 t/s
Mistral-7B-Instruct-v0.3-Q4_K_M	英語出力。原文にない補完（音楽禁止など）が含まれる	低	3.5 t/s
Qwen2.5-7B-Instruct-Q4_K_M	日本語で簡潔。原文要点を比較的素直に要約	高	4.0 t/s
gemma-2-9b-it-Q4_K_M	日本語で読みやすいが、一部推測がある	中	2.7 t/s
qwen2.5-3b-instruct-q4_k_m	速度は最速だが、事実誤認がある	低	8.6 t/s

まとめ

個人的な感想ですが、このラインナップの中ではQwenが圧倒的に応答速度、精度の面で優秀ですね。
実用面では Qwen2.5-7B-Instruct で
応答速度重視なら qwen2.5-3b-instruct という印象は今回の評価でのかわりませんでした。

この記事を書いている中で新しいモデルがリリースされたみたいなので、次はそちらの
評価をおこなってみます。

You get articles that match your needs
You can efficiently read back useful information
You can use dark theme

What you can do with signing up