0
0

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?

ローカルLLMの生成能力を評価してみた(要約編)

0
Posted at

はじめに

前回は Hello Worldの評価をしました。
今回は同じローカル環境で複数モデルを実行し、「走れメロス」要約タスクの評価結果をまとめます。

「どのモデルが速いか」だけでなく、
「指示どおりに答えるか」「内容が正しいか」も確認します。

対象者

GPUなし・クラウドなしのローカル環境でLLMを試したい人。
今回も10年ほど前のデスクトップのWSLで動かしています。

環境

OS : Ubuntu 24.04.1 LTS
CPU : Intel(R) Core(TM) i7-4790 CPU @ 3.60GHz
メモリ : 16GB
llama.cpp: version 8146 (418dea39c)

関連記事

CPUだけでローカルLLMを動かしてみた
llama.cppのオプションを調べてみた
llama-serverを試してみた

評価方針

今回は要約タスクの評価を行いました。

  • 「走れメロス」の一部を200字で要約させる
  • 日本語で出力する

「走れメロス」
出典:青空文庫

評価対象モデル

モデル リリース元 備考 ファイル容量
Meta-Llama-3-8B-Instruct-Q4_K_M Meta 8B 約4.9 GB
Mistral-7B-Instruct-v0.3-Q4_K_M Mistral AI 7B 約4.1 GB
Qwen2.5-7B-Instruct-Q4_K_M Alibaba 7B 約4.7 GB
gemma-2-9b-it-Q4_K_M Google 9B 約5.4 GB
qwen2.5-3b-instruct-q4_k_m Alibaba 3B 約2.0 GB

Hello Worldの評価に使ったモデルと同じです。

モデルのダウンロード

各モデルは Hugging Face からダウンロードできます。

# Meta-Llama-3-8B-Instruct-Q4_K_M
wget https://huggingface.co/bartowski/Meta-Llama-3-8B-Instruct-GGUF/resolve/main/Meta-Llama-3-8B-Instruct-Q4_K_M.gguf

# Mistral-7B-Instruct-v0.3-Q4_K_M
wget https://huggingface.co/bartowski/Mistral-7B-Instruct-v0.3-GGUF/resolve/main/Mistral-7B-Instruct-v0.3-Q4_K_M.gguf

# Qwen2.5-7B-Instruct-Q4_K_M
wget https://huggingface.co/bartowski/Qwen2.5-7B-Instruct-GGUF/resolve/main/Qwen2.5-7B-Instruct-Q4_K_M.gguf

# gemma-2-9b-it-Q4_K_M
wget https://huggingface.co/bartowski/gemma-2-9b-it-GGUF/resolve/main/gemma-2-9b-it-Q4_K_M.gguf

# qwen2.5-3b-instruct-q4_k_m 
wget https://huggingface.co/Qwen/Qwen2.5-3B-Instruct-GGUF/resolve/main/qwen2.5-3b-instruct-q4_k_m.gguf

結果

プロンプト

以下の要約200字以内でお願いします。

結果一覧

モデル名 要約の特徴 結果の信頼性 生成時間
Meta-Llama-3-8B-Instruct-Q4_K_M 日本語指定指示を無視し、英語で要約 3.7 t/s
Mistral-7B-Instruct-v0.3-Q4_K_M 英語出力。原文にない補完(音楽禁止など)が含まれる 3.5 t/s
Qwen2.5-7B-Instruct-Q4_K_M 日本語で簡潔。原文要点を比較的素直に要約 4.0 t/s
gemma-2-9b-it-Q4_K_M 日本語で読みやすいが、一部推測がある 2.7 t/s
qwen2.5-3b-instruct-q4_k_m 速度は最速だが、事実誤認がある 8.6 t/s

まとめ

個人的な感想ですが、このラインナップの中ではQwenが圧倒的に応答速度、精度の面で優秀ですね。
実用面では Qwen2.5-7B-Instruct
応答速度重視なら qwen2.5-3b-instruct という印象は今回の評価でのかわりませんでした。

この記事を書いている中で新しいモデルがリリースされたみたいなので、次はそちらの
評価をおこなってみます。

0
0
0

Register as a new user and use Qiita more conveniently

  1. You get articles that match your needs
  2. You can efficiently read back useful information
  3. You can use dark theme
What you can do with signing up
0
0

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?