はじめに
前々回・前回とHello Worldおよび要約タスクで複数モデルを評価してきました。
評価を進める中で、新たに高性能なモデルがリリースされたため、今回はそのモデルを追加して比較評価を行いました。
同じローカル環境・同じタスクで比較することで、「新モデルの性能」を確かめます。
対象者
GPUなし・クラウドなしのローカル環境でLLMを試したい人。
今回も10年ほど前のデスクトップのWSLで動かしています。
環境
OS : Ubuntu 24.04.1 LTS
CPU : Intel(R) Core(TM) i7-4790 CPU @ 3.60GHz
メモリ : 16GB
llama.cpp: version 8146 (418dea39c)
関連記事
評価方針
HelloWorldのサンプル出力と要約(走れメロス)の評価を行いました。
-前回、前々回おこなった評価と同じです。
評価対象モデル
| モデル | リリース元 | パラメータ数 | ファイルサイズ |
|---|---|---|---|
| LFM2.5-1.2B-Instruct-Q4_K_M | Liquid AI | 1.2B | 0.68 GB |
| LFM2.5-1.2B-Thinking-Q4_K_M | Liquid AI | 1.2B | 0.68 GB |
LFM2.5シリーズは2025年2月にリリースされました(Hugging Face 参照)。
InstructとThinkingの違い
| モデル | 特徴 |
| LFM2.5-1.2B-Instruct-Q4_K_M | 指示に従って直接回答するタイプ。応答が速く、シンプルな質問に向いている |
| *LFM2.5-1.2B-Thinking-Q4_K_M | 回答前に内部で思考・推論プロセスを経るタイプ。複雑な問いに強いが、応答が長くなりやすい |
同じ1.2Bというサイズでありながら、「すぐ答える」か「じっくり考えてから答える」かという動作スタイルの違いがあります。
モデルのダウンロード
各モデルは Hugging Face からダウンロードできます。
# LFM2.5-1.2B-Instruct-Q4_K_M (0.68 GB)
wget https://huggingface.co/LiquidAI/LFM2.5-1.2B-Instruct-GGUF/resolve/main/LFM2.5-1.2B-Instruct-Q4_K_M.gguf
# LFM2.5-1.2B-Thinking-Q4_K_M (0.68 GB)
wget https://huggingface.co/LiquidAI/LFM2.5-1.2B-Thinking-GGUF/resolve/main/LFM2.5-1.2B-Thinking-Q4_K_M.gguf
結果
Hello Worldの説明タスク
| モデル名 | 要約の特徴 | 結果の信頼性 | 生成時間 |
|---|---|---|---|
| LFM2.5-1.2B-Instruct-Q4_K_M | 説明が正確で、丁寧 | 高 | 22.6 t/s |
| LFM2.5-1.2B-Thinking-Q4_K_M | 説明が短かすぎでコード例なし。 | 低 | 20.1 t/s |
走れメロス 要約タスク
| モデル名 | 要約の特徴 | 結果の信頼性 | 生成時間 |
|---|---|---|---|
| LFM2.5-1.2B-Instruct-Q4_K_M | 原作にない表現が混入 | 中 | 21.1 t/s |
| LFM2.5-1.2B-Thinking-Q4_K_M | 要約が短かすぎて、内容も分からない | 低 | 20.1 t/s |
まとめ
前評判で聞いていましたが、LFM2.5-1.2B-Instruct-Q4_K_M 応答速度が無茶苦茶はやいです。
応答速度が速いのはパラメータ数が小さいからだと思いますが、その割には精度は同じ1Bあたりと比べるとよいです。
3B、7Bあたりのモデルがあれば、かなり使えると思い、探してみましたが、現状はリリースされていませんでした。
一方、LFM2.5-1.2B-Thinking-Q4_K_M はちょっと期待していた結果と異なりました。
Thinkingモデルは「推論・思考を要する複雑なタスク」向けに設計されているようなので
今回のような比較的シンプルな指示タスクには適していなかったかもしれないです。