はじめに
お久しぶりです.ソリングです.
2022年のChatGPT公開から早くも3年近くの月日が経とうとしていますが,その3年でLLMは大幅に進化しています.アーキテクチャの改善やデータの質の改善・パラメータ数の増加などによって精度が向上したことはもちろんですが,量子化(Quantization)という手法で,多くのパラメータを持つモデルがローカルのノートPCでも動かせるようになったことは注目に値します.
量子化とは,モデルのパラメータを離散化することです.本記事では詳しく解説しません.その点が気になる方はこちらをご参照ください.
この記事では,ローカルLLMの性能について,いくつかのモデルを見ながら遊んでいきます.
前提
私のノートPCはM4 Mac 16GBです.基本的にOllamaを用いています.それらの導入方法についてはこの記事では解説しないので,以下の記事をご参照ください.
今回の記事では,全てのモデルに対して,
- 簡単な挨拶
- 自己紹介
- Transformer(言語モデル)についての説明
- (画像に対応しているモデル限定)画像認識の精度
- ちょっと込み入った数学の自作問題
を試してみます.
Non Reasoning Model
LLMには,レスポンス前に長時間考えてから結果を返してくれるモデル(Reasoning Model)と,即答でレスポンスを返してくれるモデル(Non Reasoning Model)があります.本章では,Non Reasoning Modelを扱います.
Gemma3 4B
まずは簡単な挨拶から話してみます.自然な日本語で返答してくれているのが見て取れます.測定はしていませんが,トークン生成の速度は体幹として非常に快適です.
次に自己紹介してもらいました.ローカルで動いていることが信じられないほど流暢な日本語です.
次はTransformerに対する説明です.
画像認識もテストしてみましょう.なお,画像は拙記事「拡散モデルを理解したい【理論編】」の,「拡散モデルのお気持ち」の部分をスクリーンショットとして利用します.
結果は以下の通りでした.なぜか台湾まぜそばの画像が「鶏肉の白身を食べる人の横顔」とされています.残念ながら,正しく画像を認識できてはいないようでした.
なお,文字の書き起こしにも失敗しています.
最後に,数学の問題を解かせてみます(東工大模試2026-8の大問3です).流石にNon Reasoning Modelでは正解は困難なようでした.
Gemma3 12B
まずは挨拶と自己紹介をしてもらいました.計算速度は,Gemma3 4Bよりは遅いですが,実用に耐えうる速度ではありました.
次にTransfomerについて説明してもらいます.内容は特に問題ありませんでした.なお,リンクも正しいです.
拡散モデルについては,台湾まぜそばの画像を認識できていないようでした.書き起こしも失敗しています.
流石に数学の問題も正解できませんでした.(1)と(2)の結論がともに誤っています.しかし,考えようとしている態度という点で言えば,Gemma3 4Bよりも明確に進化しています.
Reasoning Model
今回は,Deepseek-r1 8bおよびQwen3 4Bを使用します.なお,これらのモデルは画像に対応していません.
Deepseek-r1 8b
挨拶をしてみたのですが,中華のAIだからなのかは不明ですが,返答が中国語になってしまいました.そのため,日本語で回答してもらうように指示しています.ChatGPTに中国語を翻訳させると,「日本語でお話しできて嬉しいです~初めて日本語に触れるのですか?もしそうなら、基礎からゆっくり練習していきましょう!」とのことです.
なお,Reasoningを挟むため,応答まで時間はかかっていますが,Reasoning内の推論速度や,最終的な応答速度はそれなりに高速でした.
自己紹介を頼みましたが,なぜか自分が日本語学習者だと思われているようです(筆者は日本語母語話者です).

Transformerの説明も,少しばかり薄味ですが行えています.内容に致命的な誤りはありません.
数学の問題は10分ほど考えさせましたが結論が出なかった,かつthinkingでも同じような思考を繰り返して先に進んでいなさそうだったので止めました.
また,リベンジさせましたが今度は40分ほど進展がなかったので止めました.
Qwen3 4B
まずは自己紹介です.なお,Deepseekと同様にReasoningを挟むため,応答まで時間がかかっていることは変わりませんが,Reasoning内の推論速度や,最終的な応答速度は非常に高速でした.
次にTransformerの説明です.これは完全に正しく,詳しく説明できています.
最後に数学の問題です.14分ほど考えてみましたが,驚くべきことに,完全に正解しています.4Bのパラメータのモデルが正解できることに感動です.
結論
現代のローカルLLMの素晴らしさを見ることができたと思います.個人的には,Non Reasoning ModelではGemma3 4B(12BでもOK),Reasoning ModelではQwen3 4Bがおすすめです.現在のGPTやGeminiなど,パラメータ数が多いモデルに比べると劣ってしまうのは否定できませんが,ローカルでこのレベルが動くということも感動でしょう.
最後に
2023年3月,私は当時のGPT3.5(1750億パラメータ)に中学数学の問題を解かせました.そのときの解答は以下のようなもので,当時の私は「人間を超えるのはまだ先になるだろうな」と思っていました.当時は,「AIは数学を今後も理解できないだろう」という厭世(えんせい)的な見方も多かったように感じます.
そんな状況を一変させたのが,ちょうど1年ほど前に出たO1-Previewでした.自分はこの企画のためにChatGPTに課金したのですが,今でも課金し続けています.
それから1年の月日が経った今もなお,ChatGPTは日々進化し続けています.今後も進化が止まることはないでしょう.そして,最先端のモデルが進化すると同時に,ローカルのモデルも進化し続けています.数年後には(現在の)GPT-5レベルの推論能力を持つモデルがローカルで動いてもおかしくないように感じます.
最後に,上で扱った各モデルに上の数学の問題を解かせたものを貼って終了とします.
・Gemma3 4B(誤答)
・Gemma3 12B(誤答)
・Deepseek r1 8B (思考がループしていたので止めました)
・Qwen3 4B (正答)
ここまで読んでくださってありがとうございました! 次回は,ローカル画像生成AIについて検証していきます.







































