LLMのローカル推論が進化していて驚いた件

Last updated at 2025-09-18Posted at 2025-09-18

はじめに

最近、bitnetをはじめとしてLLMの量子化技術がかなり進化しています。
今回はUnslothのDynamic 2.0 GGUFを試してみた結果、かなり驚いたので備忘録として簡単に実行手順・結果をまとめます。

本記事では量子化とは何かやDynamic 2.0 GGUFsとは何かと言った説明は行いません。

それについてはUnslothの記事にまとめられていますし、それ以上の解説を私が行うことができないためです。

対象読者としては次の様な方を対象にしています。

今回使用するモデルはqwen3-next-30b-a3b-instructです。

Google colabを開き、ランタイムをCPUにします。ハイメモリにする必要性はありません。従って無料枠で十分動かせるかと思います。（モデルによっては厳しい）

次にターミナルを開き、Ollamaをインストールするために以下のコマンドを順番に実行します。

apt-get update

apt-get install pciutils -y

curl -fsSL https://ollama.com/install.sh | sh

次にollamaのサーバーを起動します。バックグラウンド実行を行う為に&を入れていることにご注意ください。

OLLAMA_MODELS=unsloth ollama serve &

最後にmodelを指定してダウンロード・実行します。
TQ1_0は1bit量子化です（あってる？）。。

OLLAMA_MODELS=unsloth ollama run hf.co/unsloth/Qwen3-30B-A3B-Instruct-2507-GGUF:TQ1_0

今Unslothが提供してくれているモデルは以下にあります。

ちなみにどれくらいのディスク容量が必要なのかと言うと8.1GBです。このクラスのモデルにしてはとんでもなく小さいです。

モデルをダウンロードし終えて、メッセージを送れる状態になったときのリソース使用量がこれです。
再度になりますが、Google Colabの無料枠のスペックで収まります。

では推論させてみて速度を見ていきます。

RAMが結構ギリギリなので速度はすこし遅く感じますが無料枠CPUで動かしていると考えるとかなりの速度と精度を保っています。

次に無料枠ではないですが（多分？）CPUのハイメモリで試してみます。

RAMに余裕が出来たことによって気にならないくらいの速度になりました！
これだけの速度と精度がCPUで出せるとなれば今までよりも色々な場面で使えるようになります。例えばタスクを狭めて、modelをもう少し小さくし、1bitではなく4bitにするなどすれば更に精度が向上することが見込めます。

今回ご紹介したDynamic 2.0 GGUFの他にもLLMの量子化技術はここ最近で注目を集めかつ技術が進んでいます。

毎日チェックすることが大切です！