はじめに
最近、bitnet
をはじめとしてLLMの量子化技術がかなり進化しています。
今回はUnsloth
のDynamic 2.0 GGUF
を試してみた結果、かなり驚いたので備忘録として簡単に実行手順・結果をまとめます。
注意点
本記事では量子化とは何かやDynamic 2.0 GGUFs
とは何かと言った説明は行いません。
それについてはUnsloth
の記事にまとめられていますし、それ以上の解説を私が行うことができないためです。
対象読者としては次の様な方を対象にしています。
-
Dynamic 2.0 GGUFs
がどれだけすごいかをサクッと見たい方。 -
ollama
でDynamic 2.0 GGUFs
を試したい方。 -
Google Colab
でDynamic 2.0 GGUFs
を試したい方。(本記事ではGoogle Colab
のCPU環境で動かします。)
手順
今回使用するモデルはqwen3-next-30b-a3b-instruct
です。
Google colabを開き、ランタイムをCPUにします。ハイメモリにする必要性はありません。従って無料枠で十分動かせるかと思います。(モデルによっては厳しい)
次にターミナルを開き、Ollamaをインストールするために以下のコマンドを順番に実行します。
apt-get update
apt-get install pciutils -y
curl -fsSL https://ollama.com/install.sh | sh
次にollamaのサーバーを起動します。バックグラウンド実行を行う為に&
を入れていることにご注意ください。
OLLAMA_MODELS=unsloth ollama serve &
最後にmodelを指定してダウンロード・実行します。
TQ1_0
は1bit量子化
です(あってる?)。。
OLLAMA_MODELS=unsloth ollama run hf.co/unsloth/Qwen3-30B-A3B-Instruct-2507-GGUF:TQ1_0
今Unsloth
が提供してくれているモデルは以下にあります。
ちなみにどれくらいのディスク容量が必要なのかと言うと8.1GB
です。このクラスのモデルにしてはとんでもなく小さいです。
モデルをダウンロードし終えて、メッセージを送れる状態になったときのリソース使用量がこれです。
再度になりますが、Google Colabの無料枠のスペックで収まります。
動かしてみる
では推論させてみて速度を見ていきます。
RAMが結構ギリギリなので速度はすこし遅く感じますが無料枠CPUで動かしていると考えるとかなりの速度と精度を保っています。
次に無料枠ではないですが(多分?)CPUのハイメモリで試してみます。
RAMに余裕が出来たことによって気にならないくらいの速度になりました!
これだけの速度と精度がCPUで出せるとなれば今までよりも色々な場面で使えるようになります。例えばタスクを狭めて、modelをもう少し小さくし、1bit
ではなく4bit
にするなどすれば更に精度が向上することが見込めます。
感想
今回ご紹介したDynamic 2.0 GGUF
の他にもLLMの量子化技術はここ最近で注目を集めかつ技術が進んでいます。
毎日チェックすることが大切です!