1
1

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?

LLMのローカル推論が進化していて驚いた件

Last updated at Posted at 2025-09-18

はじめに

最近、bitnetをはじめとしてLLMの量子化技術がかなり進化しています。
今回はUnslothDynamic 2.0 GGUFを試してみた結果、かなり驚いたので備忘録として簡単に実行手順・結果をまとめます。

注意点

本記事では量子化とは何かやDynamic 2.0 GGUFsとは何かと言った説明は行いません。

それについてはUnslothの記事にまとめられていますし、それ以上の解説を私が行うことができないためです。

対象読者としては次の様な方を対象にしています。

  • Dynamic 2.0 GGUFsがどれだけすごいかをサクッと見たい方。
  • ollamaDynamic 2.0 GGUFsを試したい方。
  • Google ColabDynamic 2.0 GGUFsを試したい方。(本記事ではGoogle ColabのCPU環境で動かします。)

手順

今回使用するモデルはqwen3-next-30b-a3b-instructです。

Google colabを開き、ランタイムをCPUにします。ハイメモリにする必要性はありません。従って無料枠で十分動かせるかと思います。(モデルによっては厳しい)

次にターミナルを開き、Ollamaをインストールするために以下のコマンドを順番に実行します。

apt-get update
apt-get install pciutils -y
curl -fsSL https://ollama.com/install.sh | sh

次にollamaのサーバーを起動します。バックグラウンド実行を行う為に&を入れていることにご注意ください。

OLLAMA_MODELS=unsloth ollama serve &

最後にmodelを指定してダウンロード・実行します。
TQ1_01bit量子化です(あってる?)。。

OLLAMA_MODELS=unsloth ollama run hf.co/unsloth/Qwen3-30B-A3B-Instruct-2507-GGUF:TQ1_0

Unslothが提供してくれているモデルは以下にあります。

ちなみにどれくらいのディスク容量が必要なのかと言うと8.1GBです。このクラスのモデルにしてはとんでもなく小さいです。
image.png

モデルをダウンロードし終えて、メッセージを送れる状態になったときのリソース使用量がこれです。
再度になりますが、Google Colabの無料枠のスペックで収まります。
image.png

動かしてみる

では推論させてみて速度を見ていきます。

RAMが結構ギリギリなので速度はすこし遅く感じますが無料枠CPUで動かしていると考えるとかなりの速度と精度を保っています。

次に無料枠ではないですが(多分?)CPUのハイメモリで試してみます。

RAMに余裕が出来たことによって気にならないくらいの速度になりました!
これだけの速度と精度がCPUで出せるとなれば今までよりも色々な場面で使えるようになります。例えばタスクを狭めて、modelをもう少し小さくし、1bitではなく4bitにするなどすれば更に精度が向上することが見込めます。

感想

今回ご紹介したDynamic 2.0 GGUFの他にもLLMの量子化技術はここ最近で注目を集めかつ技術が進んでいます。

毎日チェックすることが大切です!

1
1
0

Register as a new user and use Qiita more conveniently

  1. You get articles that match your needs
  2. You can efficiently read back useful information
  3. You can use dark theme
What you can do with signing up
1
1

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?