こんにちは!「自宅の安価な省スペースなミニPCで、重量級のAIを動かしたい」と思ったことはありませんか?
今回は、手のひらサイズのミニPCで30B(300億パラメータ)クラスの大型モデルを動かし、5.56 t/s を達成した記録を公開します。
5.56 t/sは爆速でありませんが、まぁまぁ使える速度です。
実際にLM StudioのWEB API機能を利用した画面で実行している検証動画(倍速なし)が以下です。
🧰 検証環境:AMD Ryzen 7 5825U モデル
今回の検証機は、独立したグラフィックボード(RTX 4090など)を搭載しない「内蔵GPU(iGPU)」モデルです。
-
CPU: AMD Ryzen 7 5825U (8コア/16スレッド)
-
本来は事務作業や動画視聴向けの省エネチップですが、設定次第でAIマシンに近づけます。
-
メモリ (RAM): 32GB (OS実認識 23.9GB)
-
32GB積んでいても、内蔵GPUやOSが一部使用するため、AIに回せるのは約24GBとなります。
-
GPU: AMD Radeon Graphics (内蔵GPU)
-
OS: Windows11 pro
-
アプリ: LM Studio (ver 0.3.37)
🧪 チューニングによる驚きの性能向上
試行錯誤の結果、モデル選びと設定だけで処理速度(トークン生成速度)が劇的に改善しました。
| モデル・量子化 | ステータス | 処理速度 (tok/sec) | 備考 |
|---|---|---|---|
| gpt-oss-20b (MXFP4) | 初期状態 | 4.30 t/s | 20Bモデルのスタート地点 |
| gpt-oss-20b (MXFP4) | チューニング後 | 4.70 t/s | 14層、設定を詰め、20Bの限界へ |
| Qwen3-30B (Q4_K_M) | 最初に選択したモデル | 4.30 t/s | 30Bへ増量、速度は一旦低下 |
| Qwen3-30B (Q4_K_S) | モデル変更&チューニング後 | 5.56 t/s | 30層、かなりの性能向上! |
→ 結果:20Bの同じモデルでのチューニングで約 10%、Qwen3内でモデル変更+チューニングで約 29% の加速に成功!
このミニPCにおける「知能と速度の最高到達点」を達成しました。
🤖 検証:モデル選びでこれだけ変わる性能差
性能向上の大きな要因は、自分の環境に合った「モデルの構造」と「量子化の相性」を見極めたことです。
1. 意外と伸び悩んだ「gpt-oss-20b (MXFP4)」
20Bという比較的軽量なサイズにもかかわらず、チューニングを重ねても 4.70 t/s が限界でした。
- MXFP4量子化の壁: MXFP4は高い圧縮率を誇りますが、新しい形式であるため、現在のVulkan環境やiGPUのドライバにおいて計算効率を最大化しきれていない可能性が高いです。
2. 爆速を記録した「Qwen3-30B-A3B (Unsloth版)」
一方で、パラメータ数が1.5倍の30Bに増えたにもかかわらず、20Bのモデルを超えて圧倒的な数値を叩き出したのがQwen3(unsloth/qwen3-coder-30b-a3b-instruct)でした。
- MoE(Mixture of Experts)構造の恩恵: このモデルは30Bという巨体ですが、推論時に全てのパラメータを動かすのではなく、必要な「専門家(Expert)」だけを動かします。そのため、実質的な計算負荷が低く、ミニPCでも驚異的な加速を見せました。
💡 核心:AMD内蔵GPUの「メモリ構造」を理解する
ミニPCでAIを高速化する最大の鍵は、「メインメモリをどうGPUに切り出すか」にあります。
1. AMD内蔵GPUは「RAMの一部をVRAMとして借りる」
AMDのRyzenプロセッサに内蔵されているGPU(iGPU)には、専用のビデオメモリ(VRAM)が搭載されていません。その代わり、パソコンに積んでいるメインメモリ(RAM)の一部を「専用GPUメモリ(VRAM)」として占有して使用します。
2. 「専用GPUメモリ」と「共有GPUメモリ」の違い
- 専用GPUメモリ (Dedicated VRAM): BIOS設定で予約した「GPU専用の特等席」です。AI計算で最も高速に動作します。今回は 8GB を割り当てています。
- 共有GPUメモリ (Shared Memory): 専用枠が足りないときにOSが貸し出す「補助席」です。溢れた分をここでカバーしています。共有GPUメモリはもともと12GBで設定されていて変更していません。
🔧 爆速化の実践ステップ:30層オフロードとは?
ここが最も重要な設定です。LM Studioの「GPU Offload」について詳しく説明します。
① 「GPUオフロード層」を 30層 に設定する意味
AIモデル(LLM)は、例えるなら「何十層ものパイ生地が重なったケーキ」のような構造をしています。この1枚1枚の層(Layer)を計算することで、AIは言葉を紡ぎ出します。
- オフロードとは: 本来、すべての計算をCPU(普通の料理人)が行うところを、得意なGPU(超高速なパティシエ)に「仕事を丸投げ(オフロード)」することを指します。
- なぜ「30層」なのか: 今回使用したモデルQwen3-30B-A3B (Unsloth版)は48層で構成されています。そのうち、GPUのメモリ(8GB)に載る限界が 30層分 だったということです。
- 効果: 半分の工程(30層分)を超高速なGPUが担当し、残りの半分をCPUが担当する「分業体制」を築くことで、全体の速度が向上します。
② BIOSでVRAMを 8GB に固定する
「パティシエ(GPU)」が仕事をするための専用キッチンを広げる作業です。BIOS設定(UMA Frame Buffer Size等)で、メインメモリ32GBのうち 8GBをGPU専用に固定 しました。
③ 量子化形式の選択 (Q4_K_S)
モデルをロードする際、量子化(圧縮率)のグレードを選びます。
- Q4_K_M (Medium): 精度重視。データが重いため、GPUのキッチンに25層分しか載りません。
- Q4_K_S (Small): 速度重視。データが軽いため、30層分までGPUに載せることができ、結果的に全体の速度が向上しました。
📊 限界稼働時のシステム状況
5.56 t/s 生成中のシステム負荷は以下の通りです。
-
メモリ使用率: 97% (23.3 / 23.9 GB)
-
RAMとVRAMを実質的に共用しているため、システム全体のメモリはほぼ枯渇します。AI動作中は他のアプリを全て閉じるのが鉄則です。
-
CPU負荷: 約 30-50%
-
GPUオフロードが30層分適切に効いているため、CPU側は余裕を持って計算を制御できています。
🧠 初心者向けまとめ
- 「GPUオフロード」はGPUに仕事を任せる量のこと: 自分のVRAM容量に合わせて、何層まで任せられるか探るのがローカルAIの醍醐味です。
- AMD内蔵GPUはBIOS設定が命: VRAMへの「切り出し量」を増やすだけで速度が劇的に変わります。
- モデルの最適化をチェック: Unsloth版のように、特定の構造(MoE)やハードウェア向けに調整されたモデルを選ぶのが近道です。
ミニPCという限られたリソースの中で、設定一つでAIがスラスラと回答を返すようになる過程は、まるで自作PCのチューニングのような楽しさがあります。皆さんもぜひ、自分だけの「最強のミニPC AI環境」を追求してみてください!