Ryzen 7 5825U 内蔵GPUで挑むLLM最適化(第2回)：30B MoEモデルから7B Denseモデルまでの徹底比較

Last updated at 2026-02-08Posted at 2026-02-08

1. はじめに：前回の振り返りと今回の目的

以前に書いた記事「Ryzen 7 5825Uの内蔵GPUでLLMを動かす」では、ミニPC（Ryzen 7 5825U搭載機）において、BIOSからiGPUへのVRAM割り当てを最大化し、ローカルLLMを実用レベルで動作させる基礎検証を行いました。

今回はその続編として、「さらに生成速度（Tokens per second）を向上させつつ、回答精度を担保できる黄金比」を模索しました。特に、巨大なパラメータを持ちながら低負荷な「MoEモデル」と、標準的な「Denseモデル」の挙動の差に着目し、ミニPC環境における限界設定を探りました。

検証結果を理解するために必要な、LLMの構造と量子化の知識を整理します。

AIの「脳の仕組み」が、内蔵GPU環境での推論速度を決定づけます。

Dense（密集型）代表：Qwen2.5-Coder-7B / Llama-3.1-8B
- 全てのパラメータを常に使って計算するタイプです。質問内容にかかわらずフルパワーで演算を行うため、内蔵GPUには大きな負荷がかかります。
MoE（Mixture of Experts）代表：Qwen3-30B / DeepSeek-V2-Lite
- AIの中に複数の「専門家（エキスパート）」がおり、質問に応じて必要な一部だけが働くタイプです。全体サイズは30B（300億）と巨大でも、実際に動くのはその数分の1（Active Parameters）のため、計算が非常に軽快です。

モデルデータの圧縮形式です。末尾のアルファベルは精度と速度のトレードオフを表します。

今回の検証では、LM Studioの以下のパラメータを指定して比較しました。

検証結果を正しく比較するために、LM Studioの以下のパラメータを個別に指定しました。

Context Length (8192):
AIが一度に把握できる情報の長さ（記憶容量）です。内蔵GPU環境では、この記憶領域を確保するだけで大量のVRAMを消費します。
- なぜ8192なのか: 数値をこれ以上に増やすと、VRAM 8GBの大部分が「記憶領域」に占有され、肝心の「AIの脳（モデル）」をGPUに載せるスペースがなくなってしまいます。長文を読ませる能力と、生成スピードが極端に落ちない限界ラインとして、8192 を選択しました。
GPU Offload (GPUオフロード):
AIの「脳」を構成するパーツ（層/レイヤー）のうち、何層を高速なGPUに処理させるかという設定です。
- なぜ層の数がモデルごとに違うのか: AIの設計図によって全体の層数が異なるためです（例：Qwen2.5-7Bは28層、Qwen3-30Bは48層など）。
調整のポイント: 「モデル本体のサイズ」と、上記の「Context領域」の合計が、VRAM 8GBというコップから溢れないように調整する必要があります。モデルが巨大なほどVRAMを圧迫するため、GPUに任せられる層数は少なくなります。今回は、LM Studioの試しながらVRAM使用量が7.5〜7.8GBの「溢れる直前」になるよう、モデルごとに最適な層数をトライアンドエラーで割り出しました。

前回記事から引き続きメインで利用している大容量モデルです。

「Denseモデル代表」として、8Bクラスを全層ロードでテスト。

設定: GPU Offload 全層
速度: 5.24 tok/sec
考察: 全層GPUロードしても最遅。Dense 7Bモデルは、演算の「密度」がRadeonの内蔵GPUの処理能力を超えてしまい、VRAM内で完結していても速度が伸びないという興味深い結果に。

検証の結果、私は以下の「二段構え」を最終結論としました。

まとめ：
内蔵GPU環境でのパフォーマンスアップの鍵は、テスト結果によると、「全層GPUロード」という言葉に惑わされず、Activeパラメータが絞られたMoEモデルを賢く使い、Q5などの量子化で知能の品質を守ることのようです。

チューニングも奥が深いですね。