【実機検証】ローカルLLM+OpenClawを8GB GPUで試したら、Web上の記事と全然違った件

Last updated at 2026-02-17Posted at 2026-02-17

RTX 3060 Ti（8GB VRAM）でOllama + OpenClawを実際に動かした
Xやブログに溢れる「Mac MiniでAIエージェントが動く！」系の記事と、実測結果を突き合わせた
記事群は「動く」とは書くが「使える」かどうかの検証が省略されているように見える
これらの記事の多くにAI生成の痕跡があるように感じた
AI生成記事がAIの学習データを汚染する「再帰的品質劣化」が始まっている！？

本稿は「ローカルLLMは使えない」という主張ではありません。「現在Web上に流通している情報の多くが、実機検証なしに量産されているのではないか？そして読者に誤った期待を与えているのではないか？」という問題提起です。

この記事を書いた動機

2026年2月、ローカルLLMで自前のAIエージェントを構築しようと思い立った。X（旧Twitter）で情報を集めると「Mac Mini + OpenClawで月額ゼロのAIアシスタント！」「Ollamaで24/7エージェント！」という記事が大量にヒットする。

本当か？

手元のRTX 3060 Ti 8GBで実際に試してみた。結果、記事群の主張と現実の間に無視できないギャップがあるように感じた。そして、そのギャップが生まれる構造的な原因にも気づいた気がする。

1. 検証環境

項目	仕様
マシン	デスクトップPC（WSL2 Ubuntu on Windows）
GPU	NVIDIA GeForce RTX 3060 Ti（VRAM 8GB）
システムメモリ	96 GB
CUDA	v12
Ollama	最新安定版（2026年2月時点）
OpenClaw	v2026.2.14

テストモデルは2種類用意した。

モデル	パラメータ	コンテキスト長	目的
Qwen3-8B（カスタム）	8.2B	16,384	性能優先
Qwen3-4B（カスタム）	4B	32,768	コンテキスト優先

OpenClawの公式要件は最低16,000トークンのコンテキスト長。Qwen3-8Bのデフォルト4,096では門前払いされるため、Modelfileでカスタムモデルを作成した。

# 16Kコンテキストのカスタムモデル作成
cat > Modelfile16k << 'EOF'
FROM qwen3:8b
PARAMETER num_ctx 16384
EOF
ollama create qwen3-16k -f Modelfile16k

2. 検証結果：8Bモデル（16Kコンテキスト）

VRAM配分

Ollamaの起動ログから、実際のメモリ配分を確認した。

offloaded 35/37 layers to GPU
model weights  device=CUDA0  size="3.9 GiB"
model weights  device=CPU    size="942.4 MiB"   ← 2レイヤーがCPUに溢れた
kv cache       device=CUDA0  size="2.2 GiB"
compute graph  device=CUDA0  size="202.0 MiB"
total memory   size="7.3 GiB"

8GB中7.3GiB使用。37レイヤー中35レイヤーしかGPUに載らず、2レイヤーがCPUにオフロードされた。

対話テスト（10問中6問で中断）

OpenClawのTUI経由で日本語の対話テストを実施した。

#	質問内容	結果	応答時間	トークン消費
1	日本語で自己紹介して	✅ 正常	約17秒	—
2	1+1は？	✅ 正常	約14秒	—
3	test.txtを作成して	✅ ツール実行成功	約21秒	—
4	test.txtを読んで	✅ 正常	約12秒	—
5	ディスク使用量を調査して	✅ 成功（表形式で返答）	約35秒	13k/16k (77%)
6	Pythonスクリプトを実行して	⚠️ 不安定（出力キャプチャ失敗）	約35秒	14k/16k (82%)
7-10	—	❌ 中断	—	コンテキスト枯渇

※記録漏れご容赦ください。。。

5問でコンテキストの77%を消費した。 10問のテストは完走できなかった。

ここで重要なのは、OpenClawがsystem prompt + tool schema + hook + memoryだけで約12,000トークンを消費していたことだ。16Kコンテキストのうち、ユーザーが実際に使えるのは約4,000トークン。これは2〜3往復分に過ぎない。

3. 検証結果：4Bモデル（32Kコンテキスト）

モデルを小さくしてコンテキストを広げる戦略を試した。

cat > Modelfile-qwen3-4b-32k << 'EOF'
FROM qwen3:4b
PARAMETER num_ctx 32768
EOF
ollama create qwen3-4b-32k -f Modelfile-qwen3-4b-32k

#	質問内容	結果	応答時間	トークン消費
1	日本語で自己紹介して	✅ 正常	約35秒	12k/33k (37%)
2	1+1は？	✅ 正常	—	12k/33k (37%)
3	test.txtを作成して	✅ 成功	—	—
5	ディスク使用量を調査して	✅ 成功	約20分	13k/33k (40%)

※記録漏れご容赦ください。。。
コンテキストの余裕は改善された。しかし1応答に最大20分かかった。

8GB VRAMの構造的ジレンマ

構成	速度	コンテキスト寿命	実用性
8Bモデル + 16K	11〜35秒	5往復で枯渇	❌
4Bモデル + 32K	最大20分	改善されたが遅すぎ	❌

少なくとも今回の環境では、設定やチューニングで解決できる問題ではなさそうだ。 VRAMの物理的上限に起因する、構造的なトレードオフに見える。

4. Web記事の主張との乖離

検索で見つかった記事群

「OpenClaw Mac Mini ローカルLLM」で検索すると、2026年1月〜2月に集中して公開された記事が大量にヒットする。

代表例:

「OpenClaw Mac Mini Setup: M4 Pro, 64GB, Zero Cloud」
「Mac Mini M4 AI Server: Local LLM + Agent Setup (2026)」
「OpenClaw + Ollama Setup Guide: Run Local AI Agents 2026」
「OpenClaw with Local LLM: The Complete Guide」

記事が省略していること

省略① コンテキスト消費の実態

記事は「OpenClawはコンテキスト64K以上を推奨」とは書く。しかし、OpenClaw自身がsystem prompt等で12,000トークンを消費し、ユーザーが使える領域がどれだけ残るかを明示した記事は、筆者が調べた範囲では見つけられなかった。

省略② 「動く」と「使える」の乖離

「Mac Mini M4 Pro 48GBで動く」は技術的には正しいのだろう。しかし、何のモデルを何トークンで動かした場合に何tok/s出るのか、応答まで何秒かかるのかの実測値を示した記事は、少なくとも筆者の検索範囲ではほぼ見当たらなかった。

省略③ エージェントのトークン倍増効果

OpenClawはエージェントであり、1回のユーザー指示に対して内部で複数回のLLM呼び出しを行う（思考→ツール計画→実行→結果解釈→応答）。単純なチャットの2〜5倍のトークンを消費すると思われる。この構造を説明した記事は、筆者の調査範囲では見つけられなかった。

主張と実測の比較表

流通している主張	筆者の実測結果（8GB環境）
「8GB VRAMでも動く」	動くが5往復で破綻した
「4Bモデルなら軽い」	32Kコンテキストで1応答20分かかった
「Qwen3はClaude Sonnet相当」	ツール呼び出しでは大幅に劣後する印象
「月額ゼロでAIエージェント」	実用的にするにはGPU投資が相当必要そう
「Mac Miniで完結」	48GB以上が前提と思われる。$599のベースモデルでは厳しいのでは

5. 記事群にはAI生成の痕跡があるように見える

収集した記事を読み比べると、いくつかの共通パターンが気になった。

文体の均質性

異なるドメイン・異なる著者名の記事で、構成・語彙・修辞が酷似している。

"This guide covers everything"
"Let us get started"
"The dream of running your own 24/7 AI assistant is now reality"

こうした定型表現が複数記事で繰り返される。
冒頭に発見した記事たちを見ると、センセーショナルな海外ユーザーの投稿と勘違いした日本人が
それを翻訳して、まるで自分の記事として仕立て上げているのでは？と、疑ってしまう。

検証データの不在

ほぼ全ての記事がベンチマーク数値の引用に留まり、著者自身が動かした実測データを含まない。

商業的誘導

記事末尾に特定サービス（Clawctl、OpenRouter等）への誘導リンクが配置されている。

公開時期の集中

2026年1月〜2月の短期間に同時多発的に公開されている。

これらの特徴は、LLMによって生成・量産されたコンテンツに見られるパターンと似ているように感じる。断定はできないが、少なくとも「人間が実際に検証して書いた記事」とは異なる印象を受けた。

6. AI生成コンテンツの再帰的品質劣化 — 始まっている！？

Model Collapse（モデル崩壊）

2024年にNature誌に掲載されたShumailov et al.の研究 "AI models collapse when trained on recursively generated data" は、AIが生成したデータでAIを訓練すると、世代を重ねるごとに出力品質が劣化する可能性を示した。

今、Web上で起きているかもしれないこと

[1] 製品がリリースされる（OpenClaw、新GPU、新モデル等）
     ↓
[2] AIが製品情報を元に記事を量産する
     ↓
[3] 記事がX、ブログ、Webメディアに拡散される
     ↓
[4] 検索エンジンが記事をインデックスする
     ↓
[5] 次世代のAIがこれらの記事を学習データとして取り込む
     ↓
[6] 次世代AIがさらに類似の記事を生成する
     ↓
[2]に戻る（品質は劣化しながら循環）

もしこのサイクルが回っているとしたら、問題は実機検証に基づく一次情報がほとんど混ざっていないことではないだろうか。

検証なしに書かれた記事が、検証なしに引用され、それがさらに検証なしのAI生成記事の素材になる。情報の「栄養価」がゼロのコンテンツが、Web空間のカロリーだけを増やしている — そんな状況が起きつつあるように見える。

7. 信頼できる情報の見分け方

今回の検証プロセスで、信頼できた情報とできなかった情報の境界が、個人的には見えてきた気がする。

信頼できたもの（一次ソース）

Ollamaの起動ログ（VRAMアロケーション、レイヤー配分の実数値）
OpenClawのGatewayログ（エラーメッセージ、トークン消費の実測値）
Ollama APIの /api/show レスポンス（モデルの実際のパラメータ）
自分の手で実行した対話テストの結果

信頼できなかったもの

X上の「Mac Miniで動いた！」という報告（環境詳細なし）
ブログ記事のベンチマーク引用（著者自身の実測でない）
「〜相当の性能」という比較表現（基準が不明確）

品質シグナルの崩壊

従来、読者が記事の信頼性を判断する指標があった。今、それが壊れつつあるのではないだろうか。

従来の品質シグナル	なぜ機能しなくなったか
文体の質	AIが流暢な文章を書ける
情報の網羅性	AIが大量の関連情報を配置できる
公開媒体の権威性	誰でもドメインを取得してAI記事を公開できる

残る信頼性の根拠は、もしかすると2つしかないのかもしれない:

著者が誰であるか（実名、所属、検証可能な経歴）
実測データが存在するか（ログ、スクリーンショット、再現手順）

匿名で、実測データのない技術記事は、もはや「読む価値がない」というよりも「信頼する根拠がない」というフェーズに入りつつあるのではないか。

8. 結論

個人的な結論

自分で動かす以外に信頼できる方法はなさそう... ベンチマーク数値も、レビュー記事も、比較表も、一次ソースの代替にはならないと感じた
「動く」と「使える」は別の概念だった。 記事は前者だけを語り後者を省略しているように見える。この2つの間のギャップは自分で埋めるしかない
AI生成コンテンツの割合が臨界点を超えると、Web検索の信頼性そのものが揺らぐのでは？ 検索結果の上位がAI生成記事で占められた場合、検索は「多数決で嘘を信じる装置」になりかねない

本検証の限界

本検証はRTX 3060 Ti 8GBの単一構成で実施した。48GB以上の環境では記事群の主張が成立する可能性は十分にある
ただしその場合でも、記事が触れていない制約（コンテキスト消費、応答速度、トークン倍増効果）は存在し続けるのではないかと考える
本稿の問題提起は「記事が嘘」ではなく、**「重要な事実の省略が、AI量産構造によって増幅されているのではないか？」**ということ

参考文献

Shumailov, I. et al. "AI models collapse when trained on recursively generated data." Nature 631, 755–759 (2024). https://www.nature.com/articles/s41586-024-07566-y
OpenClaw公式ドキュメント: https://docs.openclaw.ai/ （コンテキスト要件等）
Ollama公式: https://ollama.com/

付録：再現手順

# Ollamaインストール後

# モデル取得
ollama pull qwen3:8b
ollama pull qwen3:4b

# カスタムモデル作成（16K）
cat > Modelfile16k << 'EOF'
FROM qwen3:8b
PARAMETER num_ctx 16384
EOF
ollama create qwen3-16k -f Modelfile16k

# カスタムモデル作成（4B 32K）
cat > Modelfile-4b-32k << 'EOF'
FROM qwen3:4b
PARAMETER num_ctx 32768
EOF
ollama create qwen3-4b-32k -f Modelfile-4b-32k

# OpenClaw設定（~/.openclaw/openclaw.json）
# models.providers セクションに以下を追加:
#   "apiKey": "ollama-local"
#   "contextWindow": 16384 (または 32768)
#   "maxTokens": 同上

# Gateway再起動
systemctl --user restart openclaw-gateway

# ログ確認
journalctl --user -u openclaw-gateway -f

# TUIで対話テスト
openclaw tui

検証日: 2026年2月13日～16日
検証者: ミーバイン
環境: RTX 3060 Ti 8GB / WSL2 Ubuntu / Ollama / OpenClaw v2026.2.14

You get articles that match your needs
You can efficiently read back useful information
You can use dark theme

What you can do with signing up