0
0

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?

【2026/05】ローカルLLMブラッシュアップ

0
Posted at

概要

  • オープンソースLLMの性能向上している傾向にあり、特にコーディング領域では商用モデルに匹敵するといわれております。
  • GitHub Copilotの完全従量課金化やAnthropic「Claude Enterprise」の実質的な従量課金化により、企業のセキュリティ対策やコスト削減の切り札としてローカルLLMの検討のニーズが高まっています。
  • Ollamaのインストール方法やコマンド操作方法について紹介します。

GPUメモリから動くモデルについて

AI開発やローカルLLMの実行に役立つ、最新(2026年5月時点)の市場状況を反映したGPU比較表です。

LLM/AI向けGPU比較表(2026年5月版)

クラス おすすめ型番 VRAM容量 特徴 値段相場 (税込) おすすめのモデル例
最高峰 RTX 4090 24GB 現状の最強。大半のモデルが快適に動く。 約30万〜45万円 MSI SUPRIM X (冷却性能高) / ASUS ROG Strix
高コスパ RTX 3090 24GB 性能は4090に劣るが、VRAM 24GBが安く手に入る。 約15万〜20万円 MSI Gaming X Trio / ZOTAC Trinity
標準的 RTX 4070 Ti Super 16GB 16GBあれば中規模モデルも視野。電力効率が良い。 約13万〜16万円 MSI Ventus 2X (コンパクト) / ZOTAC AMP
入門用 RTX 4060 Ti (16GB) 16GB 安価に16GBを確保できる唯一の選択肢。消費電力が低い。 約7.5万〜9万円 MSI GAMING X SLIM / Palit JetStream
Mac派 M3 Max (32GB+) 共有メモリ メインメモリをVRAMとして活用。Mac Studio/Proも選択肢。 約50万円〜 (本体) MacBook Pro / Mac Studio

【参考】RTX4060-Laptop(VRAM:8GB)で動くモデルについて

項目 Qwen3.5:4B Gemma3:4B
パラメーター数 約40億 約40億
得意分野 コーディング・数学・論理推論。特にプログラミングのロジック構築に強い。 自然な日本語対話・要約。Googleの調整により、文章のニュアンスが非常に自然。
日本語の質 非常に高い。正確で簡潔な回答を好む。 極めて高い。より人間味のある、親しみやすい表現が得意。
思考機能 (Reasoning) 非常に高速な思考ステップ。 「Chain-of-Thought(思考の連鎖)」が強化され、ステップバイステップでの回答が得意。
推論速度 (4060 Laptop) 爆速。100 tps(秒間100文字以上)を超えることもある。 高速。ストレスなく、リアルタイムで文章が生成される。
VRAM使用量 約3.5GB 〜 4.5GB (4-bit量子化) 約3.8GB 〜 4.8GB (4-bit量子化)
開発環境との親和性 Next.jsやPythonのコード生成において、微細なバグ修正まで見抜く傾向。 ドキュメントの作成や、プロジェクトの企画構成案出しに最適。

用途別モデル

用途 推奨モデル 選定理由
コーディング補完 Qwen3 or Qwen2.5-Coder JSON 出力が安定、Apache 2.0 ライセンス
コーディング(中型) Devstral Small 2 SWE-bench 68%、256K コンテキスト
汎用チャット Llama 3.3 128k コンテキスト対応、幅広いサイズ展開
コスト効率重視 Qwen3-30B-A3B MoE 構造で実質 3B 稼働、Apache 2.0
軽量・エッジ gpt-oss-20b or Qwen3-1.7B 16GB/8GB で動作、推論モデル or 軽量汎用
マルチモーダル Gemma 3-27B テキスト・画像・動画対応、140 言語
数学・推論 Nemotron 3 Nano AIME 89.1%、1M コンテキスト
推論タスク DeepSeek-V3.2 GPT-5 レベル、推論・Agent 統合

モデル一覧

モデル 得意領域 サイズ ライセンス 特徴
Qwen3-14B 汎用・日本語 14B Apache 2.0 Qwen2.5-32B 相当の性能
Qwen3-30B-A3B コスト効率 30B(稼働 3B) Apache 2.0 MoE で軽量動作
Qwen2.5-Coder コード生成・JSON 0.5B〜32B Apache 2.0 29 言語対応
Qwen3-Coder Agent・コード生成 480B(稼働 35B) Apache 2.0 256K コンテキスト
Devstral Small 2 コーディング 24B Apache 2.0 SWE-bench 68%、256K コンテキスト
gpt-oss-20b 推論 21B(稼働 3.6B) Apache 2.0 OpenAI 初のオープンウェイトモデル
GLM-4.7-Flash 推論・高速生成 30B(稼働 3B) MIT 24GB 推奨、安定性に課題
Gemma 3-27B マルチモーダル 27B Gemma 独自 140 言語、128K コンテキスト
Nemotron 3 Nano 数学・推論 31.6B(稼働 3.6B) NVIDIA 独自 Hybrid Mamba-Transformer MoE、20 言語対応
DeepSeek-V3.2 推論・Agent 統合 671B(稼働 37B) MIT 推論・Agent 統合、R1 後継
Kimi K2.5 Agent・マルチモーダル 1T(稼働 32B) Modified MIT Agent Swarm、256K コンテキスト
Llama 3.3 汎用チャット 1B〜405B Meta 独自 128k コンテキスト

Ollamaダウンロードと使用方法

Ollamaのサイトでダウンロード

  • インストーラーを実行
  • 実行後、ターミナルで下記のコマンドを叩く
ollama --version

モデルをインストール

## モデルをインストール
ollama pull gemma3:4b

ollamaの各種コマンド

## ollama 起動 (GUIで動かしているなら不要)
ollama serve

## 実行状況の確認
ollama ps

## モデル実行
ollama run <モデル名>

## モデル停止 
ollama stop <モデル名>

## モデルリスト
ollama list

## モデル情報
llama show <モデル名>

## モデル削除
### 削除後:保存先パス内に残ってないか確認 %USERPROFILE%\.ollama\models
ollama rm <モデル名>

【参考】

0
0
0

Register as a new user and use Qiita more conveniently

  1. You get articles that match your needs
  2. You can efficiently read back useful information
  3. You can use dark theme
What you can do with signing up
0
0

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?