WhichLLM入門 — 自分のGPUで最速のローカルLLMをCLIで選ぶハンズオン

Last updated at 2026-06-27Posted at 2026-06-27

TL;DR

WhichLLM は「自分のハードウェアで実際に高性能なローカル LLM はどれか」をコマンド1発で教えてくれる OSS の CLI。パラメータ数ではなく、ベンチマーク品質・VRAM 適合・推定速度を統合したスコアで推薦する¹。
pip install whichllm（または uvx whichllm@latest）で導入でき、whichllm --gpu "RTX 4090" のように GPU 名を渡すだけ で「載るモデル × 速度 × 品質」のランキングが出る¹。
購入前シミュレーション（--gpu）・アップグレード比較（upgrade）・そのまま実行（run）まで揃い、ローカル LLM 環境の「モデル選びで消耗する」問題を機械的に潰せる。Python 3.11+ / MIT ライセンス¹。

ローカル LLM を動かすとき、最初に必ずぶつかるのが「結局、自分の GPU で一番賢くて速いモデルはどれ?」という問いだ。WhichLLM はこの問いに、毎回手作業で VRAM 計算とリーダーボード照合をする代わりに、1コマンドで答えを返す ことを狙ったツールだ²。

WhichLLM とは何か

WhichLLM は Andyyyy64 が開発する OSS の CLI で、2026年6月に公開され話題になった²。コンセプトは明快で、「パラメータ数の大きさ」ではなく「自分のハードウェアでの実効性能」でローカル LLM を推薦する こと¹。

ローカル LLM 選びは本来、次の3つを同時に満たす必要がある。

VRAM に載るか（量子化レベル込みで実際にメモリに収まるか）
実用的な速度が出るか（トークン/秒）
タスクに対して賢いか（ベンチマーク品質）

この3つを手で突き合わせるのは骨が折れる。WhichLLM はハードウェアを自動検出し、複数のリーダーボードを統合したスコアと VRAM 適合・速度推定を掛け合わせて、「あなたの環境で実際に良いモデル」 を順位付けして返す¹。

セットアップ

Python 3.11 以上が前提。インストール方法は複数用意されている¹。

# pip
pip install whichllm

# uv（単発実行・インストール不要）
uvx whichllm@latest

# uv tool としてインストール
uv tool install whichllm

# Homebrew
brew install andyyyy64/whichllm/whichllm

検証や CI に組み込むだけなら、環境を汚さない uvx whichllm@latest が手軽だ。

まず自分のハードウェアを確認する

最初に、WhichLLM が自分のマシンをどう認識しているかを見る。

whichllm hardware

WhichLLM は NVIDIA・AMD・Apple Silicon の GPU と、CPU コア数・RAM を自動検出する。検出には NVIDIA 向けに nvidia-ml-py、AMD 向けに ROCm 系、Apple Silicon 向けに Metal を用い、専用 GPU が無い環境では CPU-only にフォールバックする¹。GPU が認識されない場合は次の --cpu-only で CPU 前提の推薦に切り替えられる。

基本: 自分の GPU に最適なモデルを出す

最も基本的な使い方は、GPU 名を渡してランキングを得ることだ。

whichllm --gpu "RTX 4090"

出力は「順位・モデル・パラメータ規模・量子化・スコア・推定速度」を並べたランキングになる（イメージ）。

#1  <model-id>     27.8B  Q5_K_M   score 92.8    27 t/s
#2  <model-id>     32.0B  Q4_K_M   score 83.0    31 t/s
#3  <model-id>     30.0B  Q5_K_M   score 82.7   102 t/s

score は 0〜100 のベンチマーク品質、右端は推定トークン/秒だ。スコアが高くても速度が出なければ実用にならない ため、両方を並べて見られるのがポイント。具体的な順位・数値はモデルの更新やリーダーボードの変動で変わるので、--refresh で最新化できる。

主なオプションは次のとおり¹。

オプション	役割
`--gpu "NAME"`	購入前の GPU をシミュレーションして推薦
`--cpu-only`	CPU のみで動かす前提の推薦
`--top N`	表示件数（既定3）
`--quant Q`	量子化レベルで絞り込み
`--min-speed N`	最低速度（t/s）のしきい値
`--profile P`	タスク別フィルタ（general/coding/vision/math）
`--context-length N`	コンテキスト長を指定して VRAM 計算に反映
`--json`	スクリプト連携用に JSON 出力
`--refresh`	キャッシュを無視して最新データで再計算

たとえば「コーディング用途で、20 t/s 以上出るモデルを上位5件」なら次のように書ける。

whichllm --gpu "RTX 4090" --profile coding --min-speed 20 --top 5

購入前シミュレーションとアップグレード比較

WhichLLM が便利なのは、手元に無い GPU でも --gpu で仮想的に評価できる 点だ。これにより「この GPU を買ったら何が動くのか」を購入前に確認できる。

さらに upgrade サブコマンドは、複数の GPU を並べて「アップグレードで何が変わるか」を比較する¹。

whichllm upgrade "RTX 4090" "RTX 5090" "H100"

特定モデルを動かすのに必要な構成を逆算する plan、推薦されたモデルをそのまま起動する run、起動用コード断片を出す snippet も用意されている¹。

whichllm plan "llama 3 70b"     # このモデルを動かすには何が必要か
whichllm run "qwen 2.5 1.5b gguf"  # 推薦・取得して実行
whichllm snippet "qwen 7b"      # 実行用スニペットを出力

スコアはどう決まるのか（信頼性の設計）

「ローカル LLM 推薦ツール」は数あるが、WhichLLM が踏み込んでいるのは スコアの出所と信頼度を明示している 点だ¹。

スコアは LiveBench・Artificial Analysis・Aider・マルチモーダル/ビジョン評価・Chatbot Arena ELO・Open LLM Leaderboard など複数ソースを統合し、そこに VRAM 適合・速度推定・量子化ペナルティ・ソース信頼度の補正を掛けて算出する¹。

加えて、ベンチマークの裏取り度合いを エビデンス信頼度の階層 として扱う。

階層	意味
`direct`	モデル ID が完全一致（最も信頼できる）
`variant`	サフィックスを除いた一致
`base_model`	カードのベースモデル情報から推定
`line_interp`	同系統モデルからの内挿
`self_reported`	アップロード者の自己申告（大きく割引）

--evidence strict を付ければ、自己申告のような弱い根拠を排除して厳しめに評価できる。さらに「古くなったリーダーボードは系統に沿って降格させる」ことで、旧世代モデルが最新世代を不当に上回らないようにしている¹。推薦の数字を鵜呑みにさせず、根拠の強さごと提示する 設計思想だ。

対応バックエンド

実行バックエンドは量子化形式に応じて切り替わる¹。

GGUF: llama-cpp-python 経由（軽量・高速）
AWQ / GPTQ: transformers + autoawq / auto-gptq
FP16 / BF16: transformers

ただし Apple Silicon と CPU-only は安定性のため GGUF に限定され、AWQ / GPTQ は Linux + NVIDIA 環境で利用できる¹。自分の環境で何が選べるかも、この制約を踏まえて推薦に反映される。

どんな人に向くか

向いている	慎重に検討
ローカル LLM を VRAM と速度の制約内で最適化したい	クラウド API 中心で運用している
GPU 購入・増設の費用対効果を事前に知りたい	使うモデルが既に固定されている
`--json` で自動化・社内ツールに組み込みたい	GUI で完結させたい

WhichLLM は「ローカルで賢く・速いモデルを、根拠込みで機械的に選ぶ」ニーズに強い。逆に、すでに使うモデルが決まっているなら出番は少ない。

まとめ

WhichLLM は 自分のハードウェアでの実効性能 でローカル LLM を推薦する OSS CLI（Andyyyy64/whichllm・Python 3.11+ / MIT）。
pip install whichllm → whichllm --gpu "RTX 4090" で、VRAM 適合 × 速度 × ベンチマーク品質 を統合したランキングが出る。upgrade で購入前比較、run でそのまま実行まで。
スコアは複数リーダーボードを統合し、エビデンス信頼度の階層 と古いデータの降格で「根拠の強さ込み」で提示する。

ローカル LLM 環境を持っているなら、まず whichllm hardware で自分のマシンを認識させ、--gpu 無しで現在の環境に最適なモデルを1件出してみると、手元のスペックの「天井」が一目で分かるはずだ。

Andyyyy64/whichllm（GitHub リポジトリ・README）。インストール方法・CLI サブコマンド・オプション・ハードウェア検出・スコアリングとエビデンス階層・対応バックエンド・MIT ライセンスの出典。https://github.com/Andyyyy64/whichllm ↩ ↩² ↩³ ↩⁴ ↩⁵ ↩⁶ ↩⁷ ↩⁸ ↩⁹ ↩¹⁰ ↩¹¹ ↩¹² ↩¹³ ↩¹⁴ ↩¹⁵
"WhichLLM: A New Tool for Identifying Optimal Local Large Language Models Based on Real-Time Hardware Benchmarks"（AIToolly・2026-06-11）。2026年6月公開・コンセプトの出典。https://aitoolly.com/ai-news/article/2026-06-11-whichllm-a-new-tool-for-identifying-optimal-local-large-language-models-based-on-real-time-hardware ↩ ↩²

You get articles that match your needs
You can efficiently read back useful information
You can use dark theme

What you can do with signing up