TL;DR
- WhichLLM は「自分のハードウェアで実際に高性能なローカル LLM はどれか」をコマンド1発で教えてくれる OSS の CLI。パラメータ数ではなく、ベンチマーク品質・VRAM 適合・推定速度を統合したスコアで推薦する1。
-
pip install whichllm(またはuvx whichllm@latest)で導入でき、whichllm --gpu "RTX 4090"のように GPU 名を渡すだけ で「載るモデル × 速度 × 品質」のランキングが出る1。 - 購入前シミュレーション(
--gpu)・アップグレード比較(upgrade)・そのまま実行(run)まで揃い、ローカル LLM 環境の「モデル選びで消耗する」問題を機械的に潰せる。Python 3.11+ / MIT ライセンス1。
ローカル LLM を動かすとき、最初に必ずぶつかるのが「結局、自分の GPU で一番賢くて速いモデルはどれ?」という問いだ。WhichLLM はこの問いに、毎回手作業で VRAM 計算とリーダーボード照合をする代わりに、1コマンドで答えを返す ことを狙ったツールだ2。
WhichLLM とは何か
WhichLLM は Andyyyy64 が開発する OSS の CLI で、2026年6月に公開され話題になった2。コンセプトは明快で、「パラメータ数の大きさ」ではなく「自分のハードウェアでの実効性能」でローカル LLM を推薦する こと1。
ローカル LLM 選びは本来、次の3つを同時に満たす必要がある。
- VRAM に載るか(量子化レベル込みで実際にメモリに収まるか)
- 実用的な速度が出るか(トークン/秒)
- タスクに対して賢いか(ベンチマーク品質)
この3つを手で突き合わせるのは骨が折れる。WhichLLM はハードウェアを自動検出し、複数のリーダーボードを統合したスコアと VRAM 適合・速度推定を掛け合わせて、「あなたの環境で実際に良いモデル」 を順位付けして返す1。
セットアップ
Python 3.11 以上が前提。インストール方法は複数用意されている1。
# pip
pip install whichllm
# uv(単発実行・インストール不要)
uvx whichllm@latest
# uv tool としてインストール
uv tool install whichllm
# Homebrew
brew install andyyyy64/whichllm/whichllm
検証や CI に組み込むだけなら、環境を汚さない uvx whichllm@latest が手軽だ。
まず自分のハードウェアを確認する
最初に、WhichLLM が自分のマシンをどう認識しているかを見る。
whichllm hardware
WhichLLM は NVIDIA・AMD・Apple Silicon の GPU と、CPU コア数・RAM を自動検出する。検出には NVIDIA 向けに nvidia-ml-py、AMD 向けに ROCm 系、Apple Silicon 向けに Metal を用い、専用 GPU が無い環境では CPU-only にフォールバックする1。GPU が認識されない場合は次の --cpu-only で CPU 前提の推薦に切り替えられる。
基本: 自分の GPU に最適なモデルを出す
最も基本的な使い方は、GPU 名を渡してランキングを得ることだ。
whichllm --gpu "RTX 4090"
出力は「順位・モデル・パラメータ規模・量子化・スコア・推定速度」を並べたランキングになる(イメージ)。
#1 <model-id> 27.8B Q5_K_M score 92.8 27 t/s
#2 <model-id> 32.0B Q4_K_M score 83.0 31 t/s
#3 <model-id> 30.0B Q5_K_M score 82.7 102 t/s
score は 0〜100 のベンチマーク品質、右端は推定トークン/秒だ。スコアが高くても速度が出なければ実用にならない ため、両方を並べて見られるのがポイント。具体的な順位・数値はモデルの更新やリーダーボードの変動で変わるので、--refresh で最新化できる。
主なオプションは次のとおり1。
| オプション | 役割 |
|---|---|
--gpu "NAME" |
購入前の GPU をシミュレーションして推薦 |
--cpu-only |
CPU のみで動かす前提の推薦 |
--top N |
表示件数(既定3) |
--quant Q |
量子化レベルで絞り込み |
--min-speed N |
最低速度(t/s)のしきい値 |
--profile P |
タスク別フィルタ(general/coding/vision/math) |
--context-length N |
コンテキスト長を指定して VRAM 計算に反映 |
--json |
スクリプト連携用に JSON 出力 |
--refresh |
キャッシュを無視して最新データで再計算 |
たとえば「コーディング用途で、20 t/s 以上出るモデルを上位5件」なら次のように書ける。
whichllm --gpu "RTX 4090" --profile coding --min-speed 20 --top 5
購入前シミュレーションとアップグレード比較
WhichLLM が便利なのは、手元に無い GPU でも --gpu で仮想的に評価できる 点だ。これにより「この GPU を買ったら何が動くのか」を購入前に確認できる。
さらに upgrade サブコマンドは、複数の GPU を並べて「アップグレードで何が変わるか」を比較する1。
whichllm upgrade "RTX 4090" "RTX 5090" "H100"
特定モデルを動かすのに必要な構成を逆算する plan、推薦されたモデルをそのまま起動する run、起動用コード断片を出す snippet も用意されている1。
whichllm plan "llama 3 70b" # このモデルを動かすには何が必要か
whichllm run "qwen 2.5 1.5b gguf" # 推薦・取得して実行
whichllm snippet "qwen 7b" # 実行用スニペットを出力
スコアはどう決まるのか(信頼性の設計)
「ローカル LLM 推薦ツール」は数あるが、WhichLLM が踏み込んでいるのは スコアの出所と信頼度を明示している 点だ1。
スコアは LiveBench・Artificial Analysis・Aider・マルチモーダル/ビジョン評価・Chatbot Arena ELO・Open LLM Leaderboard など複数ソースを統合し、そこに VRAM 適合・速度推定・量子化ペナルティ・ソース信頼度の補正を掛けて算出する1。
加えて、ベンチマークの裏取り度合いを エビデンス信頼度の階層 として扱う。
| 階層 | 意味 |
|---|---|
direct |
モデル ID が完全一致(最も信頼できる) |
variant |
サフィックスを除いた一致 |
base_model |
カードのベースモデル情報から推定 |
line_interp |
同系統モデルからの内挿 |
self_reported |
アップロード者の自己申告(大きく割引) |
--evidence strict を付ければ、自己申告のような弱い根拠を排除して厳しめに評価できる。さらに「古くなったリーダーボードは系統に沿って降格させる」ことで、旧世代モデルが最新世代を不当に上回らないようにしている1。推薦の数字を鵜呑みにさせず、根拠の強さごと提示する 設計思想だ。
対応バックエンド
実行バックエンドは量子化形式に応じて切り替わる1。
-
GGUF:
llama-cpp-python経由(軽量・高速) -
AWQ / GPTQ:
transformers+autoawq/auto-gptq -
FP16 / BF16:
transformers
ただし Apple Silicon と CPU-only は安定性のため GGUF に限定され、AWQ / GPTQ は Linux + NVIDIA 環境で利用できる1。自分の環境で何が選べるかも、この制約を踏まえて推薦に反映される。
どんな人に向くか
| 向いている | 慎重に検討 |
|---|---|
| ローカル LLM を VRAM と速度の制約内で最適化したい | クラウド API 中心で運用している |
| GPU 購入・増設の費用対効果を事前に知りたい | 使うモデルが既に固定されている |
--json で自動化・社内ツールに組み込みたい |
GUI で完結させたい |
WhichLLM は「ローカルで賢く・速いモデルを、根拠込みで機械的に選ぶ」ニーズに強い。逆に、すでに使うモデルが決まっているなら出番は少ない。
まとめ
- WhichLLM は 自分のハードウェアでの実効性能 でローカル LLM を推薦する OSS CLI(
Andyyyy64/whichllm・Python 3.11+ / MIT)。 -
pip install whichllm→whichllm --gpu "RTX 4090"で、VRAM 適合 × 速度 × ベンチマーク品質 を統合したランキングが出る。upgradeで購入前比較、runでそのまま実行まで。 - スコアは複数リーダーボードを統合し、エビデンス信頼度の階層 と古いデータの降格で「根拠の強さ込み」で提示する。
ローカル LLM 環境を持っているなら、まず whichllm hardware で自分のマシンを認識させ、--gpu 無しで現在の環境に最適なモデルを1件出してみると、手元のスペックの「天井」が一目で分かるはずだ。
-
Andyyyy64/whichllm(GitHub リポジトリ・README)。インストール方法・CLI サブコマンド・オプション・ハードウェア検出・スコアリングとエビデンス階層・対応バックエンド・MIT ライセンスの出典。https://github.com/Andyyyy64/whichllm ↩ ↩2 ↩3 ↩4 ↩5 ↩6 ↩7 ↩8 ↩9 ↩10 ↩11 ↩12 ↩13 ↩14 ↩15
-
"WhichLLM: A New Tool for Identifying Optimal Local Large Language Models Based on Real-Time Hardware Benchmarks"(AIToolly・2026-06-11)。2026年6月公開・コンセプトの出典。https://aitoolly.com/ai-news/article/2026-06-11-whichllm-a-new-tool-for-identifying-optimal-local-large-language-models-based-on-real-time-hardware ↩ ↩2