0
0

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?

WhichLLM入門 — 自分のGPUで最速のローカルLLMをCLIで選ぶハンズオン

0
Last updated at Posted at 2026-06-27

TL;DR

  • WhichLLM は「自分のハードウェアで実際に高性能なローカル LLM はどれか」をコマンド1発で教えてくれる OSS の CLI。パラメータ数ではなく、ベンチマーク品質・VRAM 適合・推定速度を統合したスコアで推薦する1
  • pip install whichllm(または uvx whichllm@latest)で導入でき、whichllm --gpu "RTX 4090" のように GPU 名を渡すだけ で「載るモデル × 速度 × 品質」のランキングが出る1
  • 購入前シミュレーション(--gpu)・アップグレード比較(upgrade)・そのまま実行(run)まで揃い、ローカル LLM 環境の「モデル選びで消耗する」問題を機械的に潰せる。Python 3.11+ / MIT ライセンス1

ローカル LLM を動かすとき、最初に必ずぶつかるのが「結局、自分の GPU で一番賢くて速いモデルはどれ?」という問いだ。WhichLLM はこの問いに、毎回手作業で VRAM 計算とリーダーボード照合をする代わりに、1コマンドで答えを返す ことを狙ったツールだ2


WhichLLM とは何か

WhichLLM は Andyyyy64 が開発する OSS の CLI で、2026年6月に公開され話題になった2。コンセプトは明快で、「パラメータ数の大きさ」ではなく「自分のハードウェアでの実効性能」でローカル LLM を推薦する こと1

ローカル LLM 選びは本来、次の3つを同時に満たす必要がある。

  1. VRAM に載るか(量子化レベル込みで実際にメモリに収まるか)
  2. 実用的な速度が出るか(トークン/秒)
  3. タスクに対して賢いか(ベンチマーク品質)

この3つを手で突き合わせるのは骨が折れる。WhichLLM はハードウェアを自動検出し、複数のリーダーボードを統合したスコアと VRAM 適合・速度推定を掛け合わせて、「あなたの環境で実際に良いモデル」 を順位付けして返す1

セットアップ

Python 3.11 以上が前提。インストール方法は複数用意されている1

# pip
pip install whichllm

# uv(単発実行・インストール不要)
uvx whichllm@latest

# uv tool としてインストール
uv tool install whichllm

# Homebrew
brew install andyyyy64/whichllm/whichllm

検証や CI に組み込むだけなら、環境を汚さない uvx whichllm@latest が手軽だ。

まず自分のハードウェアを確認する

最初に、WhichLLM が自分のマシンをどう認識しているかを見る。

whichllm hardware

WhichLLM は NVIDIA・AMD・Apple Silicon の GPU と、CPU コア数・RAM を自動検出する。検出には NVIDIA 向けに nvidia-ml-py、AMD 向けに ROCm 系、Apple Silicon 向けに Metal を用い、専用 GPU が無い環境では CPU-only にフォールバックする1。GPU が認識されない場合は次の --cpu-only で CPU 前提の推薦に切り替えられる。

基本: 自分の GPU に最適なモデルを出す

最も基本的な使い方は、GPU 名を渡してランキングを得ることだ。

whichllm --gpu "RTX 4090"

出力は「順位・モデル・パラメータ規模・量子化・スコア・推定速度」を並べたランキングになる(イメージ)。

#1  <model-id>     27.8B  Q5_K_M   score 92.8    27 t/s
#2  <model-id>     32.0B  Q4_K_M   score 83.0    31 t/s
#3  <model-id>     30.0B  Q5_K_M   score 82.7   102 t/s

score は 0〜100 のベンチマーク品質、右端は推定トークン/秒だ。スコアが高くても速度が出なければ実用にならない ため、両方を並べて見られるのがポイント。具体的な順位・数値はモデルの更新やリーダーボードの変動で変わるので、--refresh で最新化できる。

主なオプションは次のとおり1

オプション 役割
--gpu "NAME" 購入前の GPU をシミュレーションして推薦
--cpu-only CPU のみで動かす前提の推薦
--top N 表示件数(既定3)
--quant Q 量子化レベルで絞り込み
--min-speed N 最低速度(t/s)のしきい値
--profile P タスク別フィルタ(general/coding/vision/math)
--context-length N コンテキスト長を指定して VRAM 計算に反映
--json スクリプト連携用に JSON 出力
--refresh キャッシュを無視して最新データで再計算

たとえば「コーディング用途で、20 t/s 以上出るモデルを上位5件」なら次のように書ける。

whichllm --gpu "RTX 4090" --profile coding --min-speed 20 --top 5

購入前シミュレーションとアップグレード比較

WhichLLM が便利なのは、手元に無い GPU でも --gpu で仮想的に評価できる 点だ。これにより「この GPU を買ったら何が動くのか」を購入前に確認できる。

さらに upgrade サブコマンドは、複数の GPU を並べて「アップグレードで何が変わるか」を比較する1

whichllm upgrade "RTX 4090" "RTX 5090" "H100"

特定モデルを動かすのに必要な構成を逆算する plan、推薦されたモデルをそのまま起動する run、起動用コード断片を出す snippet も用意されている1

whichllm plan "llama 3 70b"     # このモデルを動かすには何が必要か
whichllm run "qwen 2.5 1.5b gguf"  # 推薦・取得して実行
whichllm snippet "qwen 7b"      # 実行用スニペットを出力

スコアはどう決まるのか(信頼性の設計)

「ローカル LLM 推薦ツール」は数あるが、WhichLLM が踏み込んでいるのは スコアの出所と信頼度を明示している 点だ1

スコアは LiveBench・Artificial Analysis・Aider・マルチモーダル/ビジョン評価・Chatbot Arena ELO・Open LLM Leaderboard など複数ソースを統合し、そこに VRAM 適合・速度推定・量子化ペナルティ・ソース信頼度の補正を掛けて算出する1

加えて、ベンチマークの裏取り度合いを エビデンス信頼度の階層 として扱う。

階層 意味
direct モデル ID が完全一致(最も信頼できる)
variant サフィックスを除いた一致
base_model カードのベースモデル情報から推定
line_interp 同系統モデルからの内挿
self_reported アップロード者の自己申告(大きく割引)

--evidence strict を付ければ、自己申告のような弱い根拠を排除して厳しめに評価できる。さらに「古くなったリーダーボードは系統に沿って降格させる」ことで、旧世代モデルが最新世代を不当に上回らないようにしている1推薦の数字を鵜呑みにさせず、根拠の強さごと提示する 設計思想だ。

対応バックエンド

実行バックエンドは量子化形式に応じて切り替わる1

  • GGUF: llama-cpp-python 経由(軽量・高速)
  • AWQ / GPTQ: transformers + autoawq / auto-gptq
  • FP16 / BF16: transformers

ただし Apple Silicon と CPU-only は安定性のため GGUF に限定され、AWQ / GPTQ は Linux + NVIDIA 環境で利用できる1。自分の環境で何が選べるかも、この制約を踏まえて推薦に反映される。

どんな人に向くか

向いている 慎重に検討
ローカル LLM を VRAM と速度の制約内で最適化したい クラウド API 中心で運用している
GPU 購入・増設の費用対効果を事前に知りたい 使うモデルが既に固定されている
--json で自動化・社内ツールに組み込みたい GUI で完結させたい

WhichLLM は「ローカルで賢く・速いモデルを、根拠込みで機械的に選ぶ」ニーズに強い。逆に、すでに使うモデルが決まっているなら出番は少ない。

まとめ

  • WhichLLM は 自分のハードウェアでの実効性能 でローカル LLM を推薦する OSS CLI(Andyyyy64/whichllm・Python 3.11+ / MIT)。
  • pip install whichllmwhichllm --gpu "RTX 4090" で、VRAM 適合 × 速度 × ベンチマーク品質 を統合したランキングが出る。upgrade で購入前比較、run でそのまま実行まで。
  • スコアは複数リーダーボードを統合し、エビデンス信頼度の階層 と古いデータの降格で「根拠の強さ込み」で提示する。

ローカル LLM 環境を持っているなら、まず whichllm hardware で自分のマシンを認識させ、--gpu 無しで現在の環境に最適なモデルを1件出してみると、手元のスペックの「天井」が一目で分かるはずだ。

  1. Andyyyy64/whichllm(GitHub リポジトリ・README)。インストール方法・CLI サブコマンド・オプション・ハードウェア検出・スコアリングとエビデンス階層・対応バックエンド・MIT ライセンスの出典。https://github.com/Andyyyy64/whichllm 2 3 4 5 6 7 8 9 10 11 12 13 14 15

  2. "WhichLLM: A New Tool for Identifying Optimal Local Large Language Models Based on Real-Time Hardware Benchmarks"(AIToolly・2026-06-11)。2026年6月公開・コンセプトの出典。https://aitoolly.com/ai-news/article/2026-06-11-whichllm-a-new-tool-for-identifying-optimal-local-large-language-models-based-on-real-time-hardware 2

0
0
0

Register as a new user and use Qiita more conveniently

  1. You get articles that match your needs
  2. You can efficiently read back useful information
  3. You can use dark theme
What you can do with signing up
0
0

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?