はじめに
今月末、インターネットの無い環境の片田舎の実家に帰省するので、オフラインでも自前のPCでAIを使う方法を備忘録として残したいと思って書きました。
自分のPCでどんなAIが動く?
自分のPCでどんなAIが動くのか、なんでもいいのか、どれを選べばいいのか、よくわかりません。
そこで、確認するのがcanirun.aiというサイトです。
アクセスするだけで、自分のPCのスペックを読み取って良好に動くAIモデルを表示してくれます。
便利ですね。
ちなみに私のPCはApple M1 Max メモリ32GBです。
モデルによって比較的に新しいモデルを使いたいと思っても、スペック的に無理な場合もあるようです。
あと、パラメータ数という概念もあるみたいで、そこら辺もよく分からなかったので調べたりしました。
それでも決めきれなかったので、結局おすすめをClaudeに聞いてみたりしました。
以下Claudeの回答
M1 Max 32GB におすすめのローカル LLM(新しめ)
出典: canirun.ai のモデルリストをもとに選定。
前提:使えるメモリの目安
M1 Max 32GB はユニファイドメモリのため、実際にモデルとコンテキストに使えるのは macOS のオーバーヘッドを引いて おおむね 21〜24GB 程度。
-
sudo sysctl iogpu.wired_limit_mbで GPU 割り当て上限を上げれば多少増やせる - weights が 14〜18GB あたりが快適ゾーン
- それ以上はコンテキスト長次第でやや窮屈になる
おすすめモデル
第一候補:Qwen 3.5 27B
- リリース: 2026-02 / サイズ: 14.7GB / 構成: Dense
- マルチモーダル(vision)対応・256K コンテキスト
- 32GB に余裕を持って収まり、chat / reasoning / コードまで万能
- 「新しくて、サイズも手頃で、用途を選ばない」バランス最良の選択
速度重視なら:Gemma 4 26B-A4B IT
- リリース: 2026-04 / サイズ: 14.3GB / 構成: MoE(4B active)
- Apple Silicon と MoE は相性が良い(全パラメータは載るが計算は 4B 分だけ → 高速)
- リスト中で最も新しい部類・vision + reasoning 対応
- 「賢さの割にサクサク動いてほしい」ならこちら
もう一段上の容量が欲しいなら:Qwen 3.5 35B-A3B
- リリース: 2026-02 / サイズ: 18.4GB / 構成: MoE(3B active)
- 総パラメータが大きく知識量で有利、active 3B で速度も出る
- 18.4GB はコンテキストを伸ばすとやや窮屈 → VRAM 上限を上げて使うのが推奨
比較表
| モデル | リリース | サイズ | 構成 | 特徴 |
|---|---|---|---|---|
| Qwen 3.5 27B | 2026-02 | 14.7GB | Dense | 万能・vision・256K、バランス最良 |
| Gemma 4 26B-A4B IT | 2026-04 | 14.3GB | MoE (4B active) | 最新・高速・vision |
| Qwen 3.5 35B-A3B | 2026-02 | 18.4GB | MoE (3B active) | 知識量多め・高速だがやや重い |
| Gemma 4 31B IT | 2026-04 | 17.4GB | Dense | 最新 dense 最高品質だが遅め・タイト |
| Devstral Small 2 24B | 2025-12 | 12.8GB | Dense | コーディング特化・256K ctx |
まとめ
- 迷ったら Qwen 3.5 27B から試す のがおすすめ
- 速度に物足りなさを感じたら MoE の Gemma 4 26B-A4B に乗り換える流れがきれい
- コーディング特化なら Devstral Small 2 24B(SWE-bench 68%)も候補
実行環境
- Ollama — CLI / 手軽
- LM Studio — GUI / モデル管理が楽
どちらも上記モデルに対応。
Qwen 3.5 27Bをおすすめされたので、インストールしていこうと思います。
Ollamaを入れる
Ollamaとは
Ollama は、この面倒な部分を全部ラップして「コマンド一発で使える」ようにしたツールです。
例えるなら LLM 版の Docker です。ダウンロードや管理、ローカルサーバーの起ち上げ、GPUを自動で使う設定などを面倒見てくれます。
ollamaの公式サイトに移動するとトップページにダウンロードのコマンドが書かれてあるので、そのコマンドを叩きます。
curl -fsSL https://ollama.com/install.sh | sh
インストールされた後、ollamaのコマンドで起動して動かしたいモデルを選択もできます。
ただ、私が使いたいモデルは、おすすめに表示されなかったので直接インストールすることにしました。
ollama run qwen3.5:27b
Qwen 3.5 27Bは15GBくらいの容量があるのでインストールが終わるまでに少し時間がかかりました。
インストールが済んだら、チャットを入力できるようになります。
ちなみに「こんにちは」と入力したら、返事をするまでの思考プロセスまで表示されてます(他のモデルも同様に表示されるかは、まだ未確認)
感想
少しだけ使ってみましたが、返答までの時間がかかっているのは何が原因なのか、もう少し仕組みを勉強する必要があると感じました。
Radditの記事に「ローカルLLMの返信速度に影響を与えるものは何ですか?」という質問があって、ここで議論にあがっている内容があまりよく分からなかったです。
さらに素人的な感想だと、ローカルLLM起動時、PCのファンが「シューーーーー!」と言い始めたので、それなりのスペックが無いと快適には使えないのかな?と思いました。
参考

