4
4

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?

はじめに

今月末、インターネットの無い環境の片田舎の実家に帰省するので、オフラインでも自前のPCでAIを使う方法を備忘録として残したいと思って書きました。

自分のPCでどんなAIが動く?

自分のPCでどんなAIが動くのか、なんでもいいのか、どれを選べばいいのか、よくわかりません。
そこで、確認するのがcanirun.aiというサイトです。

アクセスするだけで、自分のPCのスペックを読み取って良好に動くAIモデルを表示してくれます。
便利ですね。

ちなみに私のPCはApple M1 Max メモリ32GBです。
モデルによって比較的に新しいモデルを使いたいと思っても、スペック的に無理な場合もあるようです。
あと、パラメータ数という概念もあるみたいで、そこら辺もよく分からなかったので調べたりしました。

それでも決めきれなかったので、結局おすすめをClaudeに聞いてみたりしました。

以下Claudeの回答

M1 Max 32GB におすすめのローカル LLM(新しめ)

出典: canirun.ai のモデルリストをもとに選定。

前提:使えるメモリの目安

M1 Max 32GB はユニファイドメモリのため、実際にモデルとコンテキストに使えるのは macOS のオーバーヘッドを引いて おおむね 21〜24GB 程度

  • sudo sysctl iogpu.wired_limit_mb で GPU 割り当て上限を上げれば多少増やせる
  • weights が 14〜18GB あたりが快適ゾーン
  • それ以上はコンテキスト長次第でやや窮屈になる

おすすめモデル

第一候補:Qwen 3.5 27B

  • リリース: 2026-02 / サイズ: 14.7GB / 構成: Dense
  • マルチモーダル(vision)対応・256K コンテキスト
  • 32GB に余裕を持って収まり、chat / reasoning / コードまで万能
  • 「新しくて、サイズも手頃で、用途を選ばない」バランス最良の選択

速度重視なら:Gemma 4 26B-A4B IT

  • リリース: 2026-04 / サイズ: 14.3GB / 構成: MoE(4B active)
  • Apple Silicon と MoE は相性が良い(全パラメータは載るが計算は 4B 分だけ → 高速)
  • リスト中で最も新しい部類・vision + reasoning 対応
  • 「賢さの割にサクサク動いてほしい」ならこちら

もう一段上の容量が欲しいなら:Qwen 3.5 35B-A3B

  • リリース: 2026-02 / サイズ: 18.4GB / 構成: MoE(3B active)
  • 総パラメータが大きく知識量で有利、active 3B で速度も出る
  • 18.4GB はコンテキストを伸ばすとやや窮屈 → VRAM 上限を上げて使うのが推奨

比較表

モデル リリース サイズ 構成 特徴
Qwen 3.5 27B 2026-02 14.7GB Dense 万能・vision・256K、バランス最良
Gemma 4 26B-A4B IT 2026-04 14.3GB MoE (4B active) 最新・高速・vision
Qwen 3.5 35B-A3B 2026-02 18.4GB MoE (3B active) 知識量多め・高速だがやや重い
Gemma 4 31B IT 2026-04 17.4GB Dense 最新 dense 最高品質だが遅め・タイト
Devstral Small 2 24B 2025-12 12.8GB Dense コーディング特化・256K ctx

まとめ

  • 迷ったら Qwen 3.5 27B から試す のがおすすめ
  • 速度に物足りなさを感じたら MoE の Gemma 4 26B-A4B に乗り換える流れがきれい
  • コーディング特化なら Devstral Small 2 24B(SWE-bench 68%)も候補

実行環境

  • Ollama — CLI / 手軽
  • LM Studio — GUI / モデル管理が楽

どちらも上記モデルに対応。

Qwen 3.5 27Bをおすすめされたので、インストールしていこうと思います。

Ollamaを入れる

Ollamaとは

Ollama は、この面倒な部分を全部ラップして「コマンド一発で使える」ようにしたツールです。
例えるなら LLM 版の Docker です。ダウンロードや管理、ローカルサーバーの起ち上げ、GPUを自動で使う設定などを面倒見てくれます。

ollamaの公式サイトに移動するとトップページにダウンロードのコマンドが書かれてあるので、そのコマンドを叩きます。

curl -fsSL https://ollama.com/install.sh | sh

インストールされた後、ollamaのコマンドで起動して動かしたいモデルを選択もできます。

ollamaを起動後、ローカルLLMのモデルを選択できる画面

ただ、私が使いたいモデルは、おすすめに表示されなかったので直接インストールすることにしました。

ollama run qwen3.5:27b

Qwen 3.5 27Bは15GBくらいの容量があるのでインストールが終わるまでに少し時間がかかりました。
インストールが済んだら、チャットを入力できるようになります。

ちなみに「こんにちは」と入力したら、返事をするまでの思考プロセスまで表示されてます(他のモデルも同様に表示されるかは、まだ未確認)

こんにちは、と入力しQwenが「こんにちは!お元気ですか?」と返事するまでの思考のプロセスが表示された画面

感想

少しだけ使ってみましたが、返答までの時間がかかっているのは何が原因なのか、もう少し仕組みを勉強する必要があると感じました。
Radditの記事に「ローカルLLMの返信速度に影響を与えるものは何ですか?」という質問があって、ここで議論にあがっている内容があまりよく分からなかったです。
さらに素人的な感想だと、ローカルLLM起動時、PCのファンが「シューーーーー!」と言い始めたので、それなりのスペックが無いと快適には使えないのかな?と思いました。

参考

4
4
0

Register as a new user and use Qiita more conveniently

  1. You get articles that match your needs
  2. You can efficiently read back useful information
  3. You can use dark theme
What you can do with signing up
4
4

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?