はじめに
前回は、Windows 11 + WSL2 + Ollama + Continue を使って、ローカルAI開発環境を構築しました。
今回はその続きとして、VS Code の Continue 拡張機能から、Windows 側で起動している Ollama のローカルLLMを呼び出せるように設定します。
この記事では、以下を扱います。
- Continue の設定ファイル
config.yamlの基本 - Ollama のモデルを Continue から使う設定
- 7B / 14B クラスのモデルをどう考えるか
- WSL2 上のプロジェクトを VS Code で開いた状態で Continue を使う考え方
- 接続確認とよくあるハマりどころ
この記事の目的は、実際に構築したローカルAI開発環境を後から見返せるように整理することです。
そのため、架空のアプリ開発や業務システム固有の内容は扱いません。
前提
この記事では、以下の環境が構築済みであることを前提にします。
| 項目 | 内容 |
|---|---|
| OS | Windows 11 |
| Linux環境 | WSL2 + Ubuntu |
| GPU | NVIDIA GeForce RTX 5060 Ti 16GB |
| LLM実行基盤 | Ollama |
| エディタ | VS Code |
| VS Code拡張 | WSL / Continue |
前回の記事で、以下の状態まで構築済みとします。
- NVIDIA GPU が
nvidia-smiで認識されている - Ollama が Windows 側で起動している
- Ollama のモデル保存先を C ドライブ以外に変更している
- WSL2 の Ubuntu 環境がある
- VS Code から WSL2 上のプロジェクトを開ける
- Continue 拡張機能がインストールされている
今回の構成
今回の構成は以下です。
Windows 11
├─ Ollama
│ └─ ローカルLLMモデル
├─ VS Code
│ ├─ WSL 拡張機能
│ └─ Continue 拡張機能
└─ WSL2 Ubuntu
└─ 開発プロジェクト
コードは WSL2 上に置きます。
VS Code は WSL 拡張機能を使って、WSL2 上のプロジェクトを開きます。
Continue は VS Code の拡張機能として動作し、Windows 側で起動している Ollama に接続します。
VS Code + Continue
↓
http://localhost:11434
↓
Ollama on Windows
↓
RTX 5060 Ti 16GB
1. Ollamaが起動しているか確認する
まず、Windows 側で Ollama が起動しているか確認します。
PowerShellで以下を実行します。
curl http://localhost:11434
以下のように表示されればOKです。
Ollama is running
応答がない場合は、Ollama が起動していない可能性があります。
Ollama を起動し直してから、再度確認します。
2. 利用可能なモデルを確認する
PowerShellで以下を実行します。
ollama list
例として、以下のように表示されます。
NAME ID SIZE MODIFIED
qwen2.5-coder:7b xxxxxxxx x GB x days ago
この記事では、例として qwen2.5-coder:7b を使います。
まだモデルを取得していない場合は、以下で取得します。
ollama pull qwen2.5-coder:7b
モデル取得後、再度確認します。
ollama list
Continue 側の model には、ここで表示されたモデル名をそのまま指定します。
3. Continueの設定ファイルを開く
Continue の設定は、VS Code 上から開けます。
- VS Code を起動する
- 左側の Continue アイコンを開く
- 歯車アイコン、または設定メニューを開く
-
config.yamlを開く
Continue のバージョンによって画面表示が異なる場合があります。
その場合は、コマンドパレットから Continue の設定を開きます。
Ctrl + Shift + P
コマンドパレットで Continue と入力し、設定ファイルを開きます。
4. 最小構成のconfig.yaml
まずは、Ollama のモデルを1つだけ登録する最小構成にします。
name: Local Ollama Config
version: 0.0.1
schema: v1
models:
- name: Qwen2.5 Coder 7B
provider: ollama
model: qwen2.5-coder:7b
apiBase: http://localhost:11434
roles:
- chat
- edit
それぞれの意味は以下です。
| 項目 | 意味 |
|---|---|
name |
Continue上で表示するモデル名 |
provider |
利用するLLMプロバイダ |
model |
Ollama側のモデル名 |
apiBase |
Ollamaの接続先 |
roles |
Continue内での役割 |
重要なのは model の値です。
ここは ollama list で表示される名前と一致させます。
例えば、Ollama側で以下のように表示される場合。
qwen2.5-coder:7b
Continue側も以下にします。
model: qwen2.5-coder:7b
5. rolesの考え方
roles には、Continue内でそのモデルをどの用途に使うかを指定します。
今回の最小構成では、以下を設定しました。
roles:
- chat
- edit
それぞれの使い方は以下です。
| role | 用途 |
|---|---|
chat |
コード相談、説明、質問 |
edit |
選択したコードの修正 |
最初は、チャット用と編集用を同じモデルで問題ありません。
複数モデルを使い分けると便利な場合もありますが、最初から複雑にすると、問題が起きたときに原因を切り分けにくくなります。
まずは1つのモデルで、ContinueからOllamaへ接続できることを確認します。
6. 14Bクラスのモデルを使う場合
RTX 5060 Ti 16GB であれば、7Bクラスより大きいモデルも選択肢に入ります。
例えば、以下のようなモデルを試すことができます。
ollama pull qwen2.5-coder:14b
取得後、確認します。
ollama list
Continue側では、以下のように設定します。
name: Local Ollama Config
version: 0.0.1
schema: v1
models:
- name: Qwen2.5 Coder 14B
provider: ollama
model: qwen2.5-coder:14b
apiBase: http://localhost:11434
roles:
- chat
- edit
ただし、モデルが大きくなるほど以下の影響があります。
- 応答開始まで時間がかかる
- VRAM使用量が増える
- 長い出力で速度が落ちる
- 他のアプリと同時利用したときに重くなる
そのため、まずは 7B クラスで動作確認し、余裕があれば 14B クラスを試す流れが安全です。
7. 複数モデルを登録する場合
7B と 14B を両方登録して、用途に応じて切り替えることもできます。
name: Local Ollama Config
version: 0.0.1
schema: v1
models:
- name: Qwen2.5 Coder 7B
provider: ollama
model: qwen2.5-coder:7b
apiBase: http://localhost:11434
roles:
- chat
- edit
- name: Qwen2.5 Coder 14B
provider: ollama
model: qwen2.5-coder:14b
apiBase: http://localhost:11434
roles:
- chat
- edit
使い分けの目安は以下です。
| 用途 | モデル |
|---|---|
| 軽い質問 | 7B |
| 短いコード相談 | 7B |
| 少し複雑な相談 | 14B |
| 長めの説明や設計相談 | 14B |
ただし、必ずしも大きいモデルが常に便利とは限りません。
普段使いでは、応答が速い 7B の方が扱いやすい場合もあります。
8. WSL2上のプロジェクトをVS Codeで開く
Continueを使う前に、VS Codeで WSL2 上のプロジェクトを開いておきます。
Ubuntu側で作業ディレクトリに移動します。
cd ~/projects
任意のプロジェクトを開きます。
code .
VS Codeの左下に以下のような表示が出ていれば、WSL2上の環境を開いています。
WSL: Ubuntu-24.04
今回の構成では、コードは WSL2 上にありますが、Ollama は Windows 側で動いています。
コード: WSL2
エディタ: VS Code
AI実行: Windows側のOllama
GPU: Windows側のNVIDIAドライバ経由
この関係を把握しておくと、トラブルシュートしやすくなります。
9. ContinueからOllamaを呼び出す
Continueの設定後、VS Code上でContinueを開きます。
モデル選択欄で、先ほど設定したモデルを選択します。
例です。
Qwen2.5 Coder 7B
まずは、シンプルな質問で動作確認します。
PythonでFizzBuzzを書くコードを作成してください。
回答が返ってくれば、Continue から Ollama を呼び出せています。
次に、開いているコードや選択したコードに対して、以下のような依頼を試します。
このコードの処理内容を説明してください。
この関数の問題点を指摘してください。
この処理を読みやすくする修正案を出してください。
ここでは、あくまで接続と基本動作の確認に留めます。
実際の開発でどう使うかは、検証した内容が増えた段階で別途整理します。
10. GPU使用状況を確認する
ContinueからOllamaを呼び出している間に、PowerShellで以下を実行します。
nvidia-smi
Ollamaのプロセスが表示され、VRAM使用量が増えていればGPUが使われています。
動作中に継続して確認する場合は、以下を使います。
nvidia-smi -l 1
1秒ごとにGPU使用状況が更新されます。
終了するときは Ctrl + C を押します。
よくあるエラーと対処
ContinueからOllamaに接続できない
Ollamaが起動しているか確認します。
curl http://localhost:11434
Ollama is running が返らない場合は、Ollamaを起動し直します。
また、Continue側の apiBase が以下になっているか確認します。
apiBase: http://localhost:11434
モデルが見つからない
Continueの model と、Ollama側のモデル名が一致していない可能性があります。
PowerShellで以下を確認します。
ollama list
表示された名前を、そのまま config.yaml に設定します。
model: qwen2.5-coder:7b
応答が遅い
モデルが大きすぎる可能性があります。
まずは 7B クラスに戻して確認します。
model: qwen2.5-coder:7b
また、他のGPU使用アプリを閉じて確認します。
出力が途中で止まる
長い依頼を一度に出している可能性があります。
例えば、以下のような依頼は重くなりやすいです。
このプロジェクト全体を見て、設計を改善し、コードを修正し、テストも追加してください。
まずは、対象を小さくします。
この関数だけを対象に、問題点を指摘してください。
このファイルだけを対象に、読みやすくする修正案を出してください。
ローカルLLMでは、1回の依頼で全部やらせるより、作業を小さく分ける方が安定します。
WSL2側のコードを開いているときに接続先が分からなくなる
今回の構成では、ContinueはVS Code拡張として動き、OllamaはWindows側で動いています。
そのため、基本的には以下で接続します。
apiBase: http://localhost:11434
接続できない場合は、以下を確認します。
- OllamaがWindows側で起動しているか
- Continueの
apiBaseが正しいか - セキュリティソフトやファイアウォールでブロックされていないか
- VS CodeやContinueを再起動しても同じか
今回のconfig.yaml
今回の最終的な設定例です。
name: Local Ollama Config
version: 0.0.1
schema: v1
models:
- name: Qwen2.5 Coder 7B
provider: ollama
model: qwen2.5-coder:7b
apiBase: http://localhost:11434
roles:
- chat
- edit
- name: Qwen2.5 Coder 14B
provider: ollama
model: qwen2.5-coder:14b
apiBase: http://localhost:11434
roles:
- chat
- edit
最初は 7B だけでも問題ありません。
安定動作を確認してから、14B や他のモデルを追加するのがよいです。
まとめ
この記事では、ContinueをローカルLLM向けに設定し、VS Code + WSL2 + Ollama の構成でコード相談できる状態にしました。
今回確認したことは以下です。
- Ollamaが起動していることを確認した
- Ollamaのモデル一覧を確認した
- Continue の
config.yamlに Ollama モデルを設定した - VS Code から WSL2 上のプロジェクトを開いた
- ContinueからOllamaのモデルを呼び出した
-
nvidia-smiでGPU使用状況を確認した - 接続できない場合の確認ポイントを整理した
これで、WSL2 上のコードを VS Code で開き、Continue からローカルLLMへ相談できる状態になりました。
次回
ここまでで、Windows 11 + WSL2 + Ollama + Continue を使って、VS Code からローカルLLMへ相談できる状態になりました。
ただ、環境構築を進める中では、手順そのもの以外にもいくつか迷った点がありました。
例えば、以下のような点です。
- AIモデルの保存先をなぜDドライブへ逃がしたのか
-
OLLAMA_MODELSやHF_HOMEは何を意味するのか - NVIDIAドライバはなぜStudioドライバを選んだのか
- RTXをAI用に温存するにはどう考えればよいのか
- WSL2をなぜEドライブへ移したのか
- Continue、Ollama、WSL2 の役割をどう整理すればよいのか
次回は、これらの「構築中に詰まった点」と「判断した理由」を整理します。
手順だけではなく、あとから見返したときに「なぜその設定にしたのか」が分かるように、ローカルAI環境構築の補足メモとしてまとめます。