【第2回】ローカルAI開発環境構築メモ：Continue から Ollama のローカルLLMを呼び出す

Posted at 2026-05-17

はじめに

前回は、Windows 11 + WSL2 + Ollama + Continue を使って、ローカルAI開発環境を構築しました。

今回はその続きとして、VS Code の Continue 拡張機能から、Windows 側で起動している Ollama のローカルLLMを呼び出せるように設定します。

この記事では、以下を扱います。

Continue の設定ファイル config.yaml の基本
Ollama のモデルを Continue から使う設定
7B / 14B クラスのモデルをどう考えるか
WSL2 上のプロジェクトを VS Code で開いた状態で Continue を使う考え方
接続確認とよくあるハマりどころ

この記事の目的は、実際に構築したローカルAI開発環境を後から見返せるように整理することです。
そのため、架空のアプリ開発や業務システム固有の内容は扱いません。

前提

この記事では、以下の環境が構築済みであることを前提にします。

項目	内容
OS	Windows 11
Linux環境	WSL2 + Ubuntu
GPU	NVIDIA GeForce RTX 5060 Ti 16GB
LLM実行基盤	Ollama
エディタ	VS Code
VS Code拡張	WSL / Continue

前回の記事で、以下の状態まで構築済みとします。

NVIDIA GPU が nvidia-smi で認識されている
Ollama が Windows 側で起動している
Ollama のモデル保存先を C ドライブ以外に変更している
WSL2 の Ubuntu 環境がある
VS Code から WSL2 上のプロジェクトを開ける
Continue 拡張機能がインストールされている

今回の構成

今回の構成は以下です。

Windows 11
├─ Ollama
│   └─ ローカルLLMモデル
├─ VS Code
│   ├─ WSL 拡張機能
│   └─ Continue 拡張機能
└─ WSL2 Ubuntu
    └─ 開発プロジェクト

コードは WSL2 上に置きます。
VS Code は WSL 拡張機能を使って、WSL2 上のプロジェクトを開きます。

Continue は VS Code の拡張機能として動作し、Windows 側で起動している Ollama に接続します。

VS Code + Continue
        ↓
http://localhost:11434
        ↓
Ollama on Windows
        ↓
RTX 5060 Ti 16GB

1. Ollamaが起動しているか確認する

まず、Windows 側で Ollama が起動しているか確認します。

PowerShellで以下を実行します。

curl http://localhost:11434

以下のように表示されればOKです。

Ollama is running

応答がない場合は、Ollama が起動していない可能性があります。
Ollama を起動し直してから、再度確認します。

2. 利用可能なモデルを確認する

PowerShellで以下を実行します。

ollama list

例として、以下のように表示されます。

NAME                    ID              SIZE      MODIFIED
qwen2.5-coder:7b         xxxxxxxx        x GB      x days ago

この記事では、例として qwen2.5-coder:7b を使います。

まだモデルを取得していない場合は、以下で取得します。

ollama pull qwen2.5-coder:7b

モデル取得後、再度確認します。

ollama list

Continue 側の model には、ここで表示されたモデル名をそのまま指定します。

3. Continueの設定ファイルを開く

Continue の設定は、VS Code 上から開けます。

VS Code を起動する
左側の Continue アイコンを開く
歯車アイコン、または設定メニューを開く
config.yaml を開く

Continue のバージョンによって画面表示が異なる場合があります。
その場合は、コマンドパレットから Continue の設定を開きます。

Ctrl + Shift + P

コマンドパレットで Continue と入力し、設定ファイルを開きます。

4. 最小構成のconfig.yaml

まずは、Ollama のモデルを1つだけ登録する最小構成にします。

name: Local Ollama Config
version: 0.0.1
schema: v1

models:
  - name: Qwen2.5 Coder 7B
    provider: ollama
    model: qwen2.5-coder:7b
    apiBase: http://localhost:11434
    roles:
      - chat
      - edit

それぞれの意味は以下です。

項目	意味
`name`	Continue上で表示するモデル名
`provider`	利用するLLMプロバイダ
`model`	Ollama側のモデル名
`apiBase`	Ollamaの接続先
`roles`	Continue内での役割

重要なのは model の値です。
ここは ollama list で表示される名前と一致させます。

例えば、Ollama側で以下のように表示される場合。

qwen2.5-coder:7b

Continue側も以下にします。

model: qwen2.5-coder:7b

5. rolesの考え方

roles には、Continue内でそのモデルをどの用途に使うかを指定します。

今回の最小構成では、以下を設定しました。

roles:
  - chat
  - edit

それぞれの使い方は以下です。

role	用途
`chat`	コード相談、説明、質問
`edit`	選択したコードの修正

最初は、チャット用と編集用を同じモデルで問題ありません。

複数モデルを使い分けると便利な場合もありますが、最初から複雑にすると、問題が起きたときに原因を切り分けにくくなります。
まずは1つのモデルで、ContinueからOllamaへ接続できることを確認します。

6. 14Bクラスのモデルを使う場合

RTX 5060 Ti 16GB であれば、7Bクラスより大きいモデルも選択肢に入ります。

例えば、以下のようなモデルを試すことができます。

ollama pull qwen2.5-coder:14b

取得後、確認します。

ollama list

Continue側では、以下のように設定します。

name: Local Ollama Config
version: 0.0.1
schema: v1

models:
  - name: Qwen2.5 Coder 14B
    provider: ollama
    model: qwen2.5-coder:14b
    apiBase: http://localhost:11434
    roles:
      - chat
      - edit

ただし、モデルが大きくなるほど以下の影響があります。

応答開始まで時間がかかる
VRAM使用量が増える
長い出力で速度が落ちる
他のアプリと同時利用したときに重くなる

そのため、まずは 7B クラスで動作確認し、余裕があれば 14B クラスを試す流れが安全です。

7. 複数モデルを登録する場合

7B と 14B を両方登録して、用途に応じて切り替えることもできます。

name: Local Ollama Config
version: 0.0.1
schema: v1

models:
  - name: Qwen2.5 Coder 7B
    provider: ollama
    model: qwen2.5-coder:7b
    apiBase: http://localhost:11434
    roles:
      - chat
      - edit

  - name: Qwen2.5 Coder 14B
    provider: ollama
    model: qwen2.5-coder:14b
    apiBase: http://localhost:11434
    roles:
      - chat
      - edit

使い分けの目安は以下です。

用途	モデル
軽い質問	7B
短いコード相談	7B
少し複雑な相談	14B
長めの説明や設計相談	14B

ただし、必ずしも大きいモデルが常に便利とは限りません。
普段使いでは、応答が速い 7B の方が扱いやすい場合もあります。

8. WSL2上のプロジェクトをVS Codeで開く

Continueを使う前に、VS Codeで WSL2 上のプロジェクトを開いておきます。

Ubuntu側で作業ディレクトリに移動します。

cd ~/projects

任意のプロジェクトを開きます。

code .

VS Codeの左下に以下のような表示が出ていれば、WSL2上の環境を開いています。

WSL: Ubuntu-24.04

今回の構成では、コードは WSL2 上にありますが、Ollama は Windows 側で動いています。

コード: WSL2
エディタ: VS Code
AI実行: Windows側のOllama
GPU: Windows側のNVIDIAドライバ経由

この関係を把握しておくと、トラブルシュートしやすくなります。

9. ContinueからOllamaを呼び出す

Continueの設定後、VS Code上でContinueを開きます。

モデル選択欄で、先ほど設定したモデルを選択します。

例です。

Qwen2.5 Coder 7B

まずは、シンプルな質問で動作確認します。

PythonでFizzBuzzを書くコードを作成してください。

回答が返ってくれば、Continue から Ollama を呼び出せています。

次に、開いているコードや選択したコードに対して、以下のような依頼を試します。

このコードの処理内容を説明してください。

この関数の問題点を指摘してください。

この処理を読みやすくする修正案を出してください。

ここでは、あくまで接続と基本動作の確認に留めます。
実際の開発でどう使うかは、検証した内容が増えた段階で別途整理します。

10. GPU使用状況を確認する

ContinueからOllamaを呼び出している間に、PowerShellで以下を実行します。

nvidia-smi

Ollamaのプロセスが表示され、VRAM使用量が増えていればGPUが使われています。

動作中に継続して確認する場合は、以下を使います。

nvidia-smi -l 1

1秒ごとにGPU使用状況が更新されます。

終了するときは Ctrl + C を押します。

よくあるエラーと対処

ContinueからOllamaに接続できない

Ollamaが起動しているか確認します。

curl http://localhost:11434

Ollama is running が返らない場合は、Ollamaを起動し直します。

また、Continue側の apiBase が以下になっているか確認します。

apiBase: http://localhost:11434

モデルが見つからない

Continueの model と、Ollama側のモデル名が一致していない可能性があります。

PowerShellで以下を確認します。

ollama list

表示された名前を、そのまま config.yaml に設定します。

model: qwen2.5-coder:7b

応答が遅い

モデルが大きすぎる可能性があります。

まずは 7B クラスに戻して確認します。

model: qwen2.5-coder:7b

また、他のGPU使用アプリを閉じて確認します。

出力が途中で止まる

長い依頼を一度に出している可能性があります。

例えば、以下のような依頼は重くなりやすいです。

このプロジェクト全体を見て、設計を改善し、コードを修正し、テストも追加してください。

まずは、対象を小さくします。

この関数だけを対象に、問題点を指摘してください。

このファイルだけを対象に、読みやすくする修正案を出してください。

ローカルLLMでは、1回の依頼で全部やらせるより、作業を小さく分ける方が安定します。

WSL2側のコードを開いているときに接続先が分からなくなる

今回の構成では、ContinueはVS Code拡張として動き、OllamaはWindows側で動いています。
そのため、基本的には以下で接続します。

apiBase: http://localhost:11434

接続できない場合は、以下を確認します。

OllamaがWindows側で起動しているか
Continueの apiBase が正しいか
セキュリティソフトやファイアウォールでブロックされていないか
VS CodeやContinueを再起動しても同じか

今回のconfig.yaml

今回の最終的な設定例です。

name: Local Ollama Config
version: 0.0.1
schema: v1

models:
  - name: Qwen2.5 Coder 7B
    provider: ollama
    model: qwen2.5-coder:7b
    apiBase: http://localhost:11434
    roles:
      - chat
      - edit

  - name: Qwen2.5 Coder 14B
    provider: ollama
    model: qwen2.5-coder:14b
    apiBase: http://localhost:11434
    roles:
      - chat
      - edit

最初は 7B だけでも問題ありません。

安定動作を確認してから、14B や他のモデルを追加するのがよいです。

まとめ

この記事では、ContinueをローカルLLM向けに設定し、VS Code + WSL2 + Ollama の構成でコード相談できる状態にしました。

今回確認したことは以下です。

Ollamaが起動していることを確認した
Ollamaのモデル一覧を確認した
Continue の config.yaml に Ollama モデルを設定した
VS Code から WSL2 上のプロジェクトを開いた
ContinueからOllamaのモデルを呼び出した
nvidia-smi でGPU使用状況を確認した
接続できない場合の確認ポイントを整理した

これで、WSL2 上のコードを VS Code で開き、Continue からローカルLLMへ相談できる状態になりました。

次回

ここまでで、Windows 11 + WSL2 + Ollama + Continue を使って、VS Code からローカルLLMへ相談できる状態になりました。

ただ、環境構築を進める中では、手順そのもの以外にもいくつか迷った点がありました。

例えば、以下のような点です。

AIモデルの保存先をなぜDドライブへ逃がしたのか
OLLAMA_MODELS や HF_HOME は何を意味するのか
NVIDIAドライバはなぜStudioドライバを選んだのか
RTXをAI用に温存するにはどう考えればよいのか
WSL2をなぜEドライブへ移したのか
Continue、Ollama、WSL2 の役割をどう整理すればよいのか

次回は、これらの「構築中に詰まった点」と「判断した理由」を整理します。

手順だけではなく、あとから見返したときに「なぜその設定にしたのか」が分かるように、ローカルAI環境構築の補足メモとしてまとめます。

You get articles that match your needs
You can efficiently read back useful information
You can use dark theme

What you can do with signing up