1
2

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?

【第2回】ローカルAI開発環境構築メモ:Continue から Ollama のローカルLLMを呼び出す

1
Posted at

はじめに

前回は、Windows 11 + WSL2 + Ollama + Continue を使って、ローカルAI開発環境を構築しました。

今回はその続きとして、VS Code の Continue 拡張機能から、Windows 側で起動している Ollama のローカルLLMを呼び出せるように設定します。

この記事では、以下を扱います。

  • Continue の設定ファイル config.yaml の基本
  • Ollama のモデルを Continue から使う設定
  • 7B / 14B クラスのモデルをどう考えるか
  • WSL2 上のプロジェクトを VS Code で開いた状態で Continue を使う考え方
  • 接続確認とよくあるハマりどころ

この記事の目的は、実際に構築したローカルAI開発環境を後から見返せるように整理することです。
そのため、架空のアプリ開発や業務システム固有の内容は扱いません。

前提

この記事では、以下の環境が構築済みであることを前提にします。

項目 内容
OS Windows 11
Linux環境 WSL2 + Ubuntu
GPU NVIDIA GeForce RTX 5060 Ti 16GB
LLM実行基盤 Ollama
エディタ VS Code
VS Code拡張 WSL / Continue

前回の記事で、以下の状態まで構築済みとします。

  • NVIDIA GPU が nvidia-smi で認識されている
  • Ollama が Windows 側で起動している
  • Ollama のモデル保存先を C ドライブ以外に変更している
  • WSL2 の Ubuntu 環境がある
  • VS Code から WSL2 上のプロジェクトを開ける
  • Continue 拡張機能がインストールされている

今回の構成

今回の構成は以下です。

Windows 11
├─ Ollama
│   └─ ローカルLLMモデル
├─ VS Code
│   ├─ WSL 拡張機能
│   └─ Continue 拡張機能
└─ WSL2 Ubuntu
    └─ 開発プロジェクト

コードは WSL2 上に置きます。
VS Code は WSL 拡張機能を使って、WSL2 上のプロジェクトを開きます。

Continue は VS Code の拡張機能として動作し、Windows 側で起動している Ollama に接続します。

VS Code + Continue
        ↓
http://localhost:11434
        ↓
Ollama on Windows
        ↓
RTX 5060 Ti 16GB

1. Ollamaが起動しているか確認する

まず、Windows 側で Ollama が起動しているか確認します。

PowerShellで以下を実行します。

curl http://localhost:11434

以下のように表示されればOKです。

Ollama is running

応答がない場合は、Ollama が起動していない可能性があります。
Ollama を起動し直してから、再度確認します。

2. 利用可能なモデルを確認する

PowerShellで以下を実行します。

ollama list

例として、以下のように表示されます。

NAME                    ID              SIZE      MODIFIED
qwen2.5-coder:7b         xxxxxxxx        x GB      x days ago

この記事では、例として qwen2.5-coder:7b を使います。

まだモデルを取得していない場合は、以下で取得します。

ollama pull qwen2.5-coder:7b

モデル取得後、再度確認します。

ollama list

Continue 側の model には、ここで表示されたモデル名をそのまま指定します。

3. Continueの設定ファイルを開く

Continue の設定は、VS Code 上から開けます。

  1. VS Code を起動する
  2. 左側の Continue アイコンを開く
  3. 歯車アイコン、または設定メニューを開く
  4. config.yaml を開く

Continue のバージョンによって画面表示が異なる場合があります。
その場合は、コマンドパレットから Continue の設定を開きます。

Ctrl + Shift + P

コマンドパレットで Continue と入力し、設定ファイルを開きます。

4. 最小構成のconfig.yaml

まずは、Ollama のモデルを1つだけ登録する最小構成にします。

name: Local Ollama Config
version: 0.0.1
schema: v1

models:
  - name: Qwen2.5 Coder 7B
    provider: ollama
    model: qwen2.5-coder:7b
    apiBase: http://localhost:11434
    roles:
      - chat
      - edit

それぞれの意味は以下です。

項目 意味
name Continue上で表示するモデル名
provider 利用するLLMプロバイダ
model Ollama側のモデル名
apiBase Ollamaの接続先
roles Continue内での役割

重要なのは model の値です。
ここは ollama list で表示される名前と一致させます。

例えば、Ollama側で以下のように表示される場合。

qwen2.5-coder:7b

Continue側も以下にします。

model: qwen2.5-coder:7b

5. rolesの考え方

roles には、Continue内でそのモデルをどの用途に使うかを指定します。

今回の最小構成では、以下を設定しました。

roles:
  - chat
  - edit

それぞれの使い方は以下です。

role 用途
chat コード相談、説明、質問
edit 選択したコードの修正

最初は、チャット用と編集用を同じモデルで問題ありません。

複数モデルを使い分けると便利な場合もありますが、最初から複雑にすると、問題が起きたときに原因を切り分けにくくなります。
まずは1つのモデルで、ContinueからOllamaへ接続できることを確認します。

6. 14Bクラスのモデルを使う場合

RTX 5060 Ti 16GB であれば、7Bクラスより大きいモデルも選択肢に入ります。

例えば、以下のようなモデルを試すことができます。

ollama pull qwen2.5-coder:14b

取得後、確認します。

ollama list

Continue側では、以下のように設定します。

name: Local Ollama Config
version: 0.0.1
schema: v1

models:
  - name: Qwen2.5 Coder 14B
    provider: ollama
    model: qwen2.5-coder:14b
    apiBase: http://localhost:11434
    roles:
      - chat
      - edit

ただし、モデルが大きくなるほど以下の影響があります。

  • 応答開始まで時間がかかる
  • VRAM使用量が増える
  • 長い出力で速度が落ちる
  • 他のアプリと同時利用したときに重くなる

そのため、まずは 7B クラスで動作確認し、余裕があれば 14B クラスを試す流れが安全です。

7. 複数モデルを登録する場合

7B と 14B を両方登録して、用途に応じて切り替えることもできます。

name: Local Ollama Config
version: 0.0.1
schema: v1

models:
  - name: Qwen2.5 Coder 7B
    provider: ollama
    model: qwen2.5-coder:7b
    apiBase: http://localhost:11434
    roles:
      - chat
      - edit

  - name: Qwen2.5 Coder 14B
    provider: ollama
    model: qwen2.5-coder:14b
    apiBase: http://localhost:11434
    roles:
      - chat
      - edit

使い分けの目安は以下です。

用途 モデル
軽い質問 7B
短いコード相談 7B
少し複雑な相談 14B
長めの説明や設計相談 14B

ただし、必ずしも大きいモデルが常に便利とは限りません。
普段使いでは、応答が速い 7B の方が扱いやすい場合もあります。

8. WSL2上のプロジェクトをVS Codeで開く

Continueを使う前に、VS Codeで WSL2 上のプロジェクトを開いておきます。

Ubuntu側で作業ディレクトリに移動します。

cd ~/projects

任意のプロジェクトを開きます。

code .

VS Codeの左下に以下のような表示が出ていれば、WSL2上の環境を開いています。

WSL: Ubuntu-24.04

今回の構成では、コードは WSL2 上にありますが、Ollama は Windows 側で動いています。

コード: WSL2
エディタ: VS Code
AI実行: Windows側のOllama
GPU: Windows側のNVIDIAドライバ経由

この関係を把握しておくと、トラブルシュートしやすくなります。

9. ContinueからOllamaを呼び出す

Continueの設定後、VS Code上でContinueを開きます。

モデル選択欄で、先ほど設定したモデルを選択します。

例です。

Qwen2.5 Coder 7B

まずは、シンプルな質問で動作確認します。

PythonでFizzBuzzを書くコードを作成してください。

回答が返ってくれば、Continue から Ollama を呼び出せています。

次に、開いているコードや選択したコードに対して、以下のような依頼を試します。

このコードの処理内容を説明してください。
この関数の問題点を指摘してください。
この処理を読みやすくする修正案を出してください。

ここでは、あくまで接続と基本動作の確認に留めます。
実際の開発でどう使うかは、検証した内容が増えた段階で別途整理します。

10. GPU使用状況を確認する

ContinueからOllamaを呼び出している間に、PowerShellで以下を実行します。

nvidia-smi

Ollamaのプロセスが表示され、VRAM使用量が増えていればGPUが使われています。

動作中に継続して確認する場合は、以下を使います。

nvidia-smi -l 1

1秒ごとにGPU使用状況が更新されます。

終了するときは Ctrl + C を押します。

よくあるエラーと対処

ContinueからOllamaに接続できない

Ollamaが起動しているか確認します。

curl http://localhost:11434

Ollama is running が返らない場合は、Ollamaを起動し直します。

また、Continue側の apiBase が以下になっているか確認します。

apiBase: http://localhost:11434

モデルが見つからない

Continueの model と、Ollama側のモデル名が一致していない可能性があります。

PowerShellで以下を確認します。

ollama list

表示された名前を、そのまま config.yaml に設定します。

model: qwen2.5-coder:7b

応答が遅い

モデルが大きすぎる可能性があります。

まずは 7B クラスに戻して確認します。

model: qwen2.5-coder:7b

また、他のGPU使用アプリを閉じて確認します。

出力が途中で止まる

長い依頼を一度に出している可能性があります。

例えば、以下のような依頼は重くなりやすいです。

このプロジェクト全体を見て、設計を改善し、コードを修正し、テストも追加してください。

まずは、対象を小さくします。

この関数だけを対象に、問題点を指摘してください。
このファイルだけを対象に、読みやすくする修正案を出してください。

ローカルLLMでは、1回の依頼で全部やらせるより、作業を小さく分ける方が安定します。

WSL2側のコードを開いているときに接続先が分からなくなる

今回の構成では、ContinueはVS Code拡張として動き、OllamaはWindows側で動いています。
そのため、基本的には以下で接続します。

apiBase: http://localhost:11434

接続できない場合は、以下を確認します。

  • OllamaがWindows側で起動しているか
  • Continueの apiBase が正しいか
  • セキュリティソフトやファイアウォールでブロックされていないか
  • VS CodeやContinueを再起動しても同じか

今回のconfig.yaml

今回の最終的な設定例です。

name: Local Ollama Config
version: 0.0.1
schema: v1

models:
  - name: Qwen2.5 Coder 7B
    provider: ollama
    model: qwen2.5-coder:7b
    apiBase: http://localhost:11434
    roles:
      - chat
      - edit

  - name: Qwen2.5 Coder 14B
    provider: ollama
    model: qwen2.5-coder:14b
    apiBase: http://localhost:11434
    roles:
      - chat
      - edit

最初は 7B だけでも問題ありません。

安定動作を確認してから、14B や他のモデルを追加するのがよいです。

まとめ

この記事では、ContinueをローカルLLM向けに設定し、VS Code + WSL2 + Ollama の構成でコード相談できる状態にしました。

今回確認したことは以下です。

  • Ollamaが起動していることを確認した
  • Ollamaのモデル一覧を確認した
  • Continue の config.yaml に Ollama モデルを設定した
  • VS Code から WSL2 上のプロジェクトを開いた
  • ContinueからOllamaのモデルを呼び出した
  • nvidia-smi でGPU使用状況を確認した
  • 接続できない場合の確認ポイントを整理した

これで、WSL2 上のコードを VS Code で開き、Continue からローカルLLMへ相談できる状態になりました。

次回

ここまでで、Windows 11 + WSL2 + Ollama + Continue を使って、VS Code からローカルLLMへ相談できる状態になりました。

ただ、環境構築を進める中では、手順そのもの以外にもいくつか迷った点がありました。

例えば、以下のような点です。

  • AIモデルの保存先をなぜDドライブへ逃がしたのか
  • OLLAMA_MODELSHF_HOME は何を意味するのか
  • NVIDIAドライバはなぜStudioドライバを選んだのか
  • RTXをAI用に温存するにはどう考えればよいのか
  • WSL2をなぜEドライブへ移したのか
  • Continue、Ollama、WSL2 の役割をどう整理すればよいのか

次回は、これらの「構築中に詰まった点」と「判断した理由」を整理します。

手順だけではなく、あとから見返したときに「なぜその設定にしたのか」が分かるように、ローカルAI環境構築の補足メモとしてまとめます。

1
2
0

Register as a new user and use Qiita more conveniently

  1. You get articles that match your needs
  2. You can efficiently read back useful information
  3. You can use dark theme
What you can do with signing up
1
2

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?