ContinueはAI CodingのためのIDE拡張をOSSとして提供している.ビジネスとしてはGitHub Pull Requestに対するAI Code Reviewサービスを有償で提供しているようだ.
ContinueのVS拡張機能は,AI Codingのための機能(Chat,Edit,Apply,Autocompleteなど)を一通り備えている.ただし,これらの機能のために使用するLLMは用意されておらず,モデルプロバイダのAPI Key,Ollama等を用いてserveしたローカルLLM,その他API互換性のあるLLMを自前で用意する必要がある.Embeddingのためにデフォルトで使用するTrnasformers.jsのみビルトインされている.
以下では,主要なモデルプロバイダのAPI Keyを使用するケース,OllamaでserveしたローカルLLMを使用するケースのそれぞれについて,設定方法を述べる.
Continue - Customization Overview
Continue - Models
Continue - Model Providers Overview
config.yaml Reference
Using API Keys
モデルプロバイダのAPI Keyを利用する場合,Continueの設定ファイル .continue/config.yaml に以下のようなエントリを追加する.
- name: Display Name of LLM
provider: model-provider
model: model-name
apiKey: {{ MODEL_PROVIDER_API_KEY }}
roles:
- apply
# - autocomplete
- chat
- edit
capabilities:
- image_input
- tool_use
defaultCompletionOptions:
contextLength: 400000
maxTokens: 128000
# promptCaching: true
# temperature: 1.0
# reasoning: true
モデル毎にエントリを追加する代わりに model: AUTODETECT と書くと,プロバイダが提供しているモデルが自動検出される.表示名には name ではなく自動検出されたモデル名が用いられる.ただしモデル毎に設定を調整することができなくなることに注意.
大抵のモデルについて capabilities は自動検出される.したがって指定の必要はない.明示した場合はオーバーライドされる.
OpenAI API
- name: GPT-5.2
provider: openai
model: gpt-5.2
apiKey: {{ OPENAI_API_KEY }}
roles:
- apply
- chat
- edit
defaultCompletionOptions:
contextLength: 400000
maxTokens: 128000
promptCaching: true
Gemini API
- name: Gemini 3 Flash Preview
provider: gemini
model: gemini-3-flash-preview
apiKey: {{ GEMINI_API_KEY }}
roles:
- apply
- chat
- edit
defaultCompletionOptions:
contextLength: 1048576
maxTokens: 65536
promptCaching: true
Anthropic API
- name: Claude Haiku 4.5
provider: anthropic
model: claude-haiku-4-5
apiKey: {{ ANTHROPIC_API_KEY }}
roles:
- apply
- chat
- edit
defaultCompletionOptions:
contextLength: 200000
maxTokens: 64000
promptCaching: true
Ollama + Local LLM
Ollamaを用いてオープンウェイトモデルをserveして利用する.Serverはローカルマシン(localhost)でも,自前のサーバ専用マシンでも,クラウドVMでも何でもいいが,ここではGPUを積んだローカルマシンにてserveする想定で説明する.
Install Ollama
For Linux/macOS:
curl -fsSL https://ollama.com/install.sh | sh
For Windows:
irm https://ollama.com/install.ps1 | iex
Register Ollama
.continue/config.yaml を編集してOllamaを追加する.モデルをAUTODETECTに設定しておけば,Ollamaにpullしたモデルが自動的に認識される.
- name: Ollama
provider: ollama
model: model-name
# For remote Ollama server
# apiBase: http://<api-endpoint>:<port>
roles:
- apply
- autocomplete
- chat
- edit
Qwen3
ollama pull qwen3:latest
- name: Qwen3 8B
provider: ollama
model: qwen3:latest
roles:
- apply
- autocomplete
- chat
- edit
defaultCompletionOptions:
contextLength: 40000
| Name | Size | Context |
|---|---|---|
| qwen3:0.6b | 523MB | 40K |
| qwen3:1.7b | 1.4GB | 40K |
| qwen3:4b | 2.5GB | 256K |
| qwen3:8b (latest) | 5.2GB | 40K |
| qwen3:14b | 9.3GB | 40K |
| qwen3:30b | 19GB | 256K |
| qwen3:32b | 20GB | 40K |
| qwen3:235b | 142GB | 256K |
Qwen3 Embedding
- name: Qwen3 Embedding 8B
provider: ollama
model: qwen3-embedding:latest
roles:
- embed
defaultCompletionOptions:
contextLength: 40000
OpenAI — gpt-oss
ollama pull gpt-oss:latest
- name: gpt-oss:20b
provider: ollama
model: gpt-oss:latest
roles:
- apply
- chat
- edit
defaultCompletionOptions:
contextLength: 128000
| Name | Size | Context |
|---|---|---|
| gpt-oss-20b (latest) | 14GB | 128K |
| gpt-oss-120b | 65GB | 128K |
gpt-oss:120b を動かしたいならVRAM 80GBが必要である.NVIDIA A100 80GBやNVIDIA H100などのデータセンター向けGPUが必要となる.マルチGPU構成で無理やり動かすこともできないわけではないが,基本的にはローカルで動かすなら gpt-oss:20b しか選択肢はない.
デメリット
VS Code拡張機能Remote - SSHとの併用における制限
VS Code拡張機能Remote - SSHは,SSH接続したリモートマシン(VMなど)上でVS Code Serverというサーバを走らせて,VS Code上であたかもローカルマシンであるかのように操作できるようにするというものである.(ストレージやメモリをドカ食いする点を除けば)リモート開発において非常に便利な拡張機能である.
Continueはリモートマシン上のターミナルの操作(コマンドの実行及び標準出力の参照)ができないという制限がある.また,リモートマシン上のディレクトリを参照すべきところ,ローカルマシン上のディレクトリを参照しようとすることもある.したがって現状はローカル環境での開発でしか機能を十全に活用できない.
continuedev/continue#8826 - bug remote ssh VS code
VS Code + Continue相当の機能を備えたオープンソースIDEであるVoid Editorも同様である.プロプライエタリなAI Coding IDEであるCursorではこれらの問題は生じない.
Commit messageの自動生成に非対応
VS CodeサイドバーにあるGitリポジトリのパネル(Source Control)にはcommit messageの自動生成ボタン(✨)があるが,これはVS Codeが提供する機能(GitHub Copilotを使用)であり,Continueの設定は使用されない.
Source Control in VS Code
AI smart actions in Visual Studio Code
Void EditorではChatパネルにて選択中のモデルがcommit messagreの生成に使用される.
オートコンプリート対応モデルが少ない
クローズドモデルプロバイダの提供するAPIの大半はautocomplete(Fill-In-the-Middle)にnativeでは対応していない.そのためFIMに対応した性能の低いオープンモデルを選択するほかない.これはVoid Editorにおいても同様である.
Cursorでは高性能のモデルをautocompleteに使うことができる.
Note: GPU VRAM Size
Desktop
NVIDIA - GeForce RTX 40 Series
NVIDIA - GeForce RTX 50 Series
| GPU | VRAM |
|---|---|
| NVIDIA RTX 5050–5060 | 8GB |
| NVIDIA RTX 5070 | 12GB |
| NVIDIA RTX 5060–5070 Ti | 16GB |
| NVIDIA RTX 4080 (SUPER) | 16GB |
| NVIDIA RTX 5080 | 16GB |
| NVIDIA RTX 4090 | 24GB |
| NVIDIA RTX 5090 | 32GB |
Laptop
NVIDIA - GeForce RTX 50 Series Laptops
| GPU | VRAM |
|---|---|
| NVIDIA RTX 5050–5070 Laptop | 8GB |
| NVIDIA RTX 5070 Ti Laptop | 12GB |
| NVIDIA RTX 5080 Laptop | 16GB |
| NVIDIA RTX 5090 Laptop | 24GB |
Data Center
| GPU | VRAM |
|---|---|
| NVIDIA A100 | 40GB/80GB |
| NVIDIA H100 | 80GB/94GB |
| NVIDIA H200 | 141GB |