はじめに
はじめに
VS Codeの拡張機能「Cline」はLLMモデルを自由に変更して利用することができます。
業務で利用するのであれば、Claude、ChatGPT、Geminiといった、使い勝手の良い主要モデルを選択すれば間違いありません。
一方で、個人開発などの場面では、コストをかけずに高性能なモデルを試してみたいという需要もあるはずです。 そこで今回は、無料で利用可能な4つの最新コーディングモデル(Devstral, KAT-Coder-Pro, grok-code-fast-1, qwen3-coder)に注目しました。これらは前述の「3強」に比べると知名度が低く、実態が掴みづらい側面があるため、調査結果と実際に2週間ほど使用してみた所感を記事に残します。
試用した所感とまとめ
qwen3-coder:freeはOpenRoute経由です。その他は Cline提供のエンドポイントから利用しています。
JavaScriptでのアプリ開発を試してみたところ、KAT-Coder-Proの使い勝手が頭一つ抜けている印象です。ここで言う「使い勝手が良い」とは、他のモデルに比べて迷走し(明後日の方向に進み)にくいことを指します。 次点はgrok-code-fast-1です。机上のスペック比較ではDevstralが優位に見えますが、実用上は、慣れているせいかgrokの方が使いやすく感じました。grokは自身の限界を理解しているのか、不可能なタスクに対しては積極的にPythonスクリプトなどを生成し、代替手段で解決を図るシーンに遭遇します。
もっとも、いずれのモデルもClaude等の強力なモデルを知っていると、物足りなさを感じるのは否めません。「完璧な代行者」ではなく、あくまで「ツール」として割り切って使うのが正解でしょう。それでも、自力ですべて書くよりは格段に効率的です。
使いこなしのコツとしては、AI任せで無理だと判断した瞬間に、人間が適当にコードを修正して方向性を指し示すといった「荒業」を織り交ぜるのが現実的です。
最後に注意事項ですが、KAT-Coder-Proなどは開発元の国籍(中国)や、現在は普及キャンペーンとして無料で提供されている可能性もありそうです。 また、いずれも無料で利用する場合は、入力したデータやソースコードをプラットフォーム側に提供していることになります。無料モデルの業務利用は絶対に避けるべきです。万が一、機密情報が学習データとして取り込まれてしまえば、取り返しのつかない事態になりかねません。
各モデルの詳細
各モデルの特徴
この節は perplexityで調べてドラフトを作りました。
Devstral (Mistral AI)
-
思想・特徴:
フランスのMistral AIが開発した、オープンウェイト(モデルの重みが公開されている)のSOTA(最高水準)コードエージェントです。コーディングとツール実行に最適化されており、実務的なベンチマークであるSWE-benchで高いスコアを記録しています。 -
強みのある言語・用途:
特定の言語に特化するよりも、ソフトウェアエンジニアリング全般のタスク、特にエージェントとしての活用が強調されています。256Kの広大なコンテキスト長を活かし、コードベース全体の読解やリファクタリングを得意とします。
KAT-Coder-Pro (Kwaipilot/KwaiKAT)
-
思想・特徴:
中国系企業Kwai関連のチームが開発した、実務的なソフトウェア開発シナリオを想定したコーディング特化モデルです。エージェントとしてのツール利用を前提としており、マルチターン対話、指示追従、汎化能力を高めるために多段階の強化学習トレーニングが施されています。パラメータ数などの詳細は非公開ですが、シリーズ最高性能を謳っています。 -
強みのある言語・用途:
バグ修正、機能追加、ツールチェーンとの連携といった、実務的なソフトウェアエンジニアリングタスクが想定されています。公開情報では特定の言語への言及よりも、コーディングエージェントとしてのツール利用能力や対話能力の高さが強調されています。
grok-code-fast-1 (xAI)
-
思想・特徴:
米国のxAI Corp.が開発した、高速・低コストを指向したモデルです。新しい軽量Transformerアーキテクチャにより、最大160トークン/秒という高速なコード生成を実現。「とにかく速く、安くコードを書く」ことに最適化されています。 -
強みのある言語・用途:
特定の言語よりも、スループットが求められるコード生成APIとしての位置づけが強いモデルです。リアルタイム性が重要なインタラクティブな開発ツールや、細かなタスクを高速に反復するような用途に向いています。
Qwen Coder (Alibaba/Qwen チーム)
-
思想・特徴:
中国アリババが開発した、汎用性とエージェント能力を両立させるためのモデルファミリーです。軽量なDenseモデルから、数百Bパラメータを持つ巨大なMoE(専門家混合)モデルまで、幅広いラインナップを誇ります。約7.5Tトークン(うち70%がコード)という膨大なデータで学習されており、多数のプログラミング言語に対応します。 -
強みのある言語・用途:
Python, JavaScript, Java, C++, Go, Rustなど主流言語に幅広く最適化されています。大規模なコードベースの解析、リポジトリを横断した推論、ブラウザ操作の自動化など、自律的なエージェントとしてのワークフロー構築に強みを発揮します。
比較表
公開情報に基づき、主にエージェント用途に関連するスペックを整理します。
| 項目 | Devstral / Devstral 2 (Mistral) | KAT-Coder-Pro V1 | grok-code-fast-1 (xAI) | Qwen Coder(Qwen3 Coder 系) |
|---|---|---|---|---|
| 国・企業 | フランス・Mistral AI | 中国系・Kwaipilot / KwaiKAT | 米国・xAI Corp. | 中国・Alibaba/Qwen |
| コンテキスト長 | 最大256K tokens | 最大256K tokens | 256K tokens | 262K tokens |
| ライセンス/公開性 | オープンウェイト(修正MIT系) | クローズド商用 | クローズド商用API | 一部OSS、一部クローズド商用 |
| 公式サイト/情報元 | Mistral AI | OpenRouter | xAI | Qwen3Coder |
おわりに
机上の調査では、いずれのモデルも1年前のフラグシップモデルを超えていると考えられるので、これらが使えないわけではないと思います。
また、今の評価も半年後には違うことになるのでしょう。
それにしても、雨後の筍のごとく本当にたくさんのモデルがありますね。

