この記事では"How to Use"ではなく"What is This"に着目しています。実際にLLMを使う方法(OllamaやLM Studioでの利用方法)は紹介していません。
追記(2026/3/16)
全体的に"ツールコーリングが弱い"と説明していますが、試した環境ではOpenAI互換API形式で呼び出し可能ツールを提供するとツールコーリングに失敗する確率が高くなっていました。渡すツールの数が極端に少ない場合でも失敗していたことと、失敗時の出力は共通してJSON出力が乱れることから、追加学習の影響かと思われます。
今回紹介するモデル
GPT-OSS-Swallow-20B-RL-v0.1
GPT-OSS-Swallow-20B-SFT-v0.1
Qwen3-Swallow-8B-RL-v0.2
Qwen3-Swallow-8B-SFT-v0.2
Qwen3-Swallow-30B-A3B-RL-v0.2
Qwen3-Swallow-30B-A3B-SFT-v0.2
GPT-OSS-Swallow-20B-RL-v0.1
モデル概要
ベースモデル: GPT-OSS-Swallow-20B-SFT-v0.1
コンテキストサイズ: 131k
パラメータ数: 20B
使用VRAM: 15~17GB(Q4_K_M)
公式対応言語: 英語、日本語
想定用途: 日本語性能重視な場面
感想
- 日本語での会話は安定していたが、ところどころ不自然な日本語が混じっていた
- ツールコーリングは全くと言っていいほどしなかった
GPT-OSS-Swallow-20B-SFT-v0.1
モデル概要
ベースモデル: GPT-OSS-Swallow-20B-SFT-v0.1
コンテキストサイズ: 131k
パラメータ数: 20B
使用VRAM: 15~17GB(Q4_K_M)
公式対応言語: 英語、日本語
想定用途: 日本語性能重視な場面
感想
- GPT-OSS-Swallow-20B-RL-v0.1と比べると自然な日本語だった
- こちらのモデルはツールコーリングを試みる様子が見れたが、いずれも失敗していた
Qwen3-Swallow-8B-RL-v0.2
モデル概要
ベースモデル: Qwen3-Swallow-8B-SFT-v0.2
コンテキストサイズ: 41k
パラメータ数: 8B
使用VRAM: 5~6GB(Q4_K_M)
公式対応言語: 英語、日本語
想定用途: 日本語性能重視な場面
感想
- 日本語での会話は快適だった
- ツールコーリングは失敗していた
Qwen3-Swallow-8B-SFT-v0.2
モデル概要
ベースモデル: Qwen3-Swallow-8B-CPT-v0.2
コンテキストサイズ: 41k
パラメータ数: 8B
使用VRAM: 5~6GB(Q4_K_M)
公式対応言語: 英語、日本語
想定用途: 日本語性能重視な場面
感想
- 日本語での会話に違和感はなかった
- thinkingプロセスを見る限り、ツールの使い方自体は合っているのだが、呼び出しができていない状況だった
Qwen3-Swallow-30B-A3B-RL-v0.2
モデル概要
ベースモデル: Qwen3-Swallow-30B-A3B-SFT-v0.2
コンテキストサイズ: 41k
パラメータ数: 8B
使用VRAM: 18~20GB(Q4_K_M)
公式対応言語: 英語、日本語
想定用途: 日本語性能重視な場面
感想
- 30BでありながらA3Bのおかげで非常に高速な生成速度を維持していた
- 日本語での会話で違和感を感じることはなかった
- ツールコーリングはできない
Qwen3-Swallow-30B-A3B-SFT-v0.2
モデル概要
ベースモデル: Qwen3-Swallow-30B-A3B-CPT-v0.2
コンテキストサイズ: 41k
パラメータ数: 8B
使用VRAM: 18~20GB(Q4_K_M)
公式対応言語: 英語、日本語
想定用途: 日本語性能重視な場面
感想
- RL版と同様に生成速度は高速
- 日本語も十分
- ツールは使えない
まとめ
Swallow LLMはとにかく透明性が高く、日本人ユーザーでも使いやすいモデルとなっていた。
基本的にモデルの賢さはベースモデルと同じくらいだが、日本語への理解度が高いためインストラクションフォロイングができていた。日本語での日常会話なら実用レベルでできる。
しかし、ツールコーリングを伴う命令を与えると出力の質が一気に落ちる。単純な文字の出力はできても、ツールが使えないとなると使用用途が限られてしまうので残念。使い方がわかっていないパターンもあったし、呼び出しができていないパターンもあったし、そもそも使おうとしないパターンもあった。
日本語に特化した推論が可能な点は優秀だが、実用的に使えるかと言われると難しい。
評価モデル一覧