本記事の結論
- LLMの思考言語は変えられる
- デフォルトよりも中国語、日本語にするとトークン数が少なくなる場合がある
はじめに
ローカルLLMの出力を高速化したい、という皆様に。
PCスペックやモデルサイズに依存したスループット(秒間トークン数)が変わらなくても、無駄に出力されている LLMの思考過程のトークンを減らせば 、出力そのままで 本文出力開始 および 出力完了までの時間が早くなる のでは、という検証内容です。
言語とトークン数の関係
LLMのトークンは言語差が結構あります。
英語
大体のLLMのベース言語。
何も指定しなければ大抵思考言語は英語になる。(中国製のQwenでも)
トークナイザーは英語をベースに効率化されている。
日本語
いろんな文字があるのでトークナイザーの効率は良くない。
本記事での入出力言語。
中国語
言語的に漢字1文字に意味が圧縮されているため、最もトークナイザーの効率が良いとされている。
Qwen系の中国製モデルなら中国語での学習が多いと期待。
検証前時点での本命言語。
LLMの思考言語を変える
正攻法が見つからなかったのでむりやり変えています。
システムプロンプトでの指示では変わりませんでした。
思考開始合図となる <think>タグ 自体がトークン化されており、次に続くトークンが英語になる確率が高く学習されていると思われます。
1. プロンプトテンプレートを修正
jinja2形式のプロンプトテンプレートに思考タグ<think>をつける指示があるので、そこに 「少し考えてみましょう。」「让我们想一想」といった言語ごとの思考開始合図をつけてやります。
2. 思考過程と本文を分離
本来は <think></think> のタグ内を思考過程、その後を本文と処理されています。
タグに余計な文字を追加したせいか、なぜか<think></think>タグが出力されなくなってしまいました。
パターン的に思考過程と本文の間に改行コードが3個(\n\n\n)出るので、それを区切り文字として扱えそうです。
検証
テスト環境
| 項目 | 環境 |
|---|---|
| 機種 | GIGABYTE AI TOP ATOM (DGX Spark互換) |
| OS | Ubuntu 24.04 |
| LLMエンジン | LM Studio 0.4.12 |
| トークン数評価モデル | Qwen/Qwen3.6-35B-A3B |
LLMパラメータ
| 項目 | 設定 | 備考 |
|---|---|---|
| 繰り返しペナルティ | 1.1 | デフォルトの1.0だと繰り返しが発生しやすい |
| temperature | 0.6 | デフォルトのまま |
テスト内容
問題文は付録を参照。
出力が長文になる知識問題、出力を少なく思考が必要な命題論理、論理クイズ、数学問題など13問を5回ずつ試行。
検証用より上位のモデル Qwen3.5-122B-A10B で回答を評価。(思考言語はデフォルト)
- 意味的評価: 問題に対して回答が合っているかどうか
- 言語的評価: 入力の日本語に対して回答も日本語になっているか。冗長表現になっていないか
実験結果
詳細は付録を参照。
| 項目 | デフォルト(英語) | 中国語 | 日本語 |
|---|---|---|---|
| 意味的正解率 | 100% (65/65) | 100% (65/65) | 100% (65/65) |
| 言語的正解率 | 100% (65/65) | 92% (60/65) | 97% (63/65) |
| 平均トークン数 | 2677 | 1316 | 1038 |
| トークン数デフォルト比 | 100% | 49% | 39% |
当初の「やっぱり中国製モデルならトークン数の少ない中国語がいいはずだよね」という予想が違う意味で裏切られました。
デフォルトの英語に比べれば中国語は「出力が中国語になることがある」という問題はあるものの トークン数は半減 と優秀な結果でした。
ただそれ以上に 日本語のトークン数6割減少 が大きく、言語間違いが少ない(Q11で回答形式を無視)という程度で、「 何考えてるかわかったほうが楽しいよね 」くらいの理由で評価した日本語思考が予想外に優秀だった、という結果になりました。
思考過程では、
- 入力言語の翻訳
- 推論
- 出力言語用の翻訳ドラフト作成
- 確認
といったプロセスが見て取れます。
翻訳の手間がいらない分、 入出力言語に合わせた思考言語にするのが良い ということかもしれません。
中国語重視で学習されたQwenモデルであれば、「日本語を聞いて英語で考えて日本語を返す中国人」みたいなものだと考えるとたしかに効率は悪そうです。
ちなみに TTFT(最初のトークン出力までの時間)に影響があるのでは? という懸念もありますが、0.25秒から0.3秒に変わるという程度で、有意な差はありつつも無視できる差と言えそうです。
※入力コンテキスト量とGPU性能によっては無視できなくなる可能性があります
注意点
今回の実験で相対的にデフォルトの英語思考が遅いということになりますが、問題文が論理クイズや特殊記号を使う命題論理など、 言語格差が生じにくい問題 に厳選している点にご注意ください。
コーディングをはじめ、一般的な用途では平均的に英語思考が最も良いという可能性もあります。
「特定用途、最終出力は少ないが思考過程が長い」という条件があればぜひお試しください。
付録
問題文と実験結果詳細
表は施行ごとの合計トークン数(少ない順)
Q1
4人の学生A、B、C、Dがいます。AはBより成績が良く、CはDより成績が良く、BはCより成績が良いとします。成績を上から順に並べ、その推論過程を説明してください。
| 順位 | 英語 | 中国語 | 日本語 |
|---|---|---|---|
| 1 | 836 | 334 | 391 |
| 2 | 926 | 345 | 394 |
| 3 | 1010 | 423 | 538 |
| 4 | 1055 | 609 | 640 |
| 5 | 1296 | 781 | 744 |
| 平均 | 1024 | 498 | 541 |
| デフォルト比 | 100% | 48% | 52% |
備考: 中国語思考が回答を中国語出力(1回)
Q2
地球の大気に窒素が約78%、酸素が約21%含まれている理由を説明してください。それぞれのガスが地球の生命維持にどのような役割を果たしているかも述べてください。
| 順位 | 英語 | 中国語 | 日本語 |
|---|---|---|---|
| 1 | 2064 | 1036 | 808 |
| 2 | 2124 | 1092 | 974 |
| 3 | 2245 | 1159 | 1304 |
| 4 | 2280 | 1409 | 1320 |
| 5 | 2316 | 1609 | 1415 |
| 平均 | 2205 | 1261 | 1164 |
| デフォルト比 | 100% | 57% | 52% |
備考: 中国語思考が回答を中国語出力(1回)
Q3
江戸幕府が200年以上続いた主な理由を3点挙げ、それぞれ具体的に説明してください。
| 順位 | 英語 | 中国語 | 日本語 |
|---|---|---|---|
| 1 | 1836 | 574 | 599 |
| 2 | 2682 | 1004 | 805 |
| 3 | 2891 | 1279 | 983 |
| 4 | 3045 | 1320 | 990 |
| 5 | 3239 | 1414 | 1208 |
| 平均 | 2738 | 1118 | 917 |
| デフォルト比 | 100% | 40% | 33% |
Q4
1から100までの整数の和を工夫して求めてください。複数の計算方法がある場合は、それぞれの方法と答えを説明してください。
| 順位 | 英語 | 中国語 | 日本語 |
|---|---|---|---|
| 1 | 2714 | 831 | 1136 |
| 2 | 3043 | 1203 | 1237 |
| 3 | 3225 | 1724 | 1282 |
| 4 | 3323 | 1885 | 1526 |
| 5 | 3821 | 2009 | 1655 |
| 平均 | 3225 | 1530 | 1367 |
| デフォルト比 | 100% | 47% | 42% |
備考: 中国語思考が回答を中国語出力(1回)
Q5
民主主義と専制主義の主な違いを比較し、それぞれの長所と短所を説明してください。
| 順位 | 英語 | 中国語 | 日本語 |
|---|---|---|---|
| 1 | 1933 | 986 | 853 |
| 2 | 2499 | 1004 | 909 |
| 3 | 2585 | 1073 | 953 |
| 4 | 2763 | 1323 | 1307 |
| 5 | 2923 | 1371 | 1385 |
| 平均 | 2540 | 1151 | 1081 |
| デフォルト比 | 100% | 45% | 42% |
備考: 中国語思考が回答を中国語出力(1回)
Q6
命題論理の問題です。以下の推論は「妥当」か「不当」かを答えてください。「妥当」とは「前提がすべて真であれば結論が必ず真になること」です。不当な場合は反例(前提を真にし結論を偽にする変数の割り当て)を示してください。
前提1: P → Q
前提2: P → ¬Q
結論: ¬P回答は「妥当」または「不当(反例: P=真/偽, Q=真/偽)」の形で答えてください。
| 順位 | 英語 | 中国語 | 日本語 |
|---|---|---|---|
| 1 | 887 | 735 | 536 |
| 2 | 906 | 851 | 631 |
| 3 | 1202 | 871 | 845 |
| 4 | 1843 | 1160 | 922 |
| 5 | 2655 | 1461 | 1187 |
| 平均 | 1498 | 1015 | 824 |
| デフォルト比 | 100% | 67% | 55% |
Q7
命題論理の問題です。以下の推論は「妥当」か「不当」かを答えてください。「妥当」とは「前提がすべて真であれば結論が必ず真になること」です。不当な場合は反例(前提を真にし結論を偽にする変数の割り当て)を示してください。
前提1: (P ∨ Q) → R
前提2: R → (S ∧ T)
前提3: ¬S
結論: ¬P ∧ ¬Q回答は「妥当」または「不当(反例: P=真/偽, Q=真/偽, R=真/偽, S=真/偽, T=真/偽)」の形で答えてください。
| 順位 | 英語 | 中国語 | 日本語 |
|---|---|---|---|
| 1 | 2131 | 674 | 733 |
| 2 | 2209 | 988 | 784 |
| 3 | 5988 | 1058 | 800 |
| 4 | 8673 | 2275 | 916 |
| 5 | 11548 | 2301 | 1187 |
| 平均 | 6109 | 1459 | 884 |
| デフォルト比 | 100% | 23% | 14% |
Q8
命題論理の問題です。以下の推論は「妥当」か「不当」かを答えてください。「妥当」とは「前提がすべて真であれば結論が必ず真になること」です。不当な場合は反例(前提を真にし結論を偽にする変数の割り当て)を示してください。
前提: (P → Q) → P
結論: P回答は「妥当」または「不当(反例: P=真/偽, Q=真/偽)」の形で答えてください。
| 順位 | 英語 | 中国語 | 日本語 |
|---|---|---|---|
| 1 | 1760 | 4 | 417 |
| 2 | 1940 | 668 | 658 |
| 3 | 2449 | 827 | 768 |
| 4 | 5984 | 1077 | 893 |
| 5 | 6036 | 2487 | 1096 |
| 平均 | 3633 | 1012 | 766 |
| デフォルト比 | 100% | 27% | 21% |
備考: 中国語思考が即答(1回)
パースの法則で自明と判断?
Q9
3人A、B、Cがいます。各人は「騎士(常に真実を言う)」か「悪漢(常に嘘をつく)」のどちらかです。
A: 「BとCは同じ種族だ」
B: 「私たちの中で唯一の騎士はAだ」
C: 「Bは悪漢だ」A、B、Cそれぞれの種族を答えてください。
回答は「A=騎士/悪漢, B=騎士/悪漢, C=騎士/悪漢」の形で答えてください。
| 順位 | 英語 | 中国語 | 日本語 |
|---|---|---|---|
| 1 | 1984 | 1663 | 553 |
| 2 | 2270 | 1881 | 599 |
| 3 | 2418 | 1970 | 750 |
| 4 | 3047 | 3231 | 780 |
| 5 | 3422 | 5325 | 1352 |
| 平均 | 2628 | 2814 | 806 |
| デフォルト比 | 100% | 107% | 30% |
Q10
3人A、B、Cがいます。各人は「騎士(常に真実を言う)」か「悪漢(常に嘘をつく)」のどちらかです。
A: 「BとCの少なくとも一方は悪漢だ」
B: 「AとCは同じ種族だ」
C: 「Bは騎士だ」A、B、Cそれぞれの種族を答えてください。
回答は「A=騎士/悪漢, B=騎士/悪漢, C=騎士/悪漢」の形で答えてください。
| 順位 | 英語 | 中国語 | 日本語 |
|---|---|---|---|
| 1 | 2535 | 1240 | 554 |
| 2 | 2703 | 1351 | 709 |
| 3 | 2720 | 1420 | 880 |
| 4 | 2951 | 2294 | 939 |
| 5 | 4318 | 4136 | 1568 |
| 平均 | 3045 | 2088 | 930 |
| デフォルト比 | 100% | 68% | 30% |
Q11
5人A、B、C、D、Eがいます。各人は「騎士(常に真実を言う)」か「悪漢(常に嘘をつく)」のどちらかです。
A: 「Dは悪漢だ」
B: 「この5人の中に騎士はちょうど2人だ」
C: 「AとEは同じ種族だ」
D: 「Cは悪漢だ」
E: 「Bは悪漢だ」A、B、C、D、Eそれぞれの種族を答えてください。
回答は「A=騎士/悪漢, B=騎士/悪漢, C=騎士/悪漢, D=騎士/悪漢, E=騎士/悪漢」の形で答えてください。
| 順位 | 英語 | 中国語 | 日本語 |
|---|---|---|---|
| 1 | 2861 | 1889 | 1392 |
| 2 | 3091 | 1901 | 2547 |
| 3 | 3293 | 1950 | 3102 |
| 4 | 3951 | 1951 | 3535 |
| 5 | 5440 | 2433 | 4099 |
| 平均 | 3727 | 2024 | 2935 |
| デフォルト比 | 100% | 54% | 78% |
備考: 日本語思考が最終出力に導出過程を出力(2回)
Q12
3つの皿(皿1、皿2、皿3)があります。
皿1にはリンゴが3個乗っています。
皿2には、皿1よりも2個多くリンゴが乗っています。
皿3には、皿1と皿2のリンゴを合わせた数と同じだけのミカンが乗っています。問い:皿3に乗っているミカンの数はいくつか? アラビア数字のみで答えよ。
| 順位 | 英語 | 中国語 | 日本語 |
|---|---|---|---|
| 1 | 327 | 4 | 182 |
| 2 | 362 | 167 | 193 |
| 3 | 376 | 189 | 200 |
| 4 | 397 | 210 | 225 |
| 5 | 402 | 280 | 264 |
| 平均 | 372 | 170 | 212 |
| デフォルト比 | 100% | 45% | 56% |
備考: 中国語思考が即答(1回)
Q13
3つの皿(皿1、皿2、皿3)に、リンゴ、ミカン、バナナがいくつか乗っています。
条件1:3つの皿にある果物の合計は11個です。
条件2:皿1にはリンゴだけが乗っており、その数は皿2に乗っているバナナの数と同じです。
条件3:皿3にある果物はミカンだけであり、その数は皿1のリンゴの数の2倍です。
条件4:皿2にはバナナとミカンが乗っており、皿2のミカンの数は皿3のミカンの数より1個少ないです。
条件5:すべての皿に、少なくとも1つの果物が乗っています。問い:皿1に乗っているリンゴの数はいくつか? アラビア数字のみで答えよ。
| 順位 | 英語 | 中国語 | 日本語 |
|---|---|---|---|
| 1 | 1303 | 4 | 847 |
| 2 | 1803 | 4 | 883 |
| 3 | 2075 | 422 | 1094 |
| 4 | 2423 | 1958 | 1263 |
| 5 | 2665 | 2476 | 1288 |
| 平均 | 2053 | 972 | 1075 |
| デフォルト比 | 100% | 47% | 52% |
備考: 中国語思考が即答(2回)















