0
0

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?

LLMの思考言語を変えて高速化してみる

0
Posted at

本記事の結論

  • LLMの思考言語は変えられる
  • デフォルトよりも中国語日本語にするとトークン数が少なくなる場合がある

はじめに

ローカルLLMの出力を高速化したい、という皆様に。
PCスペックやモデルサイズに依存したスループット(秒間トークン数)が変わらなくても、無駄に出力されている LLMの思考過程のトークンを減らせば 、出力そのままで 本文出力開始 および 出力完了までの時間が早くなる のでは、という検証内容です。

言語とトークン数の関係

LLMのトークンは言語差が結構あります。

英語

大体のLLMのベース言語。
何も指定しなければ大抵思考言語は英語になる。(中国製のQwenでも)
トークナイザーは英語をベースに効率化されている。

日本語

いろんな文字があるのでトークナイザーの効率は良くない。
本記事での入出力言語

中国語

言語的に漢字1文字に意味が圧縮されているため、最もトークナイザーの効率が良いとされている。
Qwen系の中国製モデルなら中国語での学習が多いと期待。
検証前時点での本命言語

LLMの思考言語を変える

正攻法が見つからなかったのでむりやり変えています。
システムプロンプトでの指示では変わりませんでした。
思考開始合図となる <think>タグ 自体がトークン化されており、次に続くトークンが英語になる確率が高く学習されていると思われます。

1. プロンプトテンプレートを修正

jinja2形式のプロンプトテンプレートに思考タグ<think>をつける指示があるので、そこに 「少し考えてみましょう。」「让我们想一想」といった言語ごとの思考開始合図をつけてやります。

指定なし(英語)
think_default.png

日本語指定
think_japanese.png

中国語指定
think_chinese.png

2. 思考過程と本文を分離

本来は <think></think> のタグ内を思考過程、その後を本文と処理されています。
タグに余計な文字を追加したせいか、なぜか<think></think>タグが出力されなくなってしまいました。
パターン的に思考過程と本文の間に改行コードが3個(\n\n\n)出るので、それを区切り文字として扱えそうです。

検証

テスト環境

項目 環境
機種 GIGABYTE AI TOP ATOM (DGX Spark互換)
OS Ubuntu 24.04
LLMエンジン LM Studio 0.4.12
トークン数評価モデル Qwen/Qwen3.6-35B-A3B

LLMパラメータ

項目 設定 備考
繰り返しペナルティ 1.1 デフォルトの1.0だと繰り返しが発生しやすい
temperature 0.6 デフォルトのまま

テスト内容

問題文は付録を参照。
出力が長文になる知識問題、出力を少なく思考が必要な命題論理、論理クイズ、数学問題など13問を5回ずつ試行。
検証用より上位のモデル Qwen3.5-122B-A10B で回答を評価。(思考言語はデフォルト)

  • 意味的評価: 問題に対して回答が合っているかどうか
  • 言語的評価: 入力の日本語に対して回答も日本語になっているか。冗長表現になっていないか

実験結果

詳細は付録を参照。

項目 デフォルト(英語) 中国語 日本語
意味的正解率 100% (65/65) 100% (65/65) 100% (65/65)
言語的正解率 100% (65/65) 92% (60/65) 97% (63/65)
平均トークン数 2677 1316 1038
トークン数デフォルト比 100% 49% 39%

当初の「やっぱり中国製モデルならトークン数の少ない中国語がいいはずだよね」という予想が違う意味で裏切られました。
デフォルトの英語に比べれば中国語は「出力が中国語になることがある」という問題はあるものの トークン数は半減 と優秀な結果でした。

ただそれ以上に 日本語のトークン数6割減少 が大きく、言語間違いが少ない(Q11で回答形式を無視)という程度で、「 何考えてるかわかったほうが楽しいよね 」くらいの理由で評価した日本語思考が予想外に優秀だった、という結果になりました。

思考過程では、

  1. 入力言語の翻訳
  2. 推論
  3. 出力言語用の翻訳ドラフト作成
  4. 確認

といったプロセスが見て取れます。
翻訳の手間がいらない分、 入出力言語に合わせた思考言語にするのが良い ということかもしれません。
中国語重視で学習されたQwenモデルであれば、「日本語を聞いて英語で考えて日本語を返す中国人」みたいなものだと考えるとたしかに効率は悪そうです。

ちなみに TTFT(最初のトークン出力までの時間)に影響があるのでは? という懸念もありますが、0.25秒から0.3秒に変わるという程度で、有意な差はありつつも無視できる差と言えそうです。
※入力コンテキスト量とGPU性能によっては無視できなくなる可能性があります

注意点

今回の実験で相対的にデフォルトの英語思考が遅いということになりますが、問題文が論理クイズや特殊記号を使う命題論理など、 言語格差が生じにくい問題 に厳選している点にご注意ください。
コーディングをはじめ、一般的な用途では平均的に英語思考が最も良いという可能性もあります。

特定用途、最終出力は少ないが思考過程が長い」という条件があればぜひお試しください。

付録

問題文と実験結果詳細

表は施行ごとの合計トークン数(少ない順)

Q1

4人の学生A、B、C、Dがいます。AはBより成績が良く、CはDより成績が良く、BはCより成績が良いとします。成績を上から順に並べ、その推論過程を説明してください。

Q1.png

順位 英語 中国語 日本語
1 836 334 391
2 926 345 394
3 1010 423 538
4 1055 609 640
5 1296 781 744
平均 1024 498 541
デフォルト比 100% 48% 52%

備考: 中国語思考が回答を中国語出力(1回)


Q2

地球の大気に窒素が約78%、酸素が約21%含まれている理由を説明してください。それぞれのガスが地球の生命維持にどのような役割を果たしているかも述べてください。

Q2.png

順位 英語 中国語 日本語
1 2064 1036 808
2 2124 1092 974
3 2245 1159 1304
4 2280 1409 1320
5 2316 1609 1415
平均 2205 1261 1164
デフォルト比 100% 57% 52%

備考: 中国語思考が回答を中国語出力(1回)


Q3

江戸幕府が200年以上続いた主な理由を3点挙げ、それぞれ具体的に説明してください。

Q3.png

順位 英語 中国語 日本語
1 1836 574 599
2 2682 1004 805
3 2891 1279 983
4 3045 1320 990
5 3239 1414 1208
平均 2738 1118 917
デフォルト比 100% 40% 33%

Q4

1から100までの整数の和を工夫して求めてください。複数の計算方法がある場合は、それぞれの方法と答えを説明してください。

Q4.png

順位 英語 中国語 日本語
1 2714 831 1136
2 3043 1203 1237
3 3225 1724 1282
4 3323 1885 1526
5 3821 2009 1655
平均 3225 1530 1367
デフォルト比 100% 47% 42%

備考: 中国語思考が回答を中国語出力(1回)


Q5

民主主義と専制主義の主な違いを比較し、それぞれの長所と短所を説明してください。

Q5.png

順位 英語 中国語 日本語
1 1933 986 853
2 2499 1004 909
3 2585 1073 953
4 2763 1323 1307
5 2923 1371 1385
平均 2540 1151 1081
デフォルト比 100% 45% 42%

備考: 中国語思考が回答を中国語出力(1回)


Q6

命題論理の問題です。以下の推論は「妥当」か「不当」かを答えてください。「妥当」とは「前提がすべて真であれば結論が必ず真になること」です。不当な場合は反例(前提を真にし結論を偽にする変数の割り当て)を示してください。

前提1: P → Q
前提2: P → ¬Q
結論: ¬P

回答は「妥当」または「不当(反例: P=真/偽, Q=真/偽)」の形で答えてください。

Q6.png

順位 英語 中国語 日本語
1 887 735 536
2 906 851 631
3 1202 871 845
4 1843 1160 922
5 2655 1461 1187
平均 1498 1015 824
デフォルト比 100% 67% 55%

Q7

命題論理の問題です。以下の推論は「妥当」か「不当」かを答えてください。「妥当」とは「前提がすべて真であれば結論が必ず真になること」です。不当な場合は反例(前提を真にし結論を偽にする変数の割り当て)を示してください。

前提1: (P ∨ Q) → R
前提2: R → (S ∧ T)
前提3: ¬S
結論: ¬P ∧ ¬Q

回答は「妥当」または「不当(反例: P=真/偽, Q=真/偽, R=真/偽, S=真/偽, T=真/偽)」の形で答えてください。

Q7.png

順位 英語 中国語 日本語
1 2131 674 733
2 2209 988 784
3 5988 1058 800
4 8673 2275 916
5 11548 2301 1187
平均 6109 1459 884
デフォルト比 100% 23% 14%

Q8

命題論理の問題です。以下の推論は「妥当」か「不当」かを答えてください。「妥当」とは「前提がすべて真であれば結論が必ず真になること」です。不当な場合は反例(前提を真にし結論を偽にする変数の割り当て)を示してください。

前提: (P → Q) → P
結論: P

回答は「妥当」または「不当(反例: P=真/偽, Q=真/偽)」の形で答えてください。

Q8.png

順位 英語 中国語 日本語
1 1760 4 417
2 1940 668 658
3 2449 827 768
4 5984 1077 893
5 6036 2487 1096
平均 3633 1012 766
デフォルト比 100% 27% 21%

備考: 中国語思考が即答(1回)
 パースの法則で自明と判断?


Q9

3人A、B、Cがいます。各人は「騎士(常に真実を言う)」か「悪漢(常に嘘をつく)」のどちらかです。

A: 「BとCは同じ種族だ」
B: 「私たちの中で唯一の騎士はAだ」
C: 「Bは悪漢だ」

A、B、Cそれぞれの種族を答えてください。
回答は「A=騎士/悪漢, B=騎士/悪漢, C=騎士/悪漢」の形で答えてください。

Q9.png

順位 英語 中国語 日本語
1 1984 1663 553
2 2270 1881 599
3 2418 1970 750
4 3047 3231 780
5 3422 5325 1352
平均 2628 2814 806
デフォルト比 100% 107% 30%

Q10

3人A、B、Cがいます。各人は「騎士(常に真実を言う)」か「悪漢(常に嘘をつく)」のどちらかです。

A: 「BとCの少なくとも一方は悪漢だ」
B: 「AとCは同じ種族だ」
C: 「Bは騎士だ」

A、B、Cそれぞれの種族を答えてください。
回答は「A=騎士/悪漢, B=騎士/悪漢, C=騎士/悪漢」の形で答えてください。

Q10.png

順位 英語 中国語 日本語
1 2535 1240 554
2 2703 1351 709
3 2720 1420 880
4 2951 2294 939
5 4318 4136 1568
平均 3045 2088 930
デフォルト比 100% 68% 30%

Q11

5人A、B、C、D、Eがいます。各人は「騎士(常に真実を言う)」か「悪漢(常に嘘をつく)」のどちらかです。

A: 「Dは悪漢だ」
B: 「この5人の中に騎士はちょうど2人だ」
C: 「AとEは同じ種族だ」
D: 「Cは悪漢だ」
E: 「Bは悪漢だ」

A、B、C、D、Eそれぞれの種族を答えてください。
回答は「A=騎士/悪漢, B=騎士/悪漢, C=騎士/悪漢, D=騎士/悪漢, E=騎士/悪漢」の形で答えてください。

Q11.png

順位 英語 中国語 日本語
1 2861 1889 1392
2 3091 1901 2547
3 3293 1950 3102
4 3951 1951 3535
5 5440 2433 4099
平均 3727 2024 2935
デフォルト比 100% 54% 78%

備考: 日本語思考が最終出力に導出過程を出力(2回)


Q12

3つの皿(皿1、皿2、皿3)があります。
皿1にはリンゴが3個乗っています。
皿2には、皿1よりも2個多くリンゴが乗っています。
皿3には、皿1と皿2のリンゴを合わせた数と同じだけのミカンが乗っています。

問い:皿3に乗っているミカンの数はいくつか? アラビア数字のみで答えよ。

Q12.png

順位 英語 中国語 日本語
1 327 4 182
2 362 167 193
3 376 189 200
4 397 210 225
5 402 280 264
平均 372 170 212
デフォルト比 100% 45% 56%

備考: 中国語思考が即答(1回)


Q13

3つの皿(皿1、皿2、皿3)に、リンゴ、ミカン、バナナがいくつか乗っています。
条件1:3つの皿にある果物の合計は11個です。
条件2:皿1にはリンゴだけが乗っており、その数は皿2に乗っているバナナの数と同じです。
条件3:皿3にある果物はミカンだけであり、その数は皿1のリンゴの数の2倍です。
条件4:皿2にはバナナとミカンが乗っており、皿2のミカンの数は皿3のミカンの数より1個少ないです。
条件5:すべての皿に、少なくとも1つの果物が乗っています。

問い:皿1に乗っているリンゴの数はいくつか? アラビア数字のみで答えよ。

Q13.png

順位 英語 中国語 日本語
1 1303 4 847
2 1803 4 883
3 2075 422 1094
4 2423 1958 1263
5 2665 2476 1288
平均 2053 972 1075
デフォルト比 100% 47% 52%

備考: 中国語思考が即答(2回)

0
0
0

Register as a new user and use Qiita more conveniently

  1. You get articles that match your needs
  2. You can efficiently read back useful information
  3. You can use dark theme
What you can do with signing up
0
0

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?