TL;DR (3行まとめ)
- 同じ"情報量"の要約を作らせたとき、いちばんトークンが少ないのは英語でした。日本語は英語の約1.23倍、中国語は約1.29倍の出力トークンを使用。「英語で訓練されたAIは、英語の出力がいちばん"安い"」という直感はおおむね正しかったです。
- ただし最初は 「中国語はトークンが約3倍高い」という真逆の結果 が出ていました。これは計測ミスで、「文字数をそろえる」という不公平な比較をしていたのが原因です(後述)。
- 教訓: 「N文字で要約して」は言語をまたぐと不公平。英語の280文字と中国語の280文字では、含まれる情報量が約5倍違います。
🚀 はじめに
こんにちは、LOH YI THUNG と申します!
生成AIを使っていると、こんな話をよく耳にしますよね。
💡 「AIモデルって英語で訓練されているんだから、プロンプトの入力も結果の出力も全部英語にすれば、トークンの消費を節約できるんじゃないの?」
これを確かめようと、最新モデルの Claude Opus 4.8 で英語・日本語・中国語のトークン消費を測ってみたのですが——最初に出した結論は、後で自分の計測ミスだと分かって引っ込めることになりました。
この記事は、その「きれいに見えたけど間違っていた結果」と、測り方を直したら結論がどう変わったかのリアルな検証記録です。
先に結論を言うと、「同じ内容なら、英語で出力させるのがいちばんトークンが安い」でした。
🛠️ 検証のやり方
題材には、AWS の「Amazon Bedrock での Anthropic の Claude」紹介ページを、英語・日本語・中国語の3言語ぶん使いました。
- 🇺🇸 英語: https://aws.amazon.com/bedrock/anthropic/
- 🇯🇵 日本語: https://aws.amazon.com/jp/bedrock/anthropic/
- 🇨🇳 中国語: https://aws.amazon.com/cn/bedrock/anthropic/
この3言語版は載っているセクションが言語ごとに違ったため、3言語すべてに共通するセクションだけを抜き出して、同じ内容の原本を作りました(source_en.txt / source_ja.txt / source_zh.txt)。
これを Claude に読ませて、指定した言語・指定した長さで要約させ、入力・出力トークン数を記録します。「読む言語(入力)3つ × 書く言語(出力)3つ = 9パターン」をすべて実行しました。モデルは Claude Opus 4.8(claude-opus-4-8)です。
……ここで「指定した長さ」をどう決めるかが、実は今回いちばんの落とし穴でした。
🕳️ 最初の落とし穴:「文字数をそろえる」は不公平だった
最初、私は全言語に 「280〜300文字で要約して」 と指示しました。一見フェアですよね。同じ文字数なんだから。
ところが結果は 「中国語の出力は英語の約3倍トークンを食う」。「やっぱり日本語・中国語は高いんだ!」と早合点しかけました。でも、なんかおかしいんです。理由はこれ!
- 英語の280文字 ≒ 約50語 = 2〜3文くらいの短いメモ
- 中国語・日本語の280文字 ≒ 250語以上の情報 = 段落まるごと(漢字1文字が単語1個分の意味を持つため)
つまり私は、「英語の短いメモ」と「中国語のしっかりした段落」を比べて、「中国語のほうがトークンが多い!」と言っていただけでした。そりゃ多いですよね、5倍くらい多くのことを書いているんですから。
文字数はそろっていても、情報量が全然そろっていなかったわけです。完全に計測ミスでした。
💡 直し方:文字数ではなく「情報量」をそろえる
そこで、各言語の指定を 同じ情報量(英語で260〜300語ぶん)になるように直しました。
- 🇺🇸 英語: 260〜300語(これが基準)
- 🇨🇳 中国語: 750〜850文字(いちばん密度が高い)
- 🇯🇵 日本語: 850〜950文字(かなや助詞があるぶん中国語より長め)
こうして「中身は同じ、言語だけ違う」要約をそろえて、はじめて純粋に「どの言語がいちばん少ないトークンで同じ情報を表せるか」を測れます。
📊 結果:同じ情報量なら、英語がいちばん安い
直したあとの、出力言語ごとの平均出力トークン数です。
| 出力する言語 | 平均 出力トークン | 英語比 | 実際の中身 |
|---|---|---|---|
| 🇺🇸 英語 | 690 | 1.00倍 (最安) | 272〜277語 |
| 🇯🇵 日本語 | 851 | 1.23倍 | 約890〜955文字 |
| 🇨🇳 中国語 | 888 | 1.29倍 | 約865〜936文字 |
同じ情報量を表すのに、日本語は英語の約1.23倍、中国語は約1.29倍のトークンがかかりました。
最初の「3倍」とは大違いで、実際の差は2〜3割です。英語のトークナイザが、意味あたりではいちばん効率的ということですね。
そしてこの差は 「出力する言語」だけで決まります。何語を読ませても、英語で答えさせれば安く収まりました(ZH→EN 719、JA→EN 656、EN→EN 694 と、どれも約690トークンに固まっています)。
🖼️ 画像: 出力言語ごとの平均出力トークンの棒グラフ(英語690 / 日本語851 / 中国語888)

(付録にある実行ログのスクリーンショットより値を抜粋し、算出)
📥 入力(プロンプト)側はどうか
入力側も見ておきます。同じ内容を読ませたときの、入力言語ごとの平均入力トークン数です。
| 入力する言語 | 平均 入力トークン(同じ内容) |
|---|---|
| 🇺🇸 英語 | 1,351 |
| 🇨🇳 中国語 | 1,486 |
| 🇯🇵 日本語 | 1,894 |
入力でも、日本語は英語の約1.4倍(中国語は約1.1倍)のトークンを使います。ただし、今回のようにしっかりした要約を生成させるタスクでは、コストの大半は出力側でした(次章参照)。そのため、入力言語の違いは出力ほど全体のコストに大きく響きません。
🎯 で、最初の疑問の答えは?
「AIは英語のほうがトークンが安い?」
—— 同じ情報量を"生成"させるなら、答えは YES。英語がいちばん安く、日本語・中国語は2〜3割ほど高いです。
今回のように中身のある要約を作らせると、料金の約7割が出力トークンでした。
- 🇺🇸 全部英語(EN→EN): 入力 $0.0067 + 出力 $0.0174 = $0.0241(うち出力が約72%)
- 🇯🇵 全部日本語(JA→JA): 入力 $0.0095 + 出力 $0.0211 = $0.0306(英語比 約1.27倍)
- 🇨🇳 全部中国語(ZH→ZH): 入力 $0.0074 + 出力 $0.0236 = $0.0311(英語比 約1.29倍)
つまりコスト削減に一番効くレバーは 「出力の言語」と「出力の長さ」 です。たくさん文章を生成させるサービスほど、出力言語の差が請求額に直結します。(逆に、長文を読ませて短く返すだけのタスクなら入力の比率が上がるため、入力言語も効いてきます。)
💡 結論
同じ内容なら、英語で出力させるのがいちばん安い(CJKより2〜3割お得)。そして、出力を必要以上に長くしないことが何よりの節約術です。
⚠️ 検証の限界
正直に限界も書いておきます。
- 各パターン1回ずつ(n=1)の計測です。英語が最安という結果は3つの入力言語すべてで一貫していた(690±30トークン)ため安心材料ですが、試行回数は少ないです。
- 「情報量をそろえた」のは概算です。「中国語750〜850文字 ≒ 英語280語」はキャリブレーションによる見積もりで、厳密に同じ情報量とは証明できません。ただ2〜3割の差は多少のズレでは消えない大きさです。
- 文章は1種類(AWSの製品紹介ページ)だけ。コードや技術文書だと傾向が変わるかもしれません。
- 設定は控えめ(medium)。上げると結果、特に思考量は変わる可能性があります。
✨ まとめ
- 同じ情報量の要約なら、英語の出力がいちばんトークンが少ない。日本語は約1.23倍、中国語は約1.29倍(= CJK は2〜3割高い)。
- 最初に出た 「中国語は3倍高い」は計測ミス。「N文字で要約」は言語をまたぐと不公平で、英語と中国語で情報量が5倍くらい違ってしまったのが原因。
- コスト削減で効くのは 「出力の言語」と「出力の長さ」。"英語で出力させると安い" は、ちゃんと測ると2〜3割の差として現れます。
📂 付録:検証スクリプトと生データ
今回の検証に使った 入力原本(3言語)・出力結果・実行スクリプト はこちらで公開しています。
🔗 GitHub リポジトリ: https://github.com/lohvin0804/llm-language-token-cost
中身はこんな構成です。
-
source_en.txt/source_ja.txt/source_zh.txt— 3言語の入力原本(同じ内容にそろえたもの) -
results.csv— 9パターンの生データ(入出力トークン数、思考量、文字数、語数、実行時間、出力本文など) -
opus48_runner.sh— API を叩き、言語ごとに長さ指定を変えて要約させ、トークン数を CSV に記録する実行スクリプト
実際に走らせると、1パターンずつ結果と累計コストが出ます。
🖼️ 画像: 実行ログのスクリーンショット(opus48_runner.sh の出力)

AI利用について
この記事の検証スクリプトの作成・データ整理・文章のドラフトには生成AI(Claude)を活用しています。検証結果・数値・最終的な記述内容はすべて筆者が確認・校正しています。
最後まで読んでいただき、ありがとうございました!気になる点があれば、コメントで気軽に聞いてください 🙌