LoginSignup
5
6

OpenAI API 課金額の観点で英語を使うべき理由

Last updated at Posted at 2023-10-22

英語テキストの方が良い理由

ChatGPT系のモデルを用いる場合、インプット及びアウトプットは日本語のテキストより英語のテキストを用いてシステムを構築した方が良いです。モデル自体の学習時に英語の文章の方が多く入っているため精度が高いという理由もありますが、今回はChatGPTを実運用をする際に気になる課金額という観点で考えてみます。

英語テキストを用いた場合の課金額は日本語テキストを用いた場合の課金額の半分程度に収まります。これはトークン数の考え方による差異です。

以下では簡単な実験を通じて、実際にどの程度差分が出ているのかを見ています。

課金形態

OpenAI APIを使用する際に、基本的にはトークン数によって課金額が決まります。モデル毎の課金額は公式ページ(https://openai.com/pricing)を参照して下さい。
例えば、チャット"GPT-3.5 Turbo"モデルの場合は以下のように記載されています。
image.png
この場合(4K context)、「入力するテキスト」と「モデルから出力されるテキスト」のそれぞれに対して、1000トークン辺り0.0015ドル、0.002ドルが課金されるということになります。

トークン数の見積もり

トークン数ですが、公式ページ(https://platform.openai.com/tokenizer)で文章を入力することで見積もることができます。
例として以下の文章を見積もってみます。

「The OpenAI API can be applied to virtually any task that requires understanding or generating natural language and code. The OpenAI API can also be used to generate and edit images or convert speech into text. We offer a range of models with different capabilities and price points, as well as the ability to fine-tune custom models.」

image.png

この場合トークン数は65となっています。そのため課金額としては
0.0015ドル×65/1000=0.0000975ドル
となります。

日本語文章との比較

上述の文章をGoogle翻訳等で日本語に直し、その場合の課金額を計算してみます。日本語に翻訳した文章としては以下のようになります。

「OpenAI API は、自然言語とコードの理解または生成を必要とする事実上あらゆるタスクに適用できます。 OpenAI API を使用して、画像を生成および編集したり、音声をテキストに変換したりすることもできます。当社は、さまざまな機能と価格帯を備えたさまざまなモデルを提供しているほか、カスタム モデルを微調整することもできます。」

こちらの文章に対して同様にトークン数を見積もります。
image.png

すると、トークン数は150となり、英語の文章を入れた場合の2倍以上となっています。課金額としては
0.0015ドル×150/1000=0.000225ドル
となります。

このような結果となった理由は、日本語の場合、1文字あたりおおよそ1トークンとしてカウントされるためです。一方で、英語では短い単語であれば1単語あたり1トークンとしてカウントされます。長い英単語の場合は1単語でも2トークンや3トークンとしてカウントされる場合もあります。公式ページ上で記載されている目安を見ると、英語の文章については100トークンあたり75単語とされています。

5
6
1

Register as a new user and use Qiita more conveniently

  1. You get articles that match your needs
  2. You can efficiently read back useful information
  3. You can use dark theme
What you can do with signing up
5
6