8
7

生成AIのTokenという単位について

Posted at

はじめに

OpenAIのAPIに触れるなかでTokenという単語がでてくることがあります。そのTokenについて知らなかったので調べてみました。

Tokenとは

一言でいうとテキストの最小単位です。文章を処理する際、単語や句読点、数字などの要素に分割するプロセスを「トークナイゼーション」と呼び、分割された要素1つ1つがTokenです。TokenはLLM等言語処理でも使用されます。

トークナイゼーションの例

例1
9つに分けられるので9トークンと数えることができます。

スクリーンショット 2024-07-24 14.52.06.png

例2
日本語だと区切られる単位が多いためトークン数が増えます。
下記文章で13トークンです。

スクリーンショット 2024-07-24 14.58.23.png

例3
下記コードだと35トークンです。
スクリーンショット 2024-07-26 8.19.30.png

tokneizerを使用してカウントしました。

ChatGPT4oのトークンの料金について調べる

ChatGPTなどのAPIを使用する場合、使用するトークン数に基づいて料金が発生します。送信された入力トークンの数と、API によって返された出力内のトークンの数に基づいて計算されます。

使用方法にもよりますがChatGPT4oの場合は 5.00ドル/100万入力トークンとなるようです。

最後に

Tokenが何者か知らずOpenAIのAPIを使用していましが正体を知ることができました。
初歩的な知識ですが理解できよかったです。

最後に

私の働いている会社で経験の有無を問わず採用を行っています。
興味のある方は是非カジュアル面談から応募してみてください!

8
7
0

Register as a new user and use Qiita more conveniently

  1. You get articles that match your needs
  2. You can efficiently read back useful information
  3. You can use dark theme
What you can do with signing up
8
7