はじめに
OpenAIのAPIに触れるなかでTokenという単語がでてくることがあります。そのTokenについて知らなかったので調べてみました。
Tokenとは
一言でいうとテキストの最小単位です。文章を処理する際、単語や句読点、数字などの要素に分割するプロセスを「トークナイゼーション」と呼び、分割された要素1つ1つがTokenです。TokenはLLM等言語処理でも使用されます。
トークナイゼーションの例
例1
9つに分けられるので9トークンと数えることができます。
例2
日本語だと区切られる単位が多いためトークン数が増えます。
下記文章で13トークンです。
tokneizerを使用してカウントしました。
ChatGPT4oのトークンの料金について調べる
ChatGPTなどのAPIを使用する場合、使用するトークン数に基づいて料金が発生します。送信された入力トークンの数と、API によって返された出力内のトークンの数に基づいて計算されます。
使用方法にもよりますがChatGPT4oの場合は 5.00ドル/100万入力トークンとなるようです。
最後に
Tokenが何者か知らずOpenAIのAPIを使用していましが正体を知ることができました。
初歩的な知識ですが理解できよかったです。
最後に
私の働いている会社で経験の有無を問わず採用を行っています。
興味のある方は是非カジュアル面談から応募してみてください!