Go to Qiita Advent Calendar Top

0

@yustudio_jp(yu studio_jp)

Tokenizerの仕組み

Posted at 2025-12-09

1.まえがき

- こちらは以下の`Tokenizer (トークナイザー)`を解説するための記事です。

- `Tokenizer (トークナイザー)`には様々な手法がありますが、`GPT`や`Gemini`や`Llama`で使われている、`BPE (Byte Pair Encoding)`の解説をここで行います。

2.構造

3.理論

- `Tokenizer`の`BPE`は大量に学習して、どんな文字が来ても基本的には崩れなく、処理できるそうです。
- ですが一部の絵文字などは学習されて無く扱えない物もあります。
- 以下に処理の手順をお見せしたいと思います。

●idsリスト例
`！: 1` `皆: 2` `さ: 3` `ん: 4` `こ: 5` `ん: 6` `に: 7` `ち: 8` `は: 9` `皆さん: 10` `こんにちは: 11`
●mergesリスト例
`皆さ` `皆さん` `こん` `にち` `にちは` `こんにちは`
●以下処理の見本

4.まとめ

- この様にして文字の連結を行っていきます重要なのは、学習させた文字でないとしっかり精度が出せにくいと言うところです、
- ですが今の`Tokenizer`なら大多数の言語に対応されております、他に特殊トークンがあり、`<EOS>` `<BOS>` `<s>`で文章の始まりや終わりを表現しています。
- `ids`で各毎に`id`を割り当てて、`merges`の出現率が高い順に並べてある単語同士のリストを見て、組み合わせを探します。
- 知らない単語が来た際には最小単位(細かく区切る)として扱いますので文字としての認識は可能となります。
- また、これらを行うには処理が大変になってしまうので、キャッシュに残す事で高速化がなされてます。
- 以上解説を終わります、正しく理解が出来ているか自身でも怪しいですが、指摘点や疑問点があればお聞き下さい。ありがとうございました。

0

Register as a new user and use Qiita more conveniently

You get articles that match your needs
You can efficiently read back useful information
You can use dark theme

What you can do with signing up

0