0
0

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?

Tokenizerの仕組み

Posted at

1.まえがき

- こちらは以下のTokenizer (トークナイザー)を解説するための記事です。

- Tokenizer (トークナイザー)には様々な手法がありますが、GPTGeminiLlamaで使われている、BPE (Byte Pair Encoding)の解説をここで行います。

2.構造

3.理論

- TokenizerBPEは大量に学習して、どんな文字が来ても基本的には崩れなく、処理できるそうです。
- ですが一部の絵文字などは学習されて無く扱えない物もあります。
- 以下に処理の手順をお見せしたいと思います。
●idsリスト例
!: 1 皆: 2 さ: 3 ん: 4 こ: 5 ん: 6 に: 7 ち: 8 は: 9 皆さん: 10 こんにちは: 11
●mergesリスト例
皆 さ 皆さ ん こ ん に ち にち は こん にちは
●以下処理の見本

4.まとめ

- この様にして文字の連結を行っていきます重要なのは、学習させた文字でないとしっかり精度が出せにくいと言うところです、
- ですが今のTokenizerなら大多数の言語に対応されております、他に特殊トークンがあり、<EOS> <BOS> <s>で文章の始まり終わりを表現しています。
- idsで各毎にidを割り当てて、mergesの出現率が高い順に並べてある単語同士のリストを見て、組み合わせを探します。
- 知らない単語が来た際には最小単位(細かく区切る)として扱いますので文字としての認識は可能となります。
- また、これらを行うには処理が大変になってしまうので、キャッシュに残す事で高速化がなされてます。
- 以上解説を終わります、正しく理解が出来ているか自身でも怪しいですが、指摘点や疑問点があればお聞き下さい。ありがとうございました。
0
0
0

Register as a new user and use Qiita more conveniently

  1. You get articles that match your needs
  2. You can efficiently read back useful information
  3. You can use dark theme
What you can do with signing up
0
0

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?