1.まえがき
- こちらは以下のTokenizer (トークナイザー)を解説するための記事です。
Go to list of users who liked
Share on X(Twitter)
Share on Facebook
Tokenizer (トークナイザー)を解説するための記事です。
Tokenizer (トークナイザー)には様々な手法がありますが、GPTやGeminiやLlamaで使われている、BPE (Byte Pair Encoding)の解説をここで行います。TokenizerのBPEは大量に学習して、どんな文字が来ても基本的には崩れなく、処理できるそうです。!: 1 皆: 2 さ: 3 ん: 4 こ: 5 ん: 6 に: 7 ち: 8 は: 9 皆さん: 10 こんにちは: 11皆 さ 皆さ ん こ ん に ち にち は こん にちは Tokenizerなら大多数の言語に対応されております、他に特殊トークンがあり、<EOS> <BOS> <s>で文章の始まりや終わりを表現しています。idsで各毎にidを割り当てて、mergesの出現率が高い順に並べてある単語同士のリストを見て、組み合わせを探します。Register as a new user and use Qiita more conveniently
Go to list of users who liked