chimaki-2b-baseは『雪国』の冒頭をどうトークナイズするのか #言語処理

K-walkという会社が「chimaki-2b-base」という日本語Gemmaモデルをリリースしたので、トークナイザを試してみることにした。

>>> from transformers import AutoTokenizer
>>> tkz=AutoTokenizer.from_pretrained("K-walk/chimaki-2b-base")
>>> print(tkz.convert_ids_to_tokens(tkz("国境の長いトンネルを抜けると雪国であった。","夜の底が白くなった。")["input_ids"]))
['<bos>', '国', '境', 'の', '長い', 'トンネル', 'を', '抜け', 'ると', '雪', '国', 'であった', '。', '<bos>', '夜の', '底', 'が', '白', 'くなった', '。']

残念ながら、日本語トークナイザとしてはボロボロだ。特に「抜け」「ると」のあたりは、単語の切れ目を完全に無視していて、日本語における言語処理としては話にならない。元のgemma-2bのトークナイザを、何も考えずにそのまま使ってしまったのだろう。残念だ。