openbuddy-gemma-7b-v19.1-4kという言語モデルが、9つの言語(英語・フランス語・ドイツ語・イタリア語・フィンランド語・ロシア語・中国語・韓国語・日本語)をサポートしている、とのことなので、日本語に対するトークナイザを試してみることにした。
>>> from transformers import AutoTokenizer
>>> tkz=AutoTokenizer.from_pretrained("OpenBuddy/openbuddy-gemma-7b-v19.1-4k")
>>> print(tkz.convert_ids_to_tokens(tkz("国境の長いトンネルを抜けると雪国であった。","夜の底が白くなった。")["input_ids"]))
['<bos>', '国', '境', 'の', '長い', 'トンネル', 'を', '抜け', 'ると', '雪', '国', 'であった', '。', '<bos>', '夜の', '底', 'が', '白', 'くなった', '。']
残念ながら、日本語トークナイザとしてはボロボロだ。特に「抜け」「ると」のあたりは、単語の切れ目を完全に無視していて、日本語における言語処理としては話にならない。元のgemma-7bのトークナイザを、何も考えずにそのまま使ってしまったのだろう。残念だ。