LoginSignup
1
0

openbuddy-gemma-7b-v19.1-4kは『雪国』の冒頭をどうトークナイズするのか

Last updated at Posted at 2024-03-01

openbuddy-gemma-7b-v19.1-4kという言語モデルが、9つの言語(英語・フランス語・ドイツ語・イタリア語・フィンランド語・ロシア語・中国語・韓国語・日本語)をサポートしている、とのことなので、日本語に対するトークナイザを試してみることにした。

>>> from transformers import AutoTokenizer
>>> tkz=AutoTokenizer.from_pretrained("OpenBuddy/openbuddy-gemma-7b-v19.1-4k")
>>> print(tkz.convert_ids_to_tokens(tkz("国境の長いトンネルを抜けると雪国であった。","夜の底が白くなった。")["input_ids"]))
['<bos>', '国', '境', 'の', '長い', 'トンネル', 'を', '抜け', 'ると', '雪', '国', 'であった', '。', '<bos>', '夜の', '底', 'が', '白', 'くなった', '。']

残念ながら、日本語トークナイザとしてはボロボロだ。特に「抜け」「ると」のあたりは、単語の切れ目を完全に無視していて、日本語における言語処理としては話にならない。元のgemma-7bのトークナイザを、何も考えずにそのまま使ってしまったのだろう。残念だ。

1
0
0

Register as a new user and use Qiita more conveniently

  1. You get articles that match your needs
  2. You can efficiently read back useful information
  3. You can use dark theme
What you can do with signing up
1
0