OpenThaiGPTから「openthaigpt-1.0.0-7b-chat」がリリースされたので、とりあえずトークナイザを試してみることにした。
>>> from transformers import AutoTokenizer
>>> tkz=AutoTokenizer.from_pretrained("openthaigpt/openthaigpt-1.0.0-7b-chat")
>>> print(tkz.convert_ids_to_tokens(tkz("แม่อย่าเก็บไว้คนเดียว")["input_ids"]))
['<s>', '▁แม', '่อย', '่า', 'เก็บ', 'ไว้', 'คนเดียว']
「แม่อย่าเก็บไว้คนเดียว」をトークナイズしてみたところ、単語の切れ目が「แม่」「อย่า」「เก็บ」「ไว้」「คน」「เดียว」になっておらず、非常に気持ち悪い。もう少し細かくみてみよう。
>>> for t in tkz.convert_ids_to_tokens(tkz("แม่อย่าเก็บไว้คนเดียว")["input_ids"]):
... print(" ",t)
...
<s>
▁แม
่อย
่า
เก็บ
ไว้
คนเดียว
「เก็บ」「ไว้」の2単語を除いて、残りはボロボロだ。タイ文字クラスター(คลัสเตอร์อักษรไทย)すら、完全に無視してトークナイズしている。うーん、正直なところ使いにくすぎるなぁ。