6月25日の記事の続きだが、PhayaThaiBERTのトークナイザを改造して「เก็บไว้」や「คนเดียว」を正しくトークナイズできるようにした上で、タイ語の品詞付与・係り受け解析モデルcamembert-thai-base-uposを試作してみた。Google Colaboratoryで動かしてみよう。
!pip install esupar
import esupar
nlp=esupar.load("KoichiYasuoka/camembert-thai-base-upos")
doc=nlp("แม่อย่าเก็บไว้คนเดียว")
import deplacy
deplacy.serve(doc,port=None)
「แม่อย่าเก็บไว้คนเดียว」を係り受け解析してみたところ、私(安岡孝一)の手元では以下の結果が得られた。
1 แม่ _ NOUN _ _ 3 nsubj _ SpaceAfter=No
2 อย่า _ AUX _ _ 3 aux _ SpaceAfter=No
3 เก็บ _ VERB _ _ 0 root _ SpaceAfter=No
4 ไว้ _ AUX _ _ 3 aux _ SpaceAfter=No
5 คน _ NOUN _ _ 3 obj _ SpaceAfter=No
6 เดียว _ NUM _ _ 5 nummod _ SpaceAfter=No
単語の切れ目は正しくなったのだが、係り受けに関しては、残念ながらうまく解析できていない。4月2日の記事と見較べても、リンクのラベルが3つも間違っている。やっぱり、トークナイザを改造しても、なかなか精度が上がらないなあ。