タイ語品詞付与・係り受け解析モデルcamembert-thai-base-uposリリース

Posted at 2024-09-11

6月25日の記事の続きだが、PhayaThaiBERTのトークナイザを改造して「เก็บไว้」や「คนเดียว」を正しくトークナイズできるようにした上で、タイ語の品詞付与・係り受け解析モデルcamembert-thai-base-uposを試作してみた。Google Colaboratoryで動かしてみよう。

!pip install esupar
import esupar
nlp=esupar.load("KoichiYasuoka/camembert-thai-base-upos")
doc=nlp("แม่อย่าเก็บไว้คนเดียว")
import deplacy
deplacy.serve(doc,port=None)

「แม่อย่าเก็บไว้คนเดียว」を係り受け解析してみたところ、私(安岡孝一)の手元では以下の結果が得られた。

1	แม่	_	NOUN	_	_	3	nsubj	_	SpaceAfter=No
2	อย่า	_	AUX	_	_	3	aux	_	SpaceAfter=No
3	เก็บ	_	VERB	_	_	0	root	_	SpaceAfter=No
4	ไว้	_	AUX	_	_	3	aux	_	SpaceAfter=No
5	คน	_	NOUN	_	_	3	obj	_	SpaceAfter=No
6	เดียว	_	NUM	_	_	5	nummod	_	SpaceAfter=No

単語の切れ目は正しくなったのだが、係り受けに関しては、残念ながらうまく解析できていない。4月2日の記事と見較べても、リンクのラベルが3つも間違っている。やっぱり、トークナイザを改造しても、なかなか精度が上がらないなあ。

You get articles that match your needs
You can efficiently read back useful information
You can use dark theme

What you can do with signing up