0
0

タイ語品詞付与・係り受け解析モデルcamembert-thai-base-uposリリース

Posted at

6月25日の記事の続きだが、PhayaThaiBERTのトークナイザを改造して「เก็บไว้」や「คนเดียว」を正しくトークナイズできるようにした上で、タイ語の品詞付与・係り受け解析モデルcamembert-thai-base-uposを試作してみた。Google Colaboratoryで動かしてみよう。

!pip install esupar
import esupar
nlp=esupar.load("KoichiYasuoka/camembert-thai-base-upos")
doc=nlp("แม่อย่าเก็บไว้คนเดียว")
import deplacy
deplacy.serve(doc,port=None)

「แม่อย่าเก็บไว้คนเดียว」を係り受け解析してみたところ、私(安岡孝一)の手元では以下の結果が得られた。

1	แม่	_	NOUN	_	_	3	nsubj	_	SpaceAfter=No
2	อย่า	_	AUX	_	_	3	aux	_	SpaceAfter=No
3	เก็บ	_	VERB	_	_	0	root	_	SpaceAfter=No
4	ไว้	_	AUX	_	_	3	aux	_	SpaceAfter=No
5	คน	_	NOUN	_	_	3	obj	_	SpaceAfter=No
6	เดียว	_	NUM	_	_	5	nummod	_	SpaceAfter=No

thai.png

単語の切れ目は正しくなったのだが、係り受けに関しては、残念ながらうまく解析できていない。4月2日の記事と見較べても、リンクのラベルが3つも間違っている。やっぱり、トークナイザを改造しても、なかなか精度が上がらないなあ。

0
0
0

Register as a new user and use Qiita more conveniently

  1. You get articles that match your needs
  2. You can efficiently read back useful information
  3. You can use dark theme
What you can do with signing up
0
0