Tolosa Treebankを使って、オック語の品詞付与・係り受け解析モデルdeberta-small-occitan-uposを試作してみた。Google Colaboratoryで動かしてみよう。
!pip install esupar
import esupar
nlp=esupar.load("KoichiYasuoka/deberta-small-occitan-upos")
doc=nlp("La mar poiriá encara èsser a la vista")
import deplacy
deplacy.serve(doc,port=None)
「La mar poiriá encara èsser a la vista」という文を解析してみたところ、私(安岡孝一)の手元では、以下の結果が得られた。
1 La _ DET _ _ 2 det _ _
2 mar _ NOUN _ _ 3 nsubj _ _
3 poiriá _ VERB _ _ 0 root _ _
4 encara _ ADV _ _ 3 advmod _ _
5 èsser _ VERB _ _ 8 cop _ _
6 a _ ADP _ _ 8 case _ _
7 la _ DET _ _ 8 det _ _
8 vista _ NOUN _ _ 3 obl _ SpaceAfter=No
うーん、「èsser」がcopだとすると、品詞はVERBよりAUXの方が適切というか、近隣言語のUniversal Dependenciesとの連絡をつけやすい気がする。あるいは、品詞をVERBのままにするなら、「poiriá」からxcompを繋ぐべきだろう。さて、どういう風にチューニングしていこうかな。