esuparのアイヌ語向け言語モデルを更新したので、Google Colaboratoryで動かしてみることにした。
!pip install esupar
import esupar
nlp=esupar.load("ain")
doc=nlp("オラ エアシㇼ アイヌウタㇻ クヌカㇻ")
import deplacy
deplacy.serve(doc,port=None)
「オラ エアシㇼ アイヌウタㇻ クヌカㇻ」というアイヌ語の例文を係り受け解析してみたところ、私(安岡孝一)の手元では以下の結果が得られた。
1 オラ ora SCONJ 接続詞 _ 6 advmod _ _
2 エアシㇼ easir ADV 副詞 _ 6 advmod _ _
3 アイヌ ainu NOUN 名詞 _ 4 nmod _ SpaceAfter=No
4 ウタㇻ utar NOUN 名詞 _ 6 obj _ _
5 ク ku PART 人称接辞 _ 6 nsubj _ SpaceAfter=No
6 ヌカㇻ nukar VERB 他動詞 _ 0 root _ SpaceAfter=No
抱合語としてのアイヌ語における「単語」を、どう捌いていくべきかは悩ましいものの、『ローマ字・カタカナ・キリル文字併用アイヌ語RoBERTa・DeBERTaモデルの開発』で示した方針は、徐々に実現できていると思う。あとは、アイヌ語の各方言での「揺れ」を、どううまく吸収していくか、かな。