私(安岡孝一)個人の感覚に過ぎないのだが、バスク語とUniversal Dependenciesは、どうも相性が悪いように思える。もちろん、UD_Basque-BDTは開発が続けられているし、StanzaもTrankitもバスク語UDをサポートしている。それでも、しっくり来ないのだ。極端な例として「Gaur ama hil zen, gaur goizean ama hil nuen.」を、Google Colaboratory上のStanzaで係り受け解析してみよう。
!pip install stanza deplacy
import stanza
nlp=stanza.Pipeline("eu")
doc=nlp("Gaur ama hil zen, gaur goizean ama hil nuen.")
import deplacy
deplacy.serve(doc,port=None)
私の手元では、以下の結果が得られた。
# text = Gaur ama hil zen, gaur goizean ama hil nuen.
# sent_id = 0
1 Gaur gaur ADV _ _ 3 advmod _ start_char=0|end_char=4
2 ama ama NOUN _ Case=Abs|Definite=Def|Number=Sing 3 nsubj _ start_char=5|end_char=8
3 hil hil VERB _ Aspect=Perf|VerbForm=Part 0 root _ start_char=9|end_char=12
4 zen izan AUX _ Mood=Ind|Number[abs]=Sing|Person[abs]=3|VerbForm=Fin 3 aux _ start_char=13|end_char=16
5 , , PUNCT _ _ 9 punct _ start_char=16|end_char=17
6 gaur gaur ADV _ _ 9 advmod _ start_char=18|end_char=22
7 goizean goiz NOUN _ Animacy=Inan|Case=Ine|Definite=Def|Number=Sing 9 obl _ start_char=23|end_char=30
8 ama ama NOUN _ Case=Abs|Definite=Def|Number=Sing 9 obj _ start_char=31|end_char=34
9 hil hil VERB _ Aspect=Perf|VerbForm=Part 3 conj _ start_char=35|end_char=38
10 nuen edun AUX _ Mood=Ind|Number[abs]=Sing|Number[erg]=Sing|Person[abs]=3|Person[erg]=1|VerbForm=Fin 9 aux _ start_char=39|end_char=43
11 . . PUNCT _ _ 3 punct _ start_char=43|end_char=44
この例文に2つ出てくる「ama hil」は、いずれも動詞hilに対して絶対格のamaが付いていて「ママンが死ぬ」を表している。これにzen (izanの3人称過去)が付くと「ママンは死んだ」となる。一方nuen (izanの絶対格3人称能格1人称過去)が付くと、能格の1人称が内包されているので「ママンは私が死なせた」となるわけだ。ところが、上の結果を見る限り、「ama hil zen」ではamaとhilがnsubj(主語)で繋がれているが、「ama hil nuen」ではamaとhilがobj(目的語)で繋がれている。端的には「ama hil nuen」を「ママンを私が殺した」と解釈して(意味的には確かにそうなのだが)、その上でamaをhilの目的語とみなしているように見える。能格言語であるバスク語の解釈としてはイマイチで、スペイン語などの印欧諸語に引きずられているようだ。
ただし、このあたりの議論は、Izaskun Aldezabal, Maxux Aranzabe, Jose Mari Arriola, Arantza Díaz de Ilarraza『Syntactic annotation in the Reference Corpus for the Processing of Basque (EPEC): Theoretical and practical issues』からMaria Jesus Aranzabe, Aitziber Atutxa, Kepa Bengoetxea, Arantza Díaz de Ilarraza, Iakes Goenaga, Koldo Gojenola, Larraitz Uria『Dependentzia Unibertsalen eredura egokitutako euskarazko zuhaitz-bankua』へと引き継がれてきたものだ。これらの仕事をずっとやってきたEuskal Herriko Unibertsitateaがスペインにある以上、スペイン語UDとの連絡性は担保すべきだろう。まあ、難しいところだなあ。