Angelina Aquino, Franz de Leon『Parsing in the absence of related languages: Evaluating low-resource dependency parsers on Tagalog』を横目に、3月18日の記事の例文に対応する「Maaaring makita pa ba ang dagat」を、タガログ語Universal Dependenciesで解析してみた。
# text = Maaaring makita pa ba ang dagat
1 Maaaring maaaring ADV _ _ 2 advmod _ _
2 makita kita VERB _ _ 0 root _ _
3 pa pa ADV _ _ 2 advmod _ _
4 ba ba PART _ _ 2 mark _ _
5 ang ang ADP _ _ 6 case _ _
6 dagat dagat NOUN _ _ 2 nsubj _ _
文頭の「Maaaring」を1語とみなすべきか、それとも「Maaari」「-ng」の2語に分けるべきか悩ましい。あるいは「Maaaring」を1語だとみなした場合でも、LEMMAを「maaaring」にするか「maaari」にするかが分からない。このあたり、Angelina Aquinoは何も示してくれてないので、私(安岡孝一)としてはエイヤっと1語にして、LEMMAも「maaaring」にしておいた。
ただ、私が見る限り、少なくともこの例文に関しては、タガログ語とイラヴ語で言語構造が違う。たとえ語順を無視したとしても、グラフ同型にするにはノードの加除が必要だ。残念ながら、タガログ語Universal Dependenciesの知識は、イラヴ語への転用が難しそうである。