昨日の記事の続きだが、下地理則『南琉球宮古語伊良部島方言』(くろしお出版, 2018年3月)の例文9-26は、ひらがなで書くと「ばー あいぬ むぬーば ふぁいーや みーん。」となって、様々な点で手強い。何とかUniversal Dependenciesで書いてみよう。
# text = ばー あいぬ むぬーば ふぁいーや みーん。
1-2 ばー _ _ _ _ _ _ _ _
1 ば _ PRON 代名詞 _ 8 nsubj _ _
2 あ _ ADP 助詞-格助詞 _ 1 case _ _
3 あい _ DET 代名詞 _ 5 det _ SpaceAfter=No
4 ぬ _ ADP 助詞-格助詞 _ 3 case _ _
5-6 むぬー _ _ _ _ _ _ _ SpaceAfter=No
5 むぬ _ NOUN 名詞-普通名詞-一般 _ 8 obj _ _
6 う _ ADP 助詞-格助詞 _ 5 case _ _
7 ば _ ADP 助詞-係助詞 _ 5 case _ _
8 ふぁいー _ VERB 動詞-一般 _ 10 advcl _ SpaceAfter=No
9 や _ ADP 助詞-係助詞 _ 8 mark _ _
10 みーん _ VERB 動詞-非自立可能 _ 0 root _ SpaceAfter=No
11 。 _ PUNCT 補助記号-句点 _ 10 punct _ _
「ばー」は、代名詞「ば」に格助詞「あ」がくっ付いた形で、できれば長音記号ではなく「ばあ」と書きたいところだが、「ばー」でも縮約の一種とみなせば何とかなる。「あいぬ」の「あい」は、様態を表す指示詞なので、XPOSは「指示詞-様態」としたいところだが、UniDic品詞には指示詞がないので「代名詞」にしている。「むぬーば」も「むぬ」「う」「ば」なのだが、縮約で何とかしている。「ふぁいーや」の「ふぁいー」は、動詞[foː]が[fav]だった名残なのか、[fa-i-i]という不気味な屈折を取るようだが、まあ「ふぁいー」を一語とみなせば大丈夫だ。「みーん」は動詞[miːr]の否定形だが、無理に「みー」と「ん」に分けるのも何なので、「みーん」を一語とみなしている。
こうして見てみると、やはり動詞の屈折が異様に複雑で、どこまでを一語に取るかが、コーパスの作成作業者には判断しにくいように思える。先に「イラヴ語UniDic」に相当するものを、動詞まわりだけでも作っておかないと、作業に入れないかなあ。