背景
日本語 Universal Dependencies のタグづけデータ(CONLL-U format)から品詞をパースしたい.
たとえば GSD では以下のようなデータとなっている.
# newdoc id = dev-s1
# sent_id = dev-s1
# text = ただし、50周年ソングに変更後は、EDも歌つきのものが使われた。
1 ただし 但し CCONJ 接続詞 _ 18 cc _ BunsetuBILabel=B|BunsetuPositionType=SEM_HEAD|LUWBILabel=B|LUWPOS=接続詞|SpaceAfter=No|UnidicInfo=,但し,ただし,ただし,タダシ,,,タダシ,タダシ,但し
2 、 、 PUNCT 補助記号-読点 _ 1 punct _ BunsetuBILabel=I|BunsetuPositionType=CONT|LUWBILabel=B|LUWPOS=補助記号-読点|SpaceAfter=No|UnidicInfo=,、,、,、,,,,,,、
3 50 50 NUM 名詞-数詞 _ 5 compound _ BunsetuBILabel=B|BunsetuPositionType=CONT|LUWBILabel=B|LUWPOS=名詞-普通名詞-一般|SpaceAfter=No|UnidicInfo=,五十,50,50,ゴジッ,,,ゴジュウ,ゴジッシュウネンソング,50周年ソング
4 周年 周年 NOUN 名詞-普通名詞-助数詞可能 _ 5 compound _ BunsetuBILabel=I|BunsetuPositionType=CONT|LUWBILabel=I|LUWPOS=名詞-普通名詞-一般|SpaceAfter=No|UnidicInfo=,周年,周年,周年,シューネン,,,シュウネン,ゴジッシュウネンソング,50周年ソング
5 ソング ソング NOUN 名詞-普通名詞-一般 _ 8 obl _ BunsetuBILabel=I|BunsetuPositionType=SEM_HEAD|LUWBILabel=I|LUWPOS=名詞-普通名詞-一般|SpaceAfter=No|UnidicInfo=,ソング,ソング,ソング,ソング,,,ソング,ゴジッシュウネンソング,50周年ソング
6 に に ADP 助詞-格助詞 _ 5 case _ BunsetuBILabel=I|BunsetuPositionType=SYN_HEAD|LUWBILabel=B|LUWPOS=助詞-格助詞|SpaceAfter=No|UnidicInfo=,に,に,に,ニ,,,ニ,ニ,に
7 変更 変更 NOUN 名詞-普通名詞-サ変可能 _ 8 compound _ BunsetuBILabel=B|BunsetuPositionType=CONT|LUWBILabel=B|LUWPOS=名詞-普通名詞-一般|SpaceAfter=No|UnidicInfo=,変更,変更,変更,ヘンコー,,,ヘンコウ,ヘンコウゴ,変更後
8 後 後 NOUN 接尾辞-名詞的-副詞可能 _ 18 nsubj:outer _ BunsetuBILabel=I|BunsetuPositionType=SEM_HEAD|LUWBILabel=I|LUWPOS=名詞-普通名詞-一般|SpaceAfter=No|UnidicInfo=,後,後,後,ゴ,,,ゴ,ヘンコウゴ,変更後
9 は は ADP 助詞-係助詞 _ 8 case _ BunsetuBILabel=I|BunsetuPositionType=SYN_HEAD|LUWBILabel=B|LUWPOS=助詞-係助詞|SpaceAfter=No|UnidicInfo=,は,は,は,ワ,,,ハ,ハ,は
10 、 、 PUNCT 補助記号-読点 _ 8 punct _ BunsetuBILabel=I|BunsetuPositionType=CONT|LUWBILabel=B|LUWPOS=補助記号-読点|SpaceAfter=No|UnidicInfo=,、,、,、,,,,,,、
11 ED ED NOUN 名詞-普通名詞-一般 _ 18 nsubj:outer _ BunsetuBILabel=B|BunsetuPositionType=SEM_HEAD|LUWBILabel=B|LUWPOS=名詞-普通名詞-一般|SpaceAfter=No|UnidicInfo=,ED,ED,ED,イーディー,,,イーディー,イーディー,ED
12 も も ADP 助詞-係助詞 _ 11 case _ BunsetuBILabel=I|BunsetuPositionType=SYN_HEAD|LUWBILabel=B|LUWPOS=助詞-係助詞|SpaceAfter=No|UnidicInfo=,も,も,も,モ,,,モ,モ,も
13 歌 歌 NOUN 名詞-普通名詞-一般 _ 14 compound _ BunsetuBILabel=B|BunsetuPositionType=CONT|LUWBILabel=B|LUWPOS=名詞-普通名詞-一般|SpaceAfter=No|UnidicInfo=,歌,歌,歌,ウタ,,,ウタ,ウタツキ,歌付き
14 つき 付き NOUN 接尾辞-名詞的-一般 _ 16 nmod _ BunsetuBILabel=I|BunsetuPositionType=SEM_HEAD|LUWBILabel=I|LUWPOS=名詞-普通名詞-一般|SpaceAfter=No|UnidicInfo=,付き,つき,つき,ツキ,,,ツキ,ウタツキ,歌付き
15 の の ADP 助詞-格助詞 _ 14 case _ BunsetuBILabel=I|BunsetuPositionType=SYN_HEAD|LUWBILabel=B|LUWPOS=助詞-格助詞|SpaceAfter=No|UnidicInfo=,の,の,の,ノ,,,ノ,ノ,の
16 もの 物 NOUN 名詞-普通名詞-サ変可能 _ 18 nsubj _ BunsetuBILabel=B|BunsetuPositionType=SEM_HEAD|LUWBILabel=B|LUWPOS=名詞-普通名詞-一般|SpaceAfter=No|UnidicInfo=,物,もの,もの,モノ,,,モノ,モノ,物
17 が が ADP 助詞-格助詞 _ 16 case _ BunsetuBILabel=I|BunsetuPositionType=SYN_HEAD|LUWBILabel=B|LUWPOS=助詞-格助詞|SpaceAfter=No|UnidicInfo=,が,が,が,ガ,,,ガ,ガ,が
18 使わ 使う VERB 動詞-一般-五段-ワア行 _ 0 root _ BunsetuBILabel=B|BunsetuPositionType=ROOT|LUWBILabel=B|LUWPOS=動詞-一般-五段-ワア行|SpaceAfter=No|UnidicInfo=,使う,使わ,使う,ツカワ,,,ツカウ,ツカウ,使う
19 れ れる AUX 助動詞-助動詞-レル _ 18 aux _ BunsetuBILabel=I|BunsetuPositionType=SYN_HEAD|LUWBILabel=B|LUWPOS=助動詞-助動詞-レル|SpaceAfter=No|UnidicInfo=,れる,れ,れる,レ,,,レル,レル,れる
20 た た AUX 助動詞-助動詞-タ _ 18 aux _ BunsetuBILabel=I|BunsetuPositionType=FUNC|LUWBILabel=B|LUWPOS=助動詞-助動詞-タ|SpaceAfter=No|UnidicInfo=,た,た,た,タ,,,タ,タ,た
21 。 。 PUNCT 補助記号-句点 _ 18 punct _ BunsetuBILabel=I|BunsetuPositionType=CONT|LUWBILabel=B|LUWPOS=補助記号-句点|UnidicInfo=,。,。,。,,,,,,。
ちなみに BCCWJ 版は元文章が conllu に含まれていない. BCCWJ の元データ https://clrd.ninjal.ac.jp/bccwj/ は取得がめんどい(有償 + 制約つき)んで, とりあえずは GSD のを使うとよいでしょうか.
品詞タグ
詳細は安岡先生 @KoichiYasuoka の Universal Dependencies の解説に詳しい.
世界のUniversal Dependenciesと係り受け解析ツール群
https://repository.kulib.kyoto-u.ac.jp/dspace/bitstream/2433/265505/1/3rdUD_yasuoka.pdf.pdf
英文品詞タグリスト
- ADJ 形容詞
- ADP 助詞
- ADV 副詞
- AUX 助動詞
- CCONJ 接続詞
- DET 連体詞
- INTJ 感動詞
- NOUN 普通名詞
- NUM 数詞
- PART 接尾辞
- PRON 代名詞
- PROPN 固有名詞
- PUNCT 句読点, 括弧
- SCONJ 助詞
- SYM 補助記号 (ナカマル?
・
など) - VERB 動詞
- X ?(予約語?)
さらなる高見へ
細かいところを見るのであれば, 日本語の名詞タグもあるので, そちらも見るようにする.
日本語の品詞については..
UniDic品詞体系
https://hayashibe.jp/tr/mecab/dictionary/unidic/pos
あたりが参考になるであろうか...
係り受け情報
T.B.W.