2
0

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?

More than 1 year has passed since last update.

Universal Dependencies(CONLLU)での名詞タグのメモ

Posted at

背景

日本語 Universal Dependencies のタグづけデータ(CONLL-U format)から品詞をパースしたい.

たとえば GSD では以下のようなデータとなっている.

# newdoc id = dev-s1
# sent_id = dev-s1
# text = ただし、50周年ソングに変更後は、EDも歌つきのものが使われた。
1       ただし  但し    CCONJ   接続詞  _       18      cc      _       BunsetuBILabel=B|BunsetuPositionType=SEM_HEAD|LUWBILabel=B|LUWPOS=接続詞|SpaceAfter=No|UnidicInfo=,但し,ただし,ただし,タダシ,,,タダシ,タダシ,但し
2       、      、      PUNCT   補助記号-読点   _       1       punct   _       BunsetuBILabel=I|BunsetuPositionType=CONT|LUWBILabel=B|LUWPOS=補助記号-読点|SpaceAfter=No|UnidicInfo=,、,、,、,,,,,,、
3       50      50      NUM     名詞-数詞       _       5       compound        _       BunsetuBILabel=B|BunsetuPositionType=CONT|LUWBILabel=B|LUWPOS=名詞-普通名詞-一般|SpaceAfter=No|UnidicInfo=,五十,50,50,ゴジッ,,,ゴジュウ,ゴジッシュウネンソング,50周年ソング
4       周年    周年    NOUN    名詞-普通名詞-助数詞可能        _       5       compound        _       BunsetuBILabel=I|BunsetuPositionType=CONT|LUWBILabel=I|LUWPOS=名詞-普通名詞-一般|SpaceAfter=No|UnidicInfo=,周年,周年,周年,シューネン,,,シュウネン,ゴジッシュウネンソング,50周年ソング
5       ソング  ソング  NOUN    名詞-普通名詞-一般      _       8       obl     _       BunsetuBILabel=I|BunsetuPositionType=SEM_HEAD|LUWBILabel=I|LUWPOS=名詞-普通名詞-一般|SpaceAfter=No|UnidicInfo=,ソング,ソング,ソング,ソング,,,ソング,ゴジッシュウネンソング,50周年ソング
6       に      に      ADP     助詞-格助詞     _       5       case    _       BunsetuBILabel=I|BunsetuPositionType=SYN_HEAD|LUWBILabel=B|LUWPOS=助詞-格助詞|SpaceAfter=No|UnidicInfo=,に,に,に,ニ,,,ニ,ニ,に
7       変更    変更    NOUN    名詞-普通名詞-サ変可能  _       8       compound        _       BunsetuBILabel=B|BunsetuPositionType=CONT|LUWBILabel=B|LUWPOS=名詞-普通名詞-一般|SpaceAfter=No|UnidicInfo=,変更,変更,変更,ヘンコー,,,ヘンコウ,ヘンコウゴ,変更後
8       後      後      NOUN    接尾辞-名詞的-副詞可能  _       18      nsubj:outer     _       BunsetuBILabel=I|BunsetuPositionType=SEM_HEAD|LUWBILabel=I|LUWPOS=名詞-普通名詞-一般|SpaceAfter=No|UnidicInfo=,後,後,後,ゴ,,,ゴ,ヘンコウゴ,変更後
9       は      は      ADP     助詞-係助詞     _       8       case    _       BunsetuBILabel=I|BunsetuPositionType=SYN_HEAD|LUWBILabel=B|LUWPOS=助詞-係助詞|SpaceAfter=No|UnidicInfo=,は,は,は,ワ,,,ハ,ハ,は
10      、      、      PUNCT   補助記号-読点   _       8       punct   _       BunsetuBILabel=I|BunsetuPositionType=CONT|LUWBILabel=B|LUWPOS=補助記号-読点|SpaceAfter=No|UnidicInfo=,、,、,、,,,,,,、
11      ED      ED      NOUN    名詞-普通名詞-一般      _       18      nsubj:outer     _       BunsetuBILabel=B|BunsetuPositionType=SEM_HEAD|LUWBILabel=B|LUWPOS=名詞-普通名詞-一般|SpaceAfter=No|UnidicInfo=,ED,ED,ED,イーディー,,,イーディー,イーディー,ED
12      も      も      ADP     助詞-係助詞     _       11      case    _       BunsetuBILabel=I|BunsetuPositionType=SYN_HEAD|LUWBILabel=B|LUWPOS=助詞-係助詞|SpaceAfter=No|UnidicInfo=,も,も,も,モ,,,モ,モ,も
13      歌      歌      NOUN    名詞-普通名詞-一般      _       14      compound        _       BunsetuBILabel=B|BunsetuPositionType=CONT|LUWBILabel=B|LUWPOS=名詞-普通名詞-一般|SpaceAfter=No|UnidicInfo=,歌,歌,歌,ウタ,,,ウタ,ウタツキ,歌付き
14      つき    付き    NOUN    接尾辞-名詞的-一般      _       16      nmod    _       BunsetuBILabel=I|BunsetuPositionType=SEM_HEAD|LUWBILabel=I|LUWPOS=名詞-普通名詞-一般|SpaceAfter=No|UnidicInfo=,付き,つき,つき,ツキ,,,ツキ,ウタツキ,歌付き
15      の      の      ADP     助詞-格助詞     _       14      case    _       BunsetuBILabel=I|BunsetuPositionType=SYN_HEAD|LUWBILabel=B|LUWPOS=助詞-格助詞|SpaceAfter=No|UnidicInfo=,の,の,の,ノ,,,ノ,ノ,の
16      もの    物      NOUN    名詞-普通名詞-サ変可能  _       18      nsubj   _       BunsetuBILabel=B|BunsetuPositionType=SEM_HEAD|LUWBILabel=B|LUWPOS=名詞-普通名詞-一般|SpaceAfter=No|UnidicInfo=,物,もの,もの,モノ,,,モノ,モノ,物
17      が      が      ADP     助詞-格助詞     _       16      case    _       BunsetuBILabel=I|BunsetuPositionType=SYN_HEAD|LUWBILabel=B|LUWPOS=助詞-格助詞|SpaceAfter=No|UnidicInfo=,が,が,が,ガ,,,ガ,ガ,が
18      使わ    使う    VERB    動詞-一般-五段-ワア行   _       0       root    _       BunsetuBILabel=B|BunsetuPositionType=ROOT|LUWBILabel=B|LUWPOS=動詞-一般-五段-ワア行|SpaceAfter=No|UnidicInfo=,使う,使わ,使う,ツカワ,,,ツカウ,ツカウ,使う
19      れ      れる    AUX     助動詞-助動詞-レル      _       18      aux     _       BunsetuBILabel=I|BunsetuPositionType=SYN_HEAD|LUWBILabel=B|LUWPOS=助動詞-助動詞-レル|SpaceAfter=No|UnidicInfo=,れる,れ,れる,レ,,,レル,レル,れる
20      た      た      AUX     助動詞-助動詞-タ        _       18      aux     _       BunsetuBILabel=I|BunsetuPositionType=FUNC|LUWBILabel=B|LUWPOS=助動詞-助動詞-タ|SpaceAfter=No|UnidicInfo=,た,た,た,タ,,,タ,タ,た
21      。      。      PUNCT   補助記号-句点   _       18      punct   _       BunsetuBILabel=I|BunsetuPositionType=CONT|LUWBILabel=B|LUWPOS=補助記号-句点|UnidicInfo=,。,。,。,,,,,,。

ちなみに BCCWJ 版は元文章が conllu に含まれていない. BCCWJ の元データ https://clrd.ninjal.ac.jp/bccwj/ は取得がめんどい(有償 + 制約つき)んで, とりあえずは GSD のを使うとよいでしょうか.

品詞タグ

詳細は安岡先生 @KoichiYasuoka の Universal Dependencies の解説に詳しい.

世界のUniversal Dependenciesと係り受け解析ツール群
https://repository.kulib.kyoto-u.ac.jp/dspace/bitstream/2433/265505/1/3rdUD_yasuoka.pdf.pdf

英文品詞タグリスト

  • ADJ 形容詞
  • ADP 助詞
  • ADV 副詞
  • AUX 助動詞
  • CCONJ 接続詞
  • DET 連体詞
  • INTJ 感動詞
  • NOUN 普通名詞
  • NUM 数詞
  • PART 接尾辞
  • PRON 代名詞
  • PROPN 固有名詞
  • PUNCT 句読点, 括弧
  • SCONJ 助詞
  • SYM 補助記号 (ナカマル? など)
  • VERB 動詞
  • X ?(予約語?)

さらなる高見へ

細かいところを見るのであれば, 日本語の名詞タグもあるので, そちらも見るようにする.

日本語の品詞については..

UniDic品詞体系
https://hayashibe.jp/tr/mecab/dictionary/unidic/pos

あたりが参考になるであろうか...

係り受け情報

T.B.W.

2
0
0

Register as a new user and use Qiita more conveniently

  1. You get articles that match your needs
  2. You can efficiently read back useful information
  3. You can use dark theme
What you can do with signing up
2
0

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?