LoginSignup
32
19

More than 5 years have passed since last update.

JUMAN(辞書)を使い倒そう(名詞編)。

Last updated at Posted at 2017-12-14

なんでこんな記事書いた!言え!

世の中的には、JUMANは古くさくて、速度の早いmecabに固有表現に強いNEologdを載せて使ったり、kuromojiやJanomeのようなピュア○○系の形態素解析器1が流行りという印象を持たれていると思います。しかし、JUMANの辞書はこれらの辞書にはない豊富な語彙知識が記述されています。単語頻度の数え上げから一歩進んだ領域に行こうとすると、この知識にお世話になる局面が必ず出てくるはずです。
word2vecに始まるword embedding技術の流行により、研究領域では辞書として記述された語彙情報の必要性が薄れてきているのは事実だと思います。一方で、実用領域では人間が理解可能な形式で記述された語彙知識が強力な武器であることに変わりはないと思っています。
今回は語彙知識と有効に働く場面の紹介をしたいと思います。

代表表記

代表表記は簡単に言うと表記揺れ解消のための機能です。

$ juman
こども
こども こども こども 名詞 6 普通名詞 1 * 0 * 0 "代表表記:子供/こども カテゴリ:人"
EOS
子ども
子ども こども 子ども 名詞 6 普通名詞 1 * 0 * 0 "代表表記:子供/こども カテゴリ:人"
EOS
子供
子供 こども 子供 名詞 6 普通名詞 1 * 0 * 0 "代表表記:子供/こども カテゴリ:人"
EOS

JUMANに「こども」「子ども」「子供」を入力すると、このような結果が返ってきます。一番右側のダブルクォートで囲まれた部分が辞書の意味素と呼ばれている項目になります。この中に代表表記:子供/こどもという項目があります。つまりこの項目を参照することで「こども」「子ども」「子供」という表記が同一の表現の表記揺れだと判定することができます。
この例だと、読みの項目を使えばいいと思うかもしれませんが、下記の例では、代表表記を活用することでアメは飴であって、雨でないという判定をすることができます2

$ juman
アメ
アメ あめ アメ 名詞 6 普通名詞 1 * 0 * 0 "代表表記:飴/あめ カテゴリ:人工物-食べ物 ドメイン:料理・食事"
EOS
飴
飴 あめ 飴 名詞 6 普通名詞 1 * 0 * 0 "代表表記:飴/あめ カテゴリ:人工物-食べ物 ドメイン:料理・食事"
EOS
雨
雨 あめ 雨 名詞 6 普通名詞 1 * 0 * 0 "代表表記:雨/あめ 漢字読み:訓 カテゴリ:抽象物"
@ 雨 う 雨 名詞 6 普通名詞 1 * 0 * 0 "代表表記:雨/う 漢字読み:音 カテゴリ:抽象物"
EOS

ちなみに@で始まる行は、曖昧性のある解析結果を示していて、雨/あめなのか雨/うなのかはJUMAN単体では判定できず、KNPの処理でどちらが適当かを判定します。なお、雨/あめが上にあるのは単純にアイウエオ順なのでそちらの方が確信度が高いわけではないので注意しましょう。

$ juman | knp -tab
雨が降った
# S-ID:1 KNP:4.17-CF1.1 DATE:2017/11/23 SCORE:-5.31832
* 1D <文頭><ガ><助詞><体言><一文字漢字><係:ガ格><区切:0-0><格要素><連用要素><正規化代表表記:雨/あめ?雨/う><主辞代表表記:雨/あめ?雨/う>
+ 1D <文頭><ガ><助詞><体言><一文字漢字><係:ガ格><区切:0-0><格要素><連用要素><名詞項候補><先行詞候補><正規化代表表記:雨/あめ?雨/う><解析格:ガ>
雨 あめ 雨 名詞 6 普通名詞 1 * 0 * 0 "代表表記:雨/あめ 漢字読み:訓 カテゴリ:抽象物" <代表表記:雨/あめ><漢字読み:訓><カテゴリ:抽象物><正規化代表表記:雨/あめ?雨/う><品曖><ALT-雨-う-雨-6-1-0-0-"代表表記:雨/う 漢字読み:音 カテゴリ:抽象物"><品曖-普通名詞><原形曖昧><文頭><漢字><かな漢字><名詞相当語><自立><内容語><タグ単\\
位始><文節始><文節主辞><名詞曖昧性解消>
が が が 助詞 9 格助詞 1 * 0 * 0 NIL <かな漢字><ひらがな><付属>
* -1D <文末><時制-過去><用言:動><レベル:C><区切:5-5><ID:(文末)><提題受:30><主節><動態述語><正規化代表表記:降る/ふる><主辞代表表記:降る/ふる>
+ -1D <文末><時制-過去><用言:動><レベル:C><区切:5-5><ID:(文末)><提題受:30><主節><動態述語><正規化代表表記:降る/ふる><用言代表表記:降る/ふる><主題格:一人称優位><格関係0:ガ:雨><格解析結果::降る/ふる:動1ガ/C/雨/0/0/1;ヲ/U/-/-/-/-;ニ/U/-/-/-/-;ト/U/-/-/-/-;デ/U/-/-/-/-;カラ/U/-/-/-/-;ヨリ/U/-/-/-/-;マデ/U/-/-/-/-;ヘ/\
U/-/-/-/-;時間/U/-/-/-/-;外の関係/U/-/-/-/-;修飾/U/-/-/-/-;ノ/U/-/-/-/-;ガ2/U/-/-/-/-;ニヨル/U/-/-/-/-;ニカギル/U/-/-/-/-;ニツヅク/U/-/-/-/-;トスル/U/-/-/-/-;トイウ/U/-/-/-/-;ヲツウジル/U/-/-/-/->
降った ふった 降る 動詞 2 * 0 子音動詞ラ行 10 タ形 10 "代表表記:降る/ふる 反義:動詞:止む/やむ;動詞:上がる/あがる" <代表表記:降る/ふる><反義:動詞:止む/やむ;動詞:上がる/あがる><正規化代表表記:降る/ふる><文末><表現文末><かな漢字><活用語><自立><内容語><タグ単位始><文節始><文節主辞>
EOS

KNPの解析結果では、形態素としては雨/あめが選ばれていて、<ALT-雨-う…というところに可能性のあった形態素の情報が入れ込まれています。

代表表記は「代表」と名乗っていますが、その漢字部分が代表的な表記というわけではないので、表記揺れの結果の表示に最適というわけではない点に注意です。例えば、すきやきの代表表記は鋤焼き/すきやきなので、漢字だけでは一瞬何のことか分からないと思います。

正規化代表表記

KNPでは、基本句内または文節内の代表表記をまとめる形で、「正規化代表表記」という素性が基本句まおよび文節に付与されています。
ですが、基本的に内容語の代表表記しか拾わないために、接頭辞、接尾辞などは捨てられてしまうので、少し気持ち悪いかもしれません。お子様ランチの正規化代表表記は子/こ?子/し+ランチ/らんちになります。
必要に応じて、形態素の代表表記からマイ正規化代表表記を作ることをお勧めします。

$ juman | knp -tab
お子様ランチを食べた。
# S-ID:1 KNP:4.18-CF1.1 DATE:2017/11/23 SCORE:-7.55288
* 1D <文頭><ヲ><助詞><体言><係:ヲ格><区切:0-0><格要素><連用要素><正規化代表表記:子/こ?子/し+ランチ/らんち><主辞代表表記:ランチ/らんち>
+ 1D <文節内><係:文節内><文頭><人名><体言><名詞項候補><先行詞候補><SM-人><SM-主体><正規化代表表記:子/こ?子/し>
お お お 接頭辞 13 名詞接頭辞 1 * 0 * 0 "代表表記:御/お" <代表表記:御/お><正規化代表表記:御/お><文頭><かな漢字><ひらがな><接頭><非独立接頭辞><タグ単位始><文節始>
子 こ 子 名詞 6 普通名詞 1 * 0 * 0 "代表表記:子/こ 漢字読み:訓 カテゴリ:人 ドメイン:家庭・暮らし" <代表表記:子/こ><漢字読み:訓><カテゴリ:人><ドメイン:家庭・暮らし><正規化代表表記:子/こ?子/し><品曖><ALT-子-し-子-6-1-0-0-"代表表記:子/し 漢字読み:音 カテゴリ:人"><品曖-普通名詞><原形曖昧><漢字><かな漢字><名詞相当語><自\
立><内容語>
様 さま 様 接尾辞 14 名詞性名詞接尾辞 2 * 0 * 0 "代表表記:様/さま" <代表表記:様/さま><正規化代表表記:様/さま><呼掛><漢字><かな漢字><名詞相当語><付属><複合←>
+ 2D <ヲ><助詞><体言><係:ヲ格><区切:0-0><格要素><連用要素><名詞項候補><先行詞候補><正規化代表表記:ランチ/らんち><解析格:ヲ>
ランチ らんち ランチ 名詞 6 普通名詞 1 * 0 * 0 "代表表記:ランチ/らんち カテゴリ:人工物-食べ物 ドメイン:料理・食事" <代表表記:ランチ/らんち><カテゴリ:人工物-食べ物><ドメイン:料理・食事><正規化代表表記:ランチ/らんち><記英数カ><カタカナ><名詞相当語><自立><複合←><内容語><タグ単位始><固有キー><文節主辞>
を を を 助詞 9 格助詞 1 * 0 * 0 NIL <かな漢字><ひらがな><付属>
* -1D <文末><時制-過去><句点><用言:動><レベル:C><区切:5-5><ID:(文末)><係:文末><提題受:30><主節><格要素><連用要素><動態述語><正規化代表表記:食べる/たべる><主辞代表表記:食べる/たべる>
+ -1D <文末><時制-過去><句点><用言:動><レベル:C><区切:5-5><ID:(文末)><係:文末><提題受:30><主節><格要素><連用要素><動態述語><正規化代表表記:食べる/たべる><用言代表表記:食べる/たべる><主題格:一人称優位><格関係1:ヲ:ランチ><格解析結果::食べる/たべる:動1ガ/U/-/-/-/-;ヲ/C/ランチ/1/0/1;ニ/U/-/-/-/-;ト/U/-/-/-/-;デ/U/-/-\
/-/-;カラ/U/-/-/-/-;ヨリ/U/-/-/-/-;マデ/U/-/-/-/-;ヘ/U/-/-/-/-;時間/U/-/-/-/-;外の関係/U/-/-/-/-;修飾/U/-/-/-/-;ノ/U/-/-/-/-;トスル/U/-/-/-/-;ニヨル/U/-/-/-/-;ニツク/U/-/-/-/-;トイウ/U/-/-/-/-;ニナラブ/U/-/-/-/-;ニツヅク/U/-/-/-/-;ニアワセル/U/-/-/-/->
食べた たべた 食べる 動詞 2 * 0 母音動詞 1 タ形 10 "代表表記:食べる/たべる ドメイン:料理・食事" <代表表記:食べる/たべる><ドメイン:料理・食事><正規化代表表記:食べる/たべる><表現文末><かな漢字><活用語><自立><内容語><タグ単位始><文節始><文節主辞>
。 。 。 特殊 1 句点 1 * 0 * 0 NIL <文末><英記号><記号><付属>
EOS

主辞代表表記と主辞’代表表記

複合語の語彙の意味を捉えるのに主辞の情報だけを使えばいい場面というのは多いです(後述のカテゴリなど)。代表表記もその例に漏れず、KNPでは文節に対して主辞の代表表記をとってきた、主辞代表表記という素性が付与されています。

$ juman | knp -tab
京都大学は京都人が多い。
# S-ID:1 KNP:4.18-CF1.1 DATE:2017/12/02 SCORE:-11.29804
* 2D <文頭><組織名><ハ><助詞><体言><係:未格><提題><区切:3-5><主題表現><格要素><連用要素><正規化代表表記:京都/きょうと+大学/だいがく><主辞代表表記:大学/だいがく>
+ 1D <文節内><係:文節内><文頭><地名疑><体言><名詞項候補><先行詞候補><正規化代表表記:京都/きょうと><NE内:ORGANIZATION>
京都 きょうと 京都 名詞 6 地名 4 * 0 * 0 "代表表記:京都/きょうと 地名:日本:府" <代表表記:京都/きょうと><地名:日本:京都府:市><正規化代表表記:京都/きょうと><品曖><ALT-京都-きょうと-京都-6-4-0-0-"代表表記:京都/きょうと 地名:日本:京都府:市"><品曖-地名><文頭><漢字><かな漢字><名詞相当語><自立><内容語><タグ単位始><文節始>\
<固有キー><NE:ORGANIZATION:B>
+ 4D <組織名><ハ><助詞><体言><係:未格><提題><区切:3-5><主題表現><格要素><連用要素><名詞項候補><先行詞候補><SM-組織><SM-主体><正規化代表表記:大学/だいがく><NE:ORGANIZATION:京都大学><解析格:ガ2>
大学 だいがく 大学 名詞 6 普通名詞 1 * 0 * 0 "代表表記:大学/だいがく 組織名末尾 カテゴリ:場所-施設 ドメイン:教育・学習" <代表表記:大学/だいがく><組織名末尾><カテゴリ:場所-施設><ドメイン:教育・学習><正規化代表表記:大学/だいがく><漢字><かな漢字><名詞相当語><自立><複合←><内容語><タグ単位始><文節主辞><NE:ORGANIZATION:\
E>
は は は 助詞 9 副助詞 2 * 0 * 0 NIL <かな漢字><ひらがな><付属>
* 2D <ガ><助詞><体言><係:ガ格><区切:0-0><格要素><連用要素><正規化代表表記:京都/きょうと+人/じん?人/ひと><主辞代表表記:人/じん?人/ひと><主辞’代表表記:京都/きょうと+人/じん?人/ひと>
+ 3D <文節内><係:文節内><地名疑><体言><名詞項候補><先行詞候補><正規化代表表記:京都/きょうと><NE:LOCATION:京都>
京都 きょうと 京都 名詞 6 地名 4 * 0 * 0 "代表表記:京都/きょうと 地名:日本:府" <代表表記:京都/きょうと><地名:日本:京都府:市><正規化代表表記:京都/きょうと><品曖><ALT-京都-きょうと-京都-6-4-0-0-"代表表記:京都/きょうと 地名:日本:京都府:市"><品曖-地名><漢字><かな漢字><名詞相当語><自立><内容語><タグ単位始><文節始><固有\\
キー><NE:LOCATION:S>
+ 4D <ガ><助詞><体言><係:ガ格><区切:0-0><格要素><連用要素><SM-主体><SM-人><一文字漢字><名詞項候補><先行詞候補><正規化代表表記:人/じん?人/ひと><解析格:ガ>
人 じん 人 名詞 6 普通名詞 1 * 0 * 0 "代表表記:人/じん 漢字読み:音 カテゴリ:人" <代表表記:人/じん><漢字読み:音><カテゴリ:人><正規化代表表記:人/じん?人/ひと><品曖><ALT-人-ひと-人-6-1-0-0-"代表表記:人/ひと 漢字読み:訓 カテゴリ:人"><品曖-普通名詞><原形曖昧><漢字><かな漢字><名詞相当語><自立><複合←><内容語><タグ単位始>\
<文節主辞><名詞曖昧性解消>
が が が 助詞 9 格助詞 1 * 0 * 0 NIL <かな漢字><ひらがな><付属>
* -1D <文末><句点><用言:形><レベル:C><区切:5-5><ID:(文末)><係:文末><提題受:30><主節><格要素><連用要素><状態述語><正規化代表表記:多い/おおい><主辞代表表記:多い/おおい>
+ -1D <文末><句点><用言:形><レベル:C><区切:5-5><ID:(文末)><係:文末><提題受:30><主節><格要素><連用要素><状態述語><正規化代表表記:多い/おおい><用言代表表記:多い/おおい><時制-現在><時制-無時制><主題格:一人称優位><格関係1:ガ2:大学><格関係3:ガ:人><格解析結果::多い/おおい:形2ガ/C/人/3/0/1;ニ/U/-/-/-/-;ト/U/-/-/-/-;デ/\
U/-/-/-/-;カラ/U/-/-/-/-;ヨリ/U/-/-/-/-;マデ/U/-/-/-/-;ヘ/U/-/-/-/-;時間/U/-/-/-/-;外の関係/U/-/-/-/-;ノ/U/-/-/-/-;修飾/U/-/-/-/-;ガ2/N/大学/1/0/1;トスル/U/-/-/-/-;ニクラベル/U/-/-/-/-;トイウ/U/-/-/-/-;ニカギル/U/-/-/-/-;ヲハジメル/U/-/-/-/-;ニカギルヌ/U/-/-/-/-;ヲフクメル/U/-/-/-/->
多い おおい 多い 形容詞 3 * 0 イ形容詞アウオ段 18 基本形 2 "代表表記:多い/おおい 反義:形容詞:少ない/すくない" <代表表記:多い/おおい><反義:形容詞:少ない/すくない><正規化代表表記:多い/おおい><表現文末><かな漢字><活用語><自立><内容語><タグ単位始><文節始><文節主辞>
。 。 。 特殊 1 句点 1 * 0 * 0 NIL <文末><英記号><記号><付属>
EOS

「京都大学」の文節には<主辞代表表記:大学/だいがく>が付与されていて、「京都人」の文節には<主辞代表表記:人/じん?人/ひと>が付与されています。
では、「京都人」に付与された<主辞’代表表記:京都/きょうと+人/じん?人/ひと>はなんでしょう?
主辞が漢字一文字の場合には、意味を表現する単位としてあまりに小さいだろうということで、主辞の一個前の形態素の代表表記を合わせて主辞’代表表記としているのです。KNPの格解析ぐらいでしかまともに使われてるの見たことないですけど。

カテゴリ

単語のおおまかな分類。「人」「動物」「組織・団体」など22のカテゴリが存在しています。基本的には名詞にだけ付与されています。
下記の例だと、のカテゴリがで、のカテゴリが人工物-食べ物です。

$ juman
僕が飴を食べた。
僕 ぼく 僕 名詞 6 普通名詞 1 * 0 * 0 "代表表記:僕/ぼく 漢字読み:音 カテゴリ:人"
が が が 助詞 9 格助詞 1 * 0 * 0 NIL
飴 あめ 飴 名詞 6 普通名詞 1 * 0 * 0 "代表表記:飴/あめ カテゴリ:人工物-食べ物 ドメイン:料理・食事"
を を を 助詞 9 格助詞 1 * 0 * 0 NIL
食べた たべた 食べる 動詞 2 * 0 母音動詞 1 タ形 10 "代表表記:食べる/たべる ドメイン:料理・食事"
。 。 。 特殊 1 句点 1 * 0 * 0 NIL
EOS

名詞には文脈によってカテゴリが変化するようなものがあり、その場合には両方のカテゴリが付与されています。
例えば、会社にはカテゴリ:組織・団体;場所-施設というように、組織・団体場所-施設の2つのカテゴリが付与されている。
これは「会社」が1文目のような組織としての性質と2文目のような場所としての性質を併せもっていることを表現している。
他にはリンゴなどのの「植物;人工物-食べ物」などがある。

$ juman
会社の決定に従った。
会社 かいしゃ 会社 名詞 6 普通名詞 1 * 0 * 0 "代表表記:会社/かいしゃ カテゴリ:組織・団体;場所-施設 ドメイン:ビジネス"
の の の 助詞 9 接続助詞 3 * 0 * 0 NIL
決定 けってい 決定 名詞 6 サ変名詞 2 * 0 * 0 "代表表記:決定/けってい 補文ト カテゴリ:抽象物"
に に に 助詞 9 格助詞 1 * 0 * 0 NIL
従った したがった 従う 動詞 2 * 0 子音動詞ワ行 12 タ形 10 "代表表記:従う/したがう 自他動詞:他:従える/したがえる"
。 。 。 特殊 1 句点 1 * 0 * 0 NIL
EOS
会社に行った。
会社 かいしゃ 会社 名詞 6 普通名詞 1 * 0 * 0 "代表表記:会社/かいしゃ カテゴリ:組織・団体;場所-施設 ドメイン:ビジネス"
に に に 助詞 9 格助詞 1 * 0 * 0 NIL
行った いった 行く 動詞 2 * 0 子音動詞カ行促音便形 3 タ形 10 "代表表記:行く/いく 付属動詞候補(タ系) ドメイン:交通 反義:動詞:帰る/かえる"
@ 行った おこなった 行う 動詞 2 * 0 子音動詞ワ行 12 タ形 10 "代表表記:行う/おこなう"
。 。 。 特殊 1 句点 1 * 0 * 0 NIL
EOS

単純に多義語のために、複数カテゴリが付与されている場合もあります。

$ juman
ビート
ビート びーと ビート 名詞 6 普通名詞 1 * 0 * 0 "代表表記:ビート/びーと カテゴリ:植物;抽象物 ドメイン:料理・食事;文化・芸術 多義"
EOS
マウス
マウス まうす マウス 名詞 6 普通名詞 1 * 0 * 0 "代表表記:マウス/まうす カテゴリ:動物;動物-部位;人工物-その他 ドメイン:科学・技術"
EOS

ビートの例のように意味素に多義と書いてることもありますが、マスウのようにない場合もあります。そもそも多義の定義って連続的で難しいんですけどね3
カテゴリの分類は22種類と荒いがうまく使うと、意味的な解釈がしやすい語彙集合として使える。
私的な例で恐縮ですが、弊社のウェザーリポートというサービスで、食べ物と体感の関係を調べた時にも、このカテゴリを使うと簡単に食べ物を集めたりしました。YANSでデモした時にも、「どうやって食べ物だけ集めてきたんですか?」という質問が多かったので、NLPerでもどうやったかを知りたがった問題を、辞書の情報一つでパっと解決できるのはいいことだと思っています。
もちろん、word2vecとかで頑張ってもいいんでしょうが、手軽さではカテゴリを使うことをお勧めします。

ただ、あらゆる語彙を22個のカテゴリに押し込んでいるので、多少無理があって、「鬼」のカテゴリが「人間」だったりとやや直感から外れるようなところもあるので注意が必要。
先程のデモでは、体感に合った食べ物を推薦するはずなのに「飼料」や「下剤」を推薦したりしていたので、多少フィルタリングが必要でした。

なお、「抽象物」に約半数の単語が入っている4。流石にアレだと思って、細分類の取り組んで爆死したのもいいトラウマ5

複合語の場合

カテゴリは形態素単位に付与されているので、複合語のカテゴリは別途考える必要があります。
が、9割方は複合語の主辞のカテゴリを取ってこれば解決します。

$ juman | knp -tab
カレーパン
# S-ID:1 KNP:4.18-CF1.1 DATE:2017/11/25 SCORE:-1.94218
* -1D <文頭><文末><体言><用言:判><体言止><レベル:C><区切:5-5><ID:(文末)><裸名詞><提題受:30><主節><状態述語><正規化代表表記:カレー/かれー+パン/ぱん><主辞代表表記:パン/ぱん>
+ 1D <文節内><係:文節内><文頭><体言><名詞項候補><先行詞候補><正規化代表表記:カレー/かれー>
カレー かれー カレー 名詞 6 普通名詞 1 * 0 * 0 "代表表記:カレー/かれー カテゴリ:人工物-食べ物 ドメイン:料理・食事" <代表表記:カレー/かれー><カテゴリ:人工物-食べ物><ドメイン:料理・食事><正規化代表表記:カレー/かれー><文頭><記英数カ><カタカナ><名詞相当語><自立><内容語><タグ単位始><文節始><固有キー>
+ -1D <文末><体言><用言:判><体言止><レベル:C><区切:5-5><ID:(文末)><裸名詞><提題受:30><主節><状態述語><判定詞><名詞項候補><先行詞候補><正規化代表表記:パン/ぱん><用言代表表記:パン/ぱん><Wikipedia上位語:惣菜パン><Wikipediaエントリ:カレーパン><時制-無時制><格解析結果::パン/ぱん:判0ガ/U/-/-/-/-;ニ/U/-/-/-/-;ト/U/-/-/-\
/-;デ/U/-/-/-/-;カラ/U/-/-/-/-;ヨリ/U/-/-/-/-;マデ/U/-/-/-/-;時間/U/-/-/-/-;ノ/U/-/-/-/-;修飾/U/-/-/-/-;ガ2/U/-/-/-/-;トイウ/U/-/-/-/-;ニトル/U/-/-/-/-;ニヨル/U/-/-/-/-;外の関係/U/-/-/-/->
パン ぱん パン 名詞 6 普通名詞 1 * 0 * 0 "代表表記:パン/ぱん カテゴリ:人工物-食べ物 ドメイン:料理・食事" <代表表記:パン/ぱん><カテゴリ:人工物-食べ物><ドメイン:料理・食事><正規化代表表記:パン/ぱん><文末><Wikipedia上位語:惣菜パン:0-1><Wikipediaエントリ:カレーパン:0-1><表現文末><記英数カ><カタカナ><名詞相当語><自立><\\
複合←><内容語><タグ単位始><固有キー><文節主辞>
EOS
カレーパンマン
# S-ID:2 KNP:4.18-CF1.1 DATE:2017/11/25 SCORE:-1.14652
* -1D <文頭><文末><体言><用言:判><体言止><レベル:C><区切:5-5><ID:(文末)><裸名詞><提題受:30><主節><状態述語><正規化代表表記:カレー/かれー+パン/ぱん+マン/まん><主辞代表表記:マン/まん>
+ 1D <文節内><係:文節内><文頭><体言><名詞項候補><先行詞候補><正規化代表表記:カレー/かれー>
カレー かれー カレー 名詞 6 普通名詞 1 * 0 * 0 "代表表記:カレー/かれー カテゴリ:人工物-食べ物 ドメイン:料理・食事" <代表表記:カレー/かれー><カテゴリ:人工物-食べ物><ドメイン:料理・食事><正規化代表表記:カレー/かれー><文頭><記英数カ><カタカナ><名詞相当語><自立><内容語><タグ単位始><文節始><固有キー>
+ 2D <文節内><係:文節内><体言><名詞項候補><先行詞候補><正規化代表表記:パン/ぱん><Wikipedia上位語:惣菜パン><Wikipediaエントリ:カレーパン>
パン ぱん パン 名詞 6 普通名詞 1 * 0 * 0 "代表表記:パン/ぱん カテゴリ:人工物-食べ物 ドメイン:料理・食事" <代表表記:パン/ぱん><カテゴリ:人工物-食べ物><ドメイン:料理・食事><正規化代表表記:パン/ぱん><Wikipedia上位語:惣菜パン:0-1><Wikipediaエントリ:カレーパン:0-1><記英数カ><カタカナ><名詞相当語><自立><複合←><内容語><\\
タグ単位始><固有キー>
+ -1D <文末><体言><用言:判><体言止><レベル:C><区切:5-5><ID:(文末)><裸名詞><提題受:30><主節><状態述語><SM-主体><SM-人><判定詞><名詞項候補><先行詞候補><正規化代表表記:マン/まん><用言代表表記:マン/まん><時制-無時制><格解析結果::マン/まん:判0ガ/U/-/-/-/-;ヲ/U/-/-/-/-;ニ/U/-/-/-/-;ト/U/-/-/-/-;デ/U/-/-/-/-;カラ/U/-/-/\
-/-;ヨリ/U/-/-/-/-;マデ/U/-/-/-/-;ヘ/U/-/-/-/-;時間/U/-/-/-/-;外の関係/U/-/-/-/-;修飾/U/-/-/-/-;ノ/U/-/-/-/-;ガ2/U/-/-/-/-;ニトル/U/-/-/-/-;トスル/U/-/-/-/-;ニタイスル/U/-/-/-/->
マン まん マン 名詞 6 普通名詞 1 * 0 * 0 "代表表記:マン/まん カテゴリ:人" <代表表記:マン/まん><カテゴリ:人><正規化代表表記:マン/まん><文末><表現文末><記英数カ><カタカナ><名詞相当語><自立><複合←><内容語><タグ単位始><固有キー><文節主辞>
EOS

カレーパンのカテゴリは主辞のパン人工物-食べ物カレーパンマンのカテゴリの場合はマンでそれほど違和感がないと思います。
例外もあることにはありますが、固有表現以外なら、ほとんど気がついたベースで例外処理を書けばいいレベルだと思います。

ドメイン

ドメインとは語がよく使われる話題のおおまかな分類で、「スポーツ」「料理・食事」などの12に分類がある。当時の目論見としては、カテゴリとドメインを縦糸と横糸のような関係とすれば、語の性質をそれなりに表現できるのではないか、という考えだったはず。
感覚的には、word2vec系で得られる分散表現がカテゴリに近くて、LDAの語のトピックへの所属確率がドメインに近い気がします。

$ juman 
パソコン
パソコン ぱそこん パソコン 名詞 6 普通名詞 1 * 0 * 0 "代表表記:パソコン/ぱそこん カテゴリ:人工物-その他 ドメイン:科学・技術"
EOS
切り下げる
切り下げる きりさげる 切り下げる 動詞 2 * 0 母音動詞 1 基本形 2 "代表表記:切り下げる/きりさげる ドメイン:ビジネス"
EOS
塩辛い
塩辛い しおからい 塩辛い 形容詞 3 * 0 イ形容詞アウオ段 18 基本形 2 "代表表記:塩辛い/しおからい ドメイン:料理・食事"
EOS

カテゴリと違い、名詞だけでなく動詞や形容詞にも付与されています。

ただ、カテゴリと違って、こちらはあんまり積極的に使っている例を見たことがない気がします。ドメインが作られたすぐ後ぐらいから、LDAが流行って、トピックはそっちで扱えるようになったのが大きいと思います。あとは、ドメイン跨いだ研究自体が少ないことも影響しているかもしれません。
まったく使えないということもないと思うので、頭の片隅に置いておいて、必要に応じて使えばいいと思います。

反義

そのまま反対の意味の言葉です。
なぜわざわざ書くのかというと、分布類似度系の手法で反義を区別するのが難しい6からです。反義の言葉というのは、意味の特定の部分においては反対ですが、逆に言うと文法的性質は文脈での登場が非常に似ることが多いため、分布類似度が非常に高くなってしまいます。辞書的に反義を定義しておくことで、最低限このペアを同義にすることは避けられますし、反義をどの程度同義にしてしまっているかのベンチマークにも使えるはずです。

味方 みかた 味方 名詞 6 サ変名詞 2 * 0 * 0 "代表表記:味方/みかた 〜を〜に構成語 カテゴリ:人 反義:名詞-普通名詞:敵/てき"
EOS
応募する
応募 おうぼ 応募 名詞 6 サ変名詞 2 * 0 * 0 "代表表記:応募/おうぼ カテゴリ:抽象物 反義:名詞-サ変名詞:募集/ぼしゅう"
する する する 動詞 2 * 0 サ変動詞 16 基本形 2 "代表表記:する/する 付属動詞候補(基本) 自他動詞:自:成る/なる"
EOS
暖かい
暖かい あたたかい 暖かい 形容詞 3 * 0 イ形容詞アウオ段 18 基本形 2 "代表表記:暖かい/あたたかい 反義:形容詞:涼しい/すずしい"
EOS

もうゴールしてもいいよね…

本当は名詞だけじゃなくて、動詞もやろうと思ったのですが、例が多いのもあって、思った以上の分量になってきたので、名詞だけにしておきます(と言うか飽きてきた)。
動詞にも敬語の情報や反対語の情報など、使いこなすと面白い語彙情報が結構入っていますので、興味のある方は調べてみてください。
Murawakiさんのページがいいと思います。と言うか基本的Murawakiさんのページの方が詳しいです。

JUMANの語彙数は他の形態素解析向け辞書に比べて少ないですが、実は以前は今よりもっと多い語彙が入っていました。あるタイミングで語彙の情報をよりリッチにするために、現在の語数まで減らしたうえで、様々な語彙情報を付与する方針に切り替えました7。個人的には、構成性などをうまく使うなら下手に語彙数が多いだけの辞書よりは使いやすいと思っています。
それでもやっぱりNEologdの固有表現を使いたい、という方はMitsuzawaさんの記事を参考にどうぞ。

何も考えずに、KNPの-tab出力ペタペタ貼って記事作りましたが、普通の人はこの出力読むの大変なんだった。。。
あと、多分誰も気付いてないですが、書いてる途中でKNPのバージョンを4.17から4.18に上げました。


  1. そもそも形態素解析器として使っている人はほとんどいなくて、単語分割+レンマ化器と言った方がいい気もします。 

  2. 後ろのカテゴリやドメインでも分かるとか言わないで。 

  3. コンピュータのマウスは、鼠の意味のマウスからの派生とも言えます。こういった派生の場合、どこまでがメタファー的で、どこからがもはや別語義なのかの定義は不可能と言えます。 

  4. 通称カテゴリのゴミ捨て場。ちなみに副詞が品詞のゴミ捨て場だったはず。 

  5. D1をこの研究に費やした結果、Dに4年かかったのではとか言ってはいけない。 

  6. とされていてembedding初期にも色々言われてた気がしますが、実はもう解決してるかも。。。 

  7. 元々なのか、この時にバイアスが働いたのか、JUMAN辞書は微妙に関西弁がリッチという説がある(僕自身が関西人なので逆によく分からないのですが)。 

32
19
0

Register as a new user and use Qiita more conveniently

  1. You get articles that match your needs
  2. You can efficiently read back useful information
  3. You can use dark theme
What you can do with signing up
32
19