資料
12.4.6 照応解析 (Python による日本語自然言語処理)
照応の種類。
-
繰り返し
- 「おじいさんとおばあさんがいました。おじいさんは山へ...」
-
代名詞
- 「太郎君は学生です。彼は、...」
-
共参照
- 2 つ(もしくはそれ以上)の表現が現実世界(もしくは仮想世界)において同一の実体を指している場合には共参照(もしくは同一指示)の関係にあると言う。
-
省略
- 「おじいさんは地面に腰を下ろしました。やがて眠ってしまいました。」 後者の文では主語「おじいさんは」が省略されていると考えられるが、これはゼロ代名詞と呼ばれ、これも照応の一種である。
照応解析は、以下の2 つのステップから構成されるのが一般的である。
- 解析が必要な照応詞を特定する
- 先行詞を特定する
人手で作成された規則に基づく手法 [村田ら1996a] [村田ら1996b] では、名詞句の指示性をスコアリングし(ステップ1)、続いて、定名詞と分類された名詞句に対して同一指示関係を推定する(ステップ2)。
機械学習に基づく手法 [飯田ら2003] [飯田ら2004] では、照応詞と先行詞候補の語彙的な一致、品詞、固有表現タグ、距離などを素性として用いて、照応詞と先行詞候補が実際に照応関係にあるかどうかを直接分類している。
照応関係のタグがつけられたコーパスはそれほど多くはない。英語については、MUC(Message Understanding Conference)のMUC-6 とMUC-7 (http://www.itl.nist.gov/iaui/894.02/related_projects/muc/proceedings/muc_7_toc.html) において照応解析のタスクを扱っており、照応関係のタグ付き評価セットを用いることができる。日本語においては、先に述べた京都テキストコーパス Version 4.0 と NAIST テキストコーパスがある。笹野氏によって開発された「省略・照応解析」システムのデモが http://orchid.kuee.kyoto-u.ac.jp/~ryohei/zero_anaphora/index.cgi から利用できる。
ゼロ照応解析について
日本語いおける、特有のゼロ照応解析(省略)を紹介した。
背景知識
格文法
格文法は、動詞(さらには形容詞・名詞)とその深層格(動作主・場所・道具のような意味役割)との組み合わせから成るものとして文を分析しようとする理論である。
深層格
全ての言語に共通した、文意を表現する格。深層格推定法が確立した諸言語は中間言語方式の翻訳システムを構築することができる。 深層格は以下の8種である。
- 動作主格(Agent)
- 経験者格(Experiencer)
- 道具格(Instrument)
- 対象格(Object)
- 源泉格(Source)
- 目標格(Goal)
- 場所格(Location)
- 時間格(Time)
日本語表層格
日本語の表層格は以下のものをとる。
ガ格 | 「〜が」という形式で文に現れる。 |
---|---|
ヲ格 | 「〜を」という形式で文に現れる。 |
ニ格 | 「〜に」という形式で文に現れる。 |
カラ格 | 「〜から」という形式で文に現れる。 |
ヘ格 | 「〜へ」という形式で文に現れる。 |
ト格 | 「〜と」という形式で文に現れる。 |
ヨリ格 | 「〜より」という形式で文に現れる。 |
マデ格 | 「〜まで」という形式で文に現れる。 |
デ格 | 「〜で」という形式で文に現れる。 |
日本語における表層格と深層格の対応関係
深層格と表層格の対応を問題にする場合に、どちらが先かという疑問が生じる。生成を主に考えれば深層格から表層格へ、解析を主に考えれば表層格から深層格へということになる。どちらも必要なものではあるが、現時点ではまだ深層格そのものが固まっていな:いので、順序としてまず表層格を手がかりに深層格について検討することにした。
付表2.格格助詞を含む慣用句一覧
格助詞の用例のうち、慣用的表現の一部をなすものは調査対象からはず すということを33に述べたが、そこで慣用句とみなしたものを以下に掲 げる。助詞ごとに列挙したので、一つの慣用句中に複数の格助詞が含まれ る場合には、それぞれの場所に重複して現れる。なお()内は頻度を示 す。
- (1)ガ格の慣用表現 164例
- 目がさめる(5)、気/思い/感じがする㈲、気がつく⑬、が早いか(7>、きまりが 悪い(1>、穏がくらむ(3)、〈動詞〉がよい⑳、ことがある/ない⑯、ことができ る㈹、目がまわる(2)、方/のがよい/ましだetc(14>、骨が折れる(1)、気が違う (1)、が最後(1)、余念がない(3)、いとまがない(1)、見分けが付く(1)、見当がつく (5)
- (2)ヲ格の慣用表現 47例
- 穏をさます(6)、気をつける⑧、なだれを打つ(1)、気をもむ(1)、手に汗を握る ②、涙を呑む(D、気を失うω、ざるをえ(ない)(5)、首を長くして待つ(1)、年 をとる(2)、ごめんをこうむる(1)、頭角をあらわす(1)、やむを得ない(1)、櫛の歯 を引く(1)、腰をかける/おろす㈲、今を盛りと(D、耳をかたむける(3)、話に花 を咲かせる(1)、上を下への大騒ぎ(D、我を忘れる(2)、夜を日につぐ(1)、~を 〈形容詞語幹〉み(1)
- (3)二格の慣用表現 342例
- お~になる(216)、ことにする㈹、ことになる駒、〈連用形〉にする〔例:置き 回りにする〕(12)、わけにいく(4)、気にする(1)、気にとめる(1)、ために㈹、気に 入る②、気になる(1)、につれて・にしたがって⑳、お目にかける・ご覧に入れ る(5)、につけ(2)、目につく(3)、手に入れる(5>、に及ばない[必要がないの意] (i)、お屋にかかる(2)、手に汗を握
- (4)デ格の慣用表現 なし
- (5)ト格の慣用表現 127例
- へと(3)、となく・ともなく(9)、なんともない(1>、なにくれと(2>、という〔こと ごとくの意。例:武±という武士〕(4)、うとする・んとす(107)、とやら(1)
- (6)カラ格の慣絹表現 39例
- 片端から(9)、後から後から⑳、次から次へ・次から次と(5)、心から(5)
- (7)ヨリ格の慣用表現 6例
- それよりも(4)、より外(ない)(2)
- (8)へ格の潰摺表現 4例
- 次から次へ(4)
- (9)マデ格の慣用表現 18例
どこまでも(16)、までに(2)