品詞付与タスク
形態素解析の主たる機能はおおきく以下の3つにわかれます。
- 分割
- 品詞付与
- 語形処理
それぞれ、テキストから語 (形態素) への分割、分割した語への名詞や動詞などの品詞の付与、活用や語形変化の正規化などをおこないます。日本語ではまとめて形態素解析として処理されることが一般的ですが、日本語以外の言語ではそれぞれのタスクをべつのツールで処理することもひろくおこなわれています。
とくに英語では分割タスクは比較的容易なものの、同形でことなる品詞をもつ語が頻出するため品詞付与 (Part of speech tagging) のタスクが重要になります。
Time | flies | like | an | arrow |
---|---|---|---|---|
NN | VBZ | IN | DET | NN |
「光陰矢のごとし」と訳される英文ですが flies が動詞「飛ぶ」と名詞「ハエ」、like が前置詞「~のように」と動詞「好む」の曖昧性をもつため、適切に品詞付与をおこなわないと「時蝿は矢を好む」のようなまちがった解釈になってしまいます。英語における品詞付与は単なる単語 n-gram だけでは解けず統語構造や語の選好といったことまで考慮する必要のあるむずかしい問題です。そのためこれまでにさまざまな POS tagger が提案、開発されています。
可能性に基づく品詞体系とは
さて、日本語の形態素解析ではこの品詞付与の問題はどのようにあつかわれているでしょうか。
英語のように目立ちはしませんが日本語でも同形で品詞がことなる曖昧性は存在します。
- 今日の天気は晴れです。 ...(1)
- 今日、健は奈緒美に会いました。 ...(2)
(1) の「今日」は名詞として助詞「の」をともない連体修飾部になります。(2) は単独で「会いました」にかかり連用修飾部になる副詞です。
では Sudachi の解析結果をみてみましょう。
今日 名詞,普通名詞,副詞可能,*,*,* 今日
の 助詞,格助詞,*,*,*,* の
天気 名詞,普通名詞,一般,*,*,* 天気
は 助詞,係助詞,*,*,*,* は
晴れ 名詞,普通名詞,一般,*,*,* 晴れ
です 助動詞,*,*,*,助動詞-デス,終止形-一般 です
。 補助記号,句点,*,*,*,* 。
EOS
今日 名詞,普通名詞,副詞可能,*,*,* 今日
、 補助記号,読点,*,*,*,* 、
健 名詞,固有名詞,人名,名,*,* 健
は 助詞,係助詞,*,*,*,* は
奈緒美 名詞,固有名詞,人名,名,*,* 奈緒美
に 助詞,格助詞,*,*,*,* に
会い 動詞,一般,*,*,五段-ワア行,連用形-一般 会う
まし 助動詞,*,*,*,助動詞-マス,連用形-一般 ます
た 助動詞,*,*,*,助動詞-タ,終止形-一般 た
。 補助記号,句点,*,*,*,* 。
EOS
どちらも「名詞-普通名詞-副詞可能」になっています。
これが UniDic や ipadic で採用されている「可能性に基づく品詞体系」です。形態素解析の段階で曖昧性のある場合、どちらかに決めるのではなく「名詞 or 副詞」のように曖昧性をそのまま出力することで係り受け解析などの後段処理でより適切な結果を採択することを意図しています。
Sudachi が利用している UniDic の品詞体系ではこの他にも「名詞-普通名詞-サ変可能」「動詞-非自立可能」など可能がつく品詞がいくつかあります。これらはすべて曖昧性をもたせた品詞です。
UniDic 品詞体系はおおむね学校文法に準拠していますが、形容動詞については活用語尾を切り離し、語幹を「形状詞」としています。
静か 形状詞,一般,*,*,*,* 静か
に 助動詞,*,*,*,助動詞-ダ,連用形-ニ だ
なる 動詞,非自立可能,*,*,五段-ラ行,終止形-一般 成る
。 補助記号,句点,*,*,*,* 。
このことで助動詞「だ」にも曖昧性が生じます。
- (危険なものがまじっている中で指をさして) それは安全だ。 ...(3-a)
- (大切なものはなにかという問いかけに答えて) それは安全だ。 ...(3-b)
学校文法では (3-a) の「安全だ」は形容動詞、(3-b) は名詞「安全」と助動詞「だ」です。UniDic では形容動詞語幹を形状詞とし、形容動詞活用語尾を助動詞「だ」に統合しているので「安全」だけでなく「だ」にも曖昧性をもたせていると解釈することができます。
それ 代名詞,*,*,*,*,* 其れ
は 助詞,係助詞,*,*,*,* は
安全 名詞,普通名詞,形状詞可能,*,*,* 安全
だ 助動詞,*,*,*,助動詞-ダ,終止形-一般 だ
。 補助記号,句点,*,*,*,* 。
可能性に基づく品詞体系への批判
このように可能性に基づく品詞体系では曖昧性のある解析は曖昧性をのこしたまま出力しますが、裏をかえせば本来解くべき問題を解かずに先送りしているということもできます。英語の POS tagging がむずかしい問題をそのまま解いているのとくらべ問題をより単純なものに再構成しているのです。
これに対し英語などと同様に本来の問題を解くべきという批判は当然ありえます。日本語の形態素解析は高い精度を誇りますが、こういった問題の組みかえで下駄をはかせているわけですから正当な評価とはいえないかもしれません。原理的に単語 n-gram で解けない問題は解かずにすむようにタスクを設計し辞書やコーパス、評価手法を整備した結果、前段の条件がわすれられタスクが固定的にとらえられているようにもみえます。
「現代日本語書き言葉均衡コーパス (BCCWJ)」の長単位では可能性に基づく品詞体系ではなく、じっさいの文脈にあわせて曖昧性のない品詞が付与されています1。こういったリソースを利用して曖昧性のない品詞を付与するタスクに挑戦してみるのもいいかもしれません。
形態素解析は一見、枯れたタスクのようにみえますが、あらためて問題をとらえなおすとまだまだやるべきことはおおくあるようにおもいます。
ではよい Sudachi life を。
-
『現代日本語書き言葉均衡コーパス』利用の手引 第1.1版, 第5章 形態論情報, p. 89, https://clrd.ninjal.ac.jp/bccwj/doc.html#01 ↩