『Sudachi辞書の紹介』の続きです。
今回は、分割情報の続きとして、用言系の分割情報について見ていきます。
用言とは
自立語で活用があるものですので、Sudachiの品詞体系で言うと、品詞大分類が、「動詞」「形容詞」「形状詞」のものを差します。(※「サ変可能」な名詞については体言扱いとしていますので、第4回の記事を参照してください)
用言については、2語以上の語が結合していても"単独の語"に該当するものがほとんどです。(分割情報の付与対象参照)
例)
品詞 | 見出し | 語構成 |
---|---|---|
動詞 | 近づく、息詰まる、紐づける、目指す、見守る、探し出す、振り回す | 和語の結合 |
形容詞 | 暑苦しい、狡賢い、疑り深い、面白い、油っこい、口うるさい | 和語の結合 |
形容詞 | 面倒くさい、かっこいい、不甲斐ない | 混種語 |
形状詞 | 明けっ広げ、ぺしゃんこ、きめ細か | 和語の結合 |
形状詞 | 唐突、円満、悠々、純然、自由自在 | 漢語 |
上の例のように、ほとんどが和語の結合です。
形容詞には混種語がありますが、これらは少数です。
形状詞には、漢語由来群がありますが、これらは2文字のものが大部分を占めます。なお、外来語由来の形状詞は、ここには挙げていませんが、原語表記が1語です。(例「アクティブ」「スムーズ」)
このように、用言については、2語以上が結合していても、Sudachiでは単独の語と見なすものがほとんどで、分割情報の付与対象は体言ほど多くありません。
しかし、例外的に分割情報を付与したものがありますので、それらについて見ていきたいと思います。
複合動詞
動詞は、他の語と結びついて複合動詞を作りますが、以下のような結合パターンがあります。
(1) 動詞+テ+動詞(例「持っていく」「やってみる」)
(2) 動詞+動詞(例「受け取る」「折り曲げる」)
(3) 名詞+動詞(例「腰掛ける」「目指す」)
(4) 形容詞+動詞(例「若返る」「近づく」)
(5) 副詞(擬態語)+動詞(例「苛つく」「べとつく」)
このうち、"(1) 動詞+テ+動詞"については、Suadchiでは一塊で辞書登録していません。「動詞+接続助詞+動詞」で解析されます。
(2)(3)(4)(5)については、一塊で辞書登録する方針です。このうち、"(2) 動詞+動詞"について、分割情報を付与しています。
"(2) 動詞+動詞" の分割情報
基本方針は、前項動詞と後項動詞に分割し、A単位とします。
これは、A単位が検索での利用を考えた語の長さだからです。
例)
見出し | A単位分割情報 | B単位分割情報 |
---|---|---|
折り曲げる | 折り/曲げる | -- |
泣き叫ぶ | 泣き/叫ぶ | -- |
※"/" は、構成語の境界
「折り曲げる」「泣き叫ぶ」は、A単位では、それぞれ、「折る」「曲げる」、「泣く」「叫ぶ」という2つの動詞になり、これらで検索することができます。
ところで、複合動詞を構成する前項動詞と後項動詞の関係は、
国立国語研究所-複合動詞レキシコンの分類に従えば、以下の4つに分類できます。
(a) VV(動詞+動詞)
→ 2つの動詞がそれぞれ本来の意味と格関係を持つ
(b) Vs(動詞+補助的な動詞)
→ 前項動詞は本来の意味と格関係を持つが、後項動詞は補助的な動詞になっている
(c) pV(接頭辞化した動詞+動詞)
→ 前項動詞の本来の意味が希薄化し、接頭辞的になっている
(d) V(一語化)
→ 一語として固定化している
これらのうち、(d) V(一語化)以外は、前項動詞、後項動詞をA単位として認定することが検索で有用と言えます。(Vs型の後項動詞、pV型の前項動詞は、ノイズになる可能性がありますが、それぞれの動詞を単独で切り出すことで検索漏れは防げます。)
しかし、表記上、同じ複合動詞が複数の意味を持つもの(例「かき出す」「いきつく」)や、文脈によって複数の意味になりうるケース(例「立ち上がる」「思い出す」)があり、(a)~(d)の分類は端的に決まりません。
そこで、
迷う場合は、基本方針に従い、前項動詞と後項動詞に分割した単位をA単位とする。明らかに(d)相当であると判断できる場合は、分割情報を付与しない、としています。
例)
見出し | A単位分割情報 | B単位分割情報 |
---|---|---|
折り曲げる | 折り/曲げる | -- |
咲き誇る | 咲き/誇る | -- |
待ち伏せる | 待ち/伏せる | -- |
落ち着く※ | 落ち/着く | -- |
思い出す | 思い/出す | -- |
かき出す | かき/出す | -- |
騒ぎ立てる | 騒ぎ/立てる | -- |
使いこなす | 使い/こなす | -- |
作り直す | 作り/直す | -- |
殴り合う | 殴り/合う | -- |
寝込む | 寝/込む | -- |
差し迫る | 差し/迫る | -- |
ぶち壊す | ぶち/壊す | -- |
仕舞う | -- | -- |
見積もる | -- | -- |
※「落ち着く」は"(d) V(一語化)"相当だと思いますが、他の「~着く」に引きずられて分割情報をつけてしまっています。このように作業上の揺れがあります。
"(3) 名詞+動詞、(4) 形容詞+動詞、(5) 副詞(擬態語)+動詞" について
これらには、分割情報は付与していません。
構成語をA単位として認定することが検索にあまり有用でないと考えるからです。
しかし、個別に見ていくと、例えば、「泡立つ」((3) 名詞+動詞)のように、それぞれの構成語の意味がそのまま継承されているものがあります。
将来的には、このようなものを選別し、分割情報を付与していく方針です。
転成名詞について補足
複合動詞からの転成名詞については、分割情報は付与していません。
以下のような複雑な問題があり、どのように扱うのがよいか、いまだ検討中です。
-
対応する動詞との整合性
体言の分割情報付与基準として、基本的に和語の結合には分割情報は付与しません。「申し込み」「割り引き」「引き出し」のように、全体を一語として認定するので十分だと考えるからです。しかし、これらに対応する動詞側には分割情報を付与しています(「申し/込む」「割り/引く」「引き/出す」)。これを不整合と見るのか、用法による差と見るのか、立場を決め切れていません。 -
構成語の品詞の問題
「にらみ合い」「食べ過ぎ」のように分割してよさそうなものはありますが、前半構成語の品詞を、動詞とするのか名詞とするのか、という問題が生じます。「にらみ」は単独で名詞としても使用されますが、「食べ」は単独で名詞として使用しないため、辞書登録していません。これらVp型-複合動詞からの転成名詞は、前半構成語の品詞を動詞としてもよいですが、VV型やpV型からの転成名詞の場合は、また事情が異なってきます。
そもそも全体として複合動詞からの転成なので、それを分割すると、元の「動詞+動詞」に戻ってしまうという事態も起こりえます。 -
送り違いによる表記ゆれの問題
「受付」「受取」のように、特定の意味を表す場合、慣用として送り仮名を省くものがあります。例えば、「受付」には一語で、"来訪者の取次場所あるいは取次係"という意味があります。もし、送り仮名を送った表記の方(「受け付け」)にのみ分割情報をつけると、「受付 - 受け付け」「受取 - 受け取り」は同じ語の表記ゆれであるという考え方と矛盾します。
おわりに -分割情報-
第3回の記事、第4回の記事、そして今回と、3回にわたって、分割モードや分割情報について見てきました。
これはSudachiの特徴的な機能の一つであり、分割情報については、情報の精度が求められるものと認識しています。
しかし、実際の作業においては、Sudachiの膨大な登録語について、個別の例外を選り分けながら対処していくという、長く険しい道のりです。一次作業は補助ツールなどを用いて機械的に行いますが、最終的に確認するのは専門の辞書開発者です。
現状のSudachi辞書には、まだ不適切な情報が残っていますが、継続的に修正や洗練を行い、より充実した完成度の高いSudachi辞書になるよう作業を進めています。