6
1

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?

More than 1 year has passed since last update.

SudachiAdvent Calendar 2022

Day 5

Sudachi辞書の紹介 Part 3 -分割モードおよび分割情報-

Last updated at Posted at 2022-12-05

『Sudachi辞書の紹介』の続きです。

これまで、第1回の記事第2回の記事で、登録単位や品詞について概観し、small辞書に比べ、core辞書やfull辞書は、複合語が多く登録されていること、さらにfull辞書には固有名詞が多く登録されていることなどを見てきました。
第3回では、Sudachiの分割モードおよび分割情報について紹介します。

3つの分割モード

Sudachiには、A, B, C, 3つの分割モードがあり、辞書登録されている複合語を、短い単位に分割することができます。

それぞれの分割モードの違いをざっくり言うと、

  • Aモードでは最も短い単位に分割します。(以降これを"A単位"と呼称します)
  • Bモードでは接辞付き相当の長さに分割します。(以降これを"B単位"と呼称します)
  • Cモードでは分割しません。登録されている長さのまま出力します。(以降これを"C単位"と呼称します)

例)

登録単位 Aモード Bモード Cモード
東京国立博物館 東京 東京 東京国立博物館
国立 国立
博物 博物館

さて、Sudachi辞書における"最も短い単位"(A単位)とは、どういう長さのことでしょうか。
UniDicの短単位とどう違うのでしょうか。
また、3つの分割モードによって得られる単位(A単位、B単位、C単位)は、どういう方針で設計されているのでしょうか。
これらについて見ていきたいと思います。

UniDicの短単位

まず、UniDicの短単位についてポイントを確認しておきましょう。

UniDicの短単位とは、
「BCCWJからの用例収集を目的として」(*1)、「言語の形態論的側面に着目し、下で述べる最小単位を基に斉一性を重視して規定された言語単位(単位語)」(*1)
です。
最小単位による短単位の認定規則は、

和語・漢語は、2最小単位の1次結合体を1短単位とする。 |母=親| |食べ=歩く| |言=語|資=源| |研=究|所| |本=箱|作り|
外来語は、1最小単位を1短単位とする。 |コール|センター| |オレンジ|色|

となっています。
<図1>『短単位 - 短単位の認定規定』の図から引用(*1)
unidic_tantani.png

(*1)https://clrd.ninjal.ac.jp/unidic/glossary.html#suw

UniDicの開発目的はコーパスに基づく用例収集や語彙調査、そのために重視されているのが、形態論的斉一性です。

Sudachi辞書の開発方針

Sudachiは、「既存の形態素解析器に不足する柔軟性や精度を兼ね備えた商用利用に耐えうる形態素解析器」(*2)を目指して開発をスタートしました。
(*2)https://www.worksap.co.jp/news/2022/1007/
商用利用として最も重視しているのは検索エンジンです。

A単位

検索では、常に、検索漏れとノイズの問題がつきまといますが、UniDicの斉一な短単位では、不向きなものがあります。
例えば、和語は、漢語と異なり最小単位が自立語として使用されることが多いため、最小単位で形態素認定した方が検索漏れが少なくなる場合があります。
そのため、SudachiのA単位には、UniDicの短単位をさらに短くしたものがあります。

例)

UiDic短単位 A単位
子クジラ
クジラ
うがい薬 うがい
仮住まい
住まい
右ふくらはぎ
ふくらはぎ
梅雨時 梅雨
錆び付く 錆び
付く

逆に、UniDicの単位が短すぎて、検索ノイズが発生するものがあります。それらは一塊でA単位としています。

例)

UiDic短単位 A単位
自転 自転車
太平 太平洋
スマート スマートフォン
フォン

つまり、Sudachi辞書における"最も短い単位"であるA単位は、検索での利用を強く意識したものです。

B単位

B単位は、A単位に接辞相当の語が付いた長さです。
これは、『広辞苑』など、国語辞典の見出しの長さに近いものと位置付けています。

例)

A単位 B単位
光熱 光熱費
総決算
決算
駆け 駆け回る
回る

C単位

C単位は、Sudachi辞書に登録されている語の長さです。単独の語、複合語、略語、慣用句…等、すべてを含みます。

A単位は、検索用の短い単位、B単位は、国語辞典の見出しに近い日本語として自然な単位、C単位は、Sudachi辞書に登録している語の長さそのもの、となります。

UniDicに見られるような明確な形態論的斉一性は、Sudachi辞書にはありません。代わりに、専門の辞書開発者によりチューニングされた3種類の辞書と分割モードを提供しています。
では、斉一性が必要とされるコーパスからの用例収集や語彙調査を行いたいときはどうすればよいのでしょうか。
その場合は、「small辞書 + Cモード」を使えば、UniDic相当の解析結果が得られます。

分割情報

分割モードに関わる情報は、分割情報としてSudachi辞書に格納されています。
分割情報とは、見出しを"A単位"または"B単位"に分割するための内部構造を記述したものです。

例)

見出し A単位分割情報 B単位分割情報
東京国立博物館 東京/国立/博物/館 東京/国立/博物館
東京 -- --
国立 -- --
博物館 博物/館 --

※"/" は、構成語の境界

「東京国立博物館」は、Aモードでは、「東京」「国立」「博物」「館」のA単位に分割されます。Bモードでは、「東京」「国立」「博物館」に分割されます。
分割情報を持たない「東京」「国立」は、A,B,Cどの分割モードでも分割されません。つまり、A単位、B単位、C単位がすべて同じ長さとなります。
「博物館」は、A単位分割情報のみ持っていますので、Aモードでは、「博物」「館」に分割されます。Bモード、Cモードでは分割されません。

今回は、Sudachiの分割モードおよび分割情報の概要を紹介しました。
次回は、分割情報について、もう少し具体例を上げて、紹介したいと思います。

6
1
0

Register as a new user and use Qiita more conveniently

  1. You get articles that match your needs
  2. You can efficiently read back useful information
  3. You can use dark theme
What you can do with signing up
6
1

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?