『Sudachi辞書の紹介』の続きです。
これまで、第1回の記事、第2回の記事で、登録単位や品詞について概観し、small辞書に比べ、core辞書やfull辞書は、複合語が多く登録されていること、さらにfull辞書には固有名詞が多く登録されていることなどを見てきました。
第3回では、Sudachiの分割モードおよび分割情報について紹介します。
3つの分割モード
Sudachiには、A, B, C, 3つの分割モードがあり、辞書登録されている複合語を、短い単位に分割することができます。
それぞれの分割モードの違いをざっくり言うと、
- Aモードでは最も短い単位に分割します。(以降これを"A単位"と呼称します)
- Bモードでは接辞付き相当の長さに分割します。(以降これを"B単位"と呼称します)
- Cモードでは分割しません。登録されている長さのまま出力します。(以降これを"C単位"と呼称します)
例)
登録単位 | Aモード | Bモード | Cモード |
---|---|---|---|
東京国立博物館 | 東京 | 東京 | 東京国立博物館 |
国立 | 国立 | ||
博物 | 博物館 | ||
館 |
さて、Sudachi辞書における"最も短い単位"(A単位)とは、どういう長さのことでしょうか。
UniDicの短単位とどう違うのでしょうか。
また、3つの分割モードによって得られる単位(A単位、B単位、C単位)は、どういう方針で設計されているのでしょうか。
これらについて見ていきたいと思います。
UniDicの短単位
まず、UniDicの短単位についてポイントを確認しておきましょう。
UniDicの短単位とは、
「BCCWJからの用例収集を目的として」(*1)、「言語の形態論的側面に着目し、下で述べる最小単位を基に斉一性を重視して規定された言語単位(単位語)」(*1)
です。
最小単位による短単位の認定規則は、
和語・漢語は、2最小単位の1次結合体を1短単位とする。 |母=親| |食べ=歩く| |言=語|資=源| |研=究|所| |本=箱|作り|
外来語は、1最小単位を1短単位とする。 |コール|センター| |オレンジ|色|
となっています。
<図1>『短単位 - 短単位の認定規定』の図から引用(*1)
(*1)https://clrd.ninjal.ac.jp/unidic/glossary.html#suw
UniDicの開発目的はコーパスに基づく用例収集や語彙調査、そのために重視されているのが、形態論的斉一性です。
Sudachi辞書の開発方針
Sudachiは、「既存の形態素解析器に不足する柔軟性や精度を兼ね備えた商用利用に耐えうる形態素解析器」(*2)を目指して開発をスタートしました。
(*2)https://www.worksap.co.jp/news/2022/1007/
商用利用として最も重視しているのは検索エンジンです。
A単位
検索では、常に、検索漏れとノイズの問題がつきまといますが、UniDicの斉一な短単位では、不向きなものがあります。
例えば、和語は、漢語と異なり最小単位が自立語として使用されることが多いため、最小単位で形態素認定した方が検索漏れが少なくなる場合があります。
そのため、SudachiのA単位には、UniDicの短単位をさらに短くしたものがあります。
例)
UiDic短単位 | A単位 |
---|---|
子クジラ | 子 |
クジラ | |
うがい薬 | うがい |
薬 | |
仮住まい | 仮 |
住まい | |
右ふくらはぎ | 右 |
ふくらはぎ | |
梅雨時 | 梅雨 |
時 | |
錆び付く | 錆び |
付く |
逆に、UniDicの単位が短すぎて、検索ノイズが発生するものがあります。それらは一塊でA単位としています。
例)
UiDic短単位 | A単位 |
---|---|
自転 | 自転車 |
車 | |
太平 | 太平洋 |
洋 | |
スマート | スマートフォン |
フォン |
つまり、Sudachi辞書における"最も短い単位"であるA単位は、検索での利用を強く意識したものです。
B単位
B単位は、A単位に接辞相当の語が付いた長さです。
これは、『広辞苑』など、国語辞典の見出しの長さに近いものと位置付けています。
例)
A単位 | B単位 |
---|---|
光熱 | 光熱費 |
費 | |
総 | 総決算 |
決算 | |
駆け | 駆け回る |
回る |
C単位
C単位は、Sudachi辞書に登録されている語の長さです。単独の語、複合語、略語、慣用句…等、すべてを含みます。
A単位は、検索用の短い単位、B単位は、国語辞典の見出しに近い日本語として自然な単位、C単位は、Sudachi辞書に登録している語の長さそのもの、となります。
UniDicに見られるような明確な形態論的斉一性は、Sudachi辞書にはありません。代わりに、専門の辞書開発者によりチューニングされた3種類の辞書と分割モードを提供しています。
では、斉一性が必要とされるコーパスからの用例収集や語彙調査を行いたいときはどうすればよいのでしょうか。
その場合は、「small辞書 + Cモード」を使えば、UniDic相当の解析結果が得られます。
分割情報
分割モードに関わる情報は、分割情報としてSudachi辞書に格納されています。
分割情報とは、見出しを"A単位"または"B単位"に分割するための内部構造を記述したものです。
例)
見出し | A単位分割情報 | B単位分割情報 |
---|---|---|
東京国立博物館 | 東京/国立/博物/館 | 東京/国立/博物館 |
東京 | -- | -- |
国立 | -- | -- |
博物館 | 博物/館 | -- |
※"/" は、構成語の境界
「東京国立博物館」は、Aモードでは、「東京」「国立」「博物」「館」のA単位に分割されます。Bモードでは、「東京」「国立」「博物館」に分割されます。
分割情報を持たない「東京」「国立」は、A,B,Cどの分割モードでも分割されません。つまり、A単位、B単位、C単位がすべて同じ長さとなります。
「博物館」は、A単位分割情報のみ持っていますので、Aモードでは、「博物」「館」に分割されます。Bモード、Cモードでは分割されません。
今回は、Sudachiの分割モードおよび分割情報の概要を紹介しました。
次回は、分割情報について、もう少し具体例を上げて、紹介したいと思います。