はじめに
Sudachi の辞書ソースにはつかわれていない、あるいは何につかわれているかがあまり説明されていないカラムがいくつかあります。何回かにわけてそういったカラムについて説明していきます。(その1はこちら)
17カラム目の話
今回は17カラム目 (0はじまりで) のお話です。このカラムはユーザー辞書のドキュメントには「未使用」でアスタリスク(*)を入れておくようにと書かれています。
もともとこのカラムには直前にある2つのカラム、A単位分割情報、B単位分割情報につづいて語構成情報が記載されるはずでした。
複合語は内部に構造をもち一般につぎの図のように木構造をとります。
Sudachi の複数粒度分割はこの構造のサブセットに当たり、いちばん上をC単位1、中間ノードの一部をB単位、末端ノードをA単位として出力するよう辞書に分割情報を記述します。
サブセットではなくこの構造全体を記述したい、というのが語構成情報になります。語構成情報は分割情報とおなじく配列で、その語の直下にくるノードを順番に記述します。「県立美術館前停留所」であれば「県立美術館前」と「停留所」、「県立美術館前」は「県立美術館」と「前」というように再帰的に分割していくことにより木構造をすべて表現することができます。
と、仕様設計のときは志高くはじめたのですが、C、B単位語の分割情報の記述すらままならない中、語構成情報の整備まで手が回らず未使用カラムとして塩漬けになっているのが現状です。しかし実装はされており、17カラム目に記述された情報は辞書に書き込まれ WordInfo.getWordStructure()
で取り出すことができます。
いつかこの語構成情報が日の目をみるときがくるよう辞書整備をつづけていきます。
ではよい Sudachi life を。
-
例であり「県立美術館前停留所」はシステム辞書には登録されていません。 ↩