はじめに
Sudachi辞書には、約290万語(2022年10月現在)という大規模な語彙が登録されています。また、複数の分割単位や表記ゆれの統一、同義語辞書との連携など、検索に便利な情報が格納されています。
本記事では、Sudachi辞書の内容やメンテナンスの方針などについて、具体例を交えながら数回に分けて紹介していきたいと思います。
第1回目は、3種類の辞書を概観します。
3種類の辞書
Sudachiでは、small、core、fullの3種類の辞書を提供しています。
これらの辞書について、(1)登録単位、(2)使用頻度、(3)品詞、の観点から、それぞれの辞書の特徴を見ていきたいと思います。
(1)登録単位
まずは、登録されている語の長さについて、辞書ごとの違いを見てみましょう。
<表1>
<表1>に示すように、small辞書は単独の語、core辞書は単独の語・接辞付き、full辞書は単独の語・接辞付き・複合語を基本方針としています。
例示している「電気/自動/車」「生物/多様/性」「ジョブ/型/雇用」は、small辞書では単独の語のみの登録、core辞書では単独の語に加え、「自動/車」「多様/性」「ジョブ/型」のように単独の語に接辞が付いた長さのものも一塊で登録しています。full辞書ではこれら単独の語・接辞付きに加え、全体を一塊で登録しています。
登録内容は「small辞書 ⊂ core辞書 ⊂ full辞書」となっていますので、登録語数は、順次増えていきます。
なお、本記事では、登録語数とは、Sudachi辞書の登録見出し、すなわち表記数のことです。
small辞書の単独の語は、UniDic 2.1.2 をベースとして登録したものです。
full辞書の複合語は、NEologd 2017-11-06をベースとして登録したものです。
UniDicは、「国立国語研究所の規定した斉一(せいいつ)な言語単位(短単位)」(*1)により見出し登録されています。NEologdは、「多数のWeb上の言語資源から得た新語」(*2)、特に固有表現が多数見出し登録されています。
Sudachi辞書では、これらの言語資源から単独の語、複合語を取り込み、かつ、複合語の構成語基を切り出して登録することで、辞書内容の充実を図っています。
(*1)https://clrd.ninjal.ac.jp/unidic/about_unidic.html
(*2)https://github.com/neologd/mecab-ipadic-neologd/blob/master/README.ja.md
(2)使用頻度
次に、語の使用頻度の観点から見てみましょう。
単独の語は複合語の構成語基となるため、一般的には、単独の語は、複合語よりも使用頻度が高くなる傾向があります。
しかし、個々の語を見れば、例えば、「仄聞(そくぶん)」「今茲(こんじ)」のように、単独での使用頻度も低く、かつ、複合語生成にも寄与しない語や、「不乱」のように単独ではあまり使用されず、ほぼ「一心不乱」の語基として使われるような語もあります。
一方、複合語の中には、「冷蔵庫」「クレジットカード」「健康保険証」のように日常生活でよく使う語や、「太平洋」「アメリカ合衆国」「東京大学」など、知名度の高い固有名称もあります。
登録単位のみで厳密にわけてしまうと、「small辞書ではよく使う複合語を一塊で認定できない。かといって、full辞書ではサイズが大きすぎる」という使い勝手の悪い状態になってしまいます。
そこで、Sudachiではcore辞書をデフォルト辞書と位置付け、これを適度に充実させるため、使用頻度の高い複合語は、core辞書へ登録する方針でメンテナンスを進めています。
これまでに、full辞書からcore辞書へ登録先を変更した語には以下のようなものがあります。
例)
- ・国名
- 「セルビア共和国」「リヒテンシュタイン公国」「大韓民国」
- ・住所地名
- 「東京都」「千代田区」「東京都千代田区麹町」
- ・駅名
- 「半蔵門駅」「那須塩原駅」「六本木一丁目駅」「トロッコ嵯峨駅」
- ・会社名/組織名
- 「ヤマトホールディングス」「河合楽器製作所」「近鉄百貨店」 「フェリス女学院大学」「国際オリンピック委員会」
- ・ビジネス用語等
- 「リスクマネジメント」「エントリーシート」「人事評価制度」 「仮払経費申請書」「出張旅費精算」「休職証明書」 「会計検査院」「働き方改革」「収入印紙」 「従業員持株制度」「企業年金基金」「不正競争防止法」
- ・一般常識/時事用語
- 「中性洗剤」「割引チケット」「Webサイト」 「予防接種」「宿泊料金」「生年月日」「交通事故」 「住民基本台帳」「印鑑登録証明書」「修士論文」 「口座番号」「少子高齢化」「霊感商法」
このようによく使われる複合語をcore辞書へ移動していくと、full辞書にのみ登録する語は、最終的に、専門性の高い用語、雑多な固有名称(商品名、作品名、サービス名、ショップ名、事件名、…等)となります。
"small辞書は「単独の語」、core辞書は「単独の語・接辞付き」、full辞書は「単独の語・接辞付き・複合語」"を基本方針としつつ、使用頻度の高い複合語は、core辞書へ登録する方針でメンテナンスを進めています。
(3)品詞
次に、登録語の品詞について見てみます。
各辞書の品詞別の登録数を<表2>に、比率を<グラフ1>に示します。
なお、ここでは、学校文法に準拠して以下の品詞に分けています。
名詞、固有名詞、代名詞、接辞、動詞、形容詞、形容動詞、副詞、連体詞、感動詞、接続詞、助詞・助動詞、その他(記号など) |
---|
<表2>
small辞書総数 | core辞書追加 | core辞書総数 | full辞書追加 | full辞書総数 | |
---|---|---|---|---|---|
名詞 | 170121 | 62594 | 232715 | 20197 | 252912 |
固有名詞 | 110489 | 791056 | 901545 | 1268363 | 2169908 |
代名詞 | 431 | 2 | 433 | 0 | 433 |
接辞 | 2298 | 68 | 2366 | 2 | 2368 |
動詞 | 432513 | 435 | 432948 | 256 | 433204 |
形容詞 | 33260 | 75 | 33335 | 1 | 33336 |
形容動詞 | 3928 | 127 | 4055 | 3 | 4058 |
副詞 | 7470 | 12 | 7482 | 3 | 7485 |
連体詞 | 135 | 3 | 138 | 0 | 138 |
感動詞 | 1350 | 14 | 1364 | 8 | 1372 |
接続詞 | 105 | 2 | 107 | 0 | 107 |
助詞・助動詞 | 1561 | 2 | 1563 | 2 | 1565 |
その他 | 1976 | 14 | 1990 | 4908 | 6898 |
各辞書の特徴としては、
- small辞書にはUniDic由来の単独の語を登録していますので、形態素解析の基礎となるすべての品詞の語が登録されています。
- core辞書・full辞書は、主に複合語を追加したものですが、複合語は圧倒的に名詞類が多いため、core辞書追加、full辞書追加は、ほとんどが名詞、固有名詞です。特に固有名詞については、full辞書追加が全体の50%以上を占めています。
- 複合動詞(「愛し合う」「引き出す」等)や複合形容詞(「仄暗い」「力強い」等)は、UniDicに含まれていたため、基本的にsmall辞書に登録されています。比率としては非常に小さいですが、不足していた複合動詞(「使いこなす」等)、複合形容詞(「面倒くさい」等)をcore辞書に追加しています。
- core辞書追加でやや形容動詞の比率が大きいのは、「低/レベル」「大/人気」「高/密度」のように、複合語となって初めて形容動詞となるものを一塊で追加したのに加え、「luxury」「spicy」などカタカナ外来語の原語綴りを追加しているためです。
- full辞書追加で「その他」の比率が大きいのは、顔文字や絵文字を多数追加しているためです。
ここでは、学校文法の品詞で概観しましたが、Sudachi辞書では、UniDicの品詞体系に準拠し、もう少し細かな品詞を使用しています。これについては、次回の記事で紹介したいと思います。
ここまで、第1回目では、3つの辞書の登録語について見てきました。
登録語数は、small、core、fullと、順次増えていき、名詞や固有名詞を多数追加したcore辞書やfull辞書では、small辞書に比べて、複合語が多く登録されているのが特徴です。
ところで、Sudachiには、複数の分割モードがあり、複合語を短い単位に分割することができます。これについては、別の回で紹介したいと思います。