『Sudachi辞書の紹介』の続きです。
第3回の記事で、Sudachiの分割モードおよび分割情報の概要について紹介しました。
今回は、分割情報の続きとして、体言系の分割情報について、もう少し詳細に見ていきます。
前回のおさらい
Sudachiには、A, B, C, 3つの分割モードがあり、辞書登録されている複合語を、短い単位に分割することができます。そのための辞書情報が分割情報です。
分割情報には、"A単位分割情報" と "B単位分割情報" があります。"A単位分割情報"は、Sudachiにおける最も短い単位に分割する情報、"B単位分割情報"は、接辞付き相当の長さに分割する情報です。
分割情報の付与対象
複合語に分割情報を付与します。
ここでいう複合語とは、
- 漢語については、3字以上の語を複合語とします。2字熟語は単独の語として扱います。
- 外来語については、原語表記が2語以上のもの(スペースを挟んで記述される)を複合語とします。和製英語についても同様です。
- 和語については、結合している語数にかかわらず基本的に単独の語として扱いますが、語ごとに判断し複合語とする場合があります。※補足後述
- 混種語については、基本的に複合語とします。ただし「 1漢字(漢語)+ 和語1語 」から成るものは単独の語として扱います。
- 慣用句については、複合語とします。
- 複合語の略語は、単独の語として扱います。
例)
複合語 | 単独の語 | |
---|---|---|
漢語 | 乗馬服、駐車違反、切磋琢磨 | 乗馬、駐車、違反、切磋、琢磨 |
外来語 | テニスコート、サマータイム | トムキャット、ライフライン |
和語 | 菜種油、吊るし柿、うがい薬、錆止め | 親知らず、割り引き、雨宿り、しとしと |
混種語 | 生ビール、蚊取り線香、自己PR | 手製、重箱、荷物、気持ち、支払い |
慣用句 | 痩せの大食い、火に油を注ぐ、転ばぬ先の杖 | |
正式名称と略語 | 安全保障理事会、パーソナルコンピューター | 安保、パソコン、PC |
分割情報の基本方針
- A単位またはB単位の構成語に分割します。
見出し | A単位分割情報 | B単位分割情報 |
---|---|---|
自動運転モード | 自動/運転/モード | 自動/運転/モード |
冷凍みかん | 冷凍/みかん | 冷凍/みかん |
業務用エアコン | 業務/用/エアコン | 業務用/エアコン |
業務用 | 業務/用 | -- |
がん対策基本法 | がん/対策/基本/法 | がん/対策/基本法 |
基本法 | 基本/法 | -- |
国際基督教大学 | 国際/基督/教/大学 | 国際/基督教/大学 |
基督教 | 基督/教 | -- |
JR東日本 | JR/東/日本 | JR/東日本 |
東日本 | 東/日本 | -- |
支払い請求書 | 支払い/請求/書 | 支払い/請求書 |
請求書 | 請求/書 | -- |
痩せの大食い | 痩せ/の/大食い | 痩せ/の/大食い |
※"/" は、構成語の境界。以下同様。
顕著なカテゴリについて特記
人名
- 姓と名に分割します。(A単位でもB単位でも同様です)
見出し | A単位分割情報 | B単位分割情報 |
---|---|---|
渋沢栄一 | 渋沢/栄一 | 渋沢/栄一 |
リオネル・メッシ | リオネル/・/メッシ | リオネル/・/メッシ |
住所地名
- 「都,道,府,県,市,町,村,州」を含む単位はB単位とし、これらの前で区切った単位をA単位とします。
例
見出し | A単位分割情報 | B単位分割情報 |
---|---|---|
東京都三鷹市中原 | 東京/都/三鷹/市/中原 | 東京都/三鷹市/中原 |
東京都 | 東京/都 | -- |
三鷹市 | 三鷹/市 | -- |
ニュージャージー州 | ニュージャージー/州 | -- |
駅名
- 「駅」の前で分割します。(A単位でもB単位でも同様です)
見出し | A単位分割情報 | B単位分割情報 |
---|---|---|
新宿駅 | 新宿/駅 | 新宿/駅 |
那須塩原駅 | 那須塩原/駅 | 那須塩原/駅 |
動植物名
- 動植物の名称は分割しません。
- 「親~」「子~」は、「親」「子」で区切った単位をA単位とします。
- 動植物名を含む比喩表現は分割しません。
見出し | A単位分割情報 | B単位分割情報 |
---|---|---|
カジキマグロ | -- | -- |
春虎の尾 | -- | -- |
親ツバメ | 親/ツバメ | -- |
子海豚 | 子/海豚 | -- |
タコ足 | -- | -- |
とんぼ返り | -- | -- |
和語について補足
上で述べたように、
和語については、結合している語数にかかわらず基本的に単独の語として扱いますが、語ごとに判断し複合語とする場合があります。
とする方針ですが、そもそも和語のみで結合するケースは、ほとんどが2語の結合です。多くてもせいぜい3語までです(例「火打ち石」「底引き網」)。これより多い語数になると、句になります(例「身から出た錆」「弱り目に祟り目」)。
混種語になれば、バリエーションは格段に増えます(例「引換券」「打切補償」「生コン車」「お好み焼きソース」「現金自動預け払い機」…)。
複合語と見なす(=分割情報を付ける)基準は、構成語が検索に有用かどうかで判断しています。
例えば「菜種油」「うがい薬」は、「菜種/油」「うがい/薬」とすることで、「菜種」「油」、「うがい」「薬」で検索できます。なお、「菜種」を「菜」「種」の単位にまで分割する必要はないと考えます。
概して、漢語系複合語や混種語系複合語は、構成語の意味がそのまま継承されていますが、和語による結合の場合は、構成語から全体の意味を推測できないものも多くあります。それが、"結合している語数にかかわらず基本的に単独の語" とする理由です。
和語を含む混種語の場合でも、和語部分については同様です。例えば「お好み焼きソース」は、「お好み焼き」と「ソース」から成りますが、「お好み焼き」をさらに構成語に分けることはせず、一塊の語と見なしています。
以上、今回は、体言系の分割情報について見てきました。
次回は、用言系の分割情報について紹介します。今回あえて触れなかった転成名詞については、用言との絡みで、次回お話したいと思います。