はじめに
Sudachi辞書は現在、約3カ月ごとにメンテナンスを行っています。
今回は、その作業のうち、新語の収集についてご紹介します。
語彙の収集
語彙をどうやって集めているのか。それは、人手です。実は、地道な作業です。
機械的に集めることもできますが、本当に目新しい語か、必要とされる語かは、やはり人での判断が必要と考えます。
そのため、日々ニュースやSNS等で語彙をウォッチし、辞書に登録していっています。
基準
語彙を集めるといっても、単に目新しいものをただ集めるというわけではなく、いくつか基準を設けています。
既に登録されているジャンルの語か、関連する同意語や類義語、反意語などがあるか
たとえば、ニュース記事等で見聞きする各国の首脳名はすでに登録されているので、
定期的に新しい情報を確認し、対応するようにしています。
・各国首脳名
例:
尹錫悦(韓国大統領2022年5月から)
リズ・トラス(イギリス第78代首相。登録したときは現役でしたが、45日でまさかの辞任…)
銀行名や省庁名なども同様です。
・銀行名
例:
徳島大正銀行(2020年に発足)
三十三銀行(2021年に発足)
・省庁名
例:
デジタル庁(2021年9月に設置)
こども家庭庁(2023年4月に設置予定)
枠がある語か
"枠がある"、というのは、あるジャンルで範囲が決まっている語があることを指します。
たとえば政党名、プロ野球の球団名などです。
こういったものは、一部が欠けているとバランスが悪いですし、同じ話題で使われる可能性が高いので、網羅するよう気をつけています。
・政党名
例:
立憲民主党、国民民主党、参政党(いずれも2020年結党)
・プロ野球球団名
例:
東京ヤクルトスワローズ
オリックス・バファローズ
より多くの人が利用したり見聞きする語か
ニュースやSNSで見聞きする話題の語も登録しています。
例:
黙食、ドラレコ/ドライブレコーダー、モデルナ、パルスオキシメーター
リスキリング、ヤングケアラー、全国旅行支援、リングフィットアドベンチャー
日常的によく使う語でも登録されていない場合は、気づいたものから適宜登録しています。
例:
入園券、赤鉛筆、不明点、過充電、未接種、置き配
おしまいに
辞書には、あれがあってこれがない、ということができるだけないように、
バランスを取りながら登録するよう心がけています。
が、きりがない場合もあるので、取捨選択せざるをえません。
語彙は日々新しく生まれ、消えていきます。残るものもあります。
できるだけ多くの方にとって使い勝手がよいものになるよう、今後もメンテナンスを続けていく予定です。
※事例はすべてfull辞書