5
2

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?

Sudachi辞書:新語拡充計画

Posted at

前回のお話

Sudachi辞書 : 新語収集

これからの新語収集

Sudachi辞書は約3カ月ごとにメンテナンスを行っており、前回はそのうちの新語収集についてご紹介しました。今回はその続き「新語拡充計画」です。

これまでは、新語の拡充は気づいた範囲で、どちらかというと既登録語の整備(full辞書からcore辞書への登録先変更や分割情報、品詞の修正など)に時間を取られがちでした。なにしろ膨大な規模の辞書なので、整備ひとつとっても時間がかかるためです。ただ、これでは新しい語がなかなか入ってきません。そこで今後は、新語の拡充をもっと計画的に進めていこうと考えています。

基本方針

  1. 広く浅く
    より多くのユーザーにとって使い勝手の良いものとなるよう、専門的な語よりも、日頃よく見聞きしたり使われるような語を優先的に追加していきます。

  2. 数よりも質
    情報の精度を保ちつつ、効率よく拡充を続けていくためには、ある程度数は絞らざるを得ません。本当に新しい語か、必要とされる語かを吟味して、正しく情報を付与することに重点を置きます。

  3. 適切な語を適切なタイミングで
    旬な語をできるだけ旬なうちに反映できるよう、分野ごとに拡充する時期や回数を調整します。例えば、テレビ番組名は各クールに合わせて3か月ごとに、会社名は上場の多い12月に合わせて1月に、という具合です。

拡充計画

具体的には、以下のようなカテゴリについて、定期的に拡充していく予定です。また、カテゴリごとに拡充の時期は異なります。ただし、これはあくまでも基本的な方針で、状況によっては柔軟にその内容を見直していきます。

枠を設けているカテゴリ

枠を設けているカテゴリについては、該当するものをすべて登録します。

カテゴリ 採用範囲 回数
会社名 上場企業すべて、非上場企業のうち顕著なもの LINEヤフー、アサヒ飲料 年2回
銀行名 銀行、信用金庫、信用組合等 UI銀行、SBI新生銀行 年2回
各国首脳 各国元首、国家主席、首相 クリストファー・ラクソン、ガブリエル・アタル 年2回
日本の大臣名 大臣、内閣官房長官 上川陽子、自見はなこ 年2回
政党名 日本の政党すべて 教育無償化を実現する会 年2回
鉄道路線、駅名 新規開通する路線、駅名 東急新横浜線、ゆいの杜中央駅 年2回
住所地名 郵便データに記載の住所(番地や丁目は除く) 浜松市中央区元城町 年2回
大学名 全大学名 東京科学大学 年2回

枠を設けていないカテゴリ

枠を設けていないカテゴリについては、使用頻度や人気度などを参考に、顕著なものを登録します。

カテゴリ 採用範囲 回数
ビジネス、IT用語 ビジネス用語、アプリ名、サービス名、IT技術等 LLM、ハルシネーション、Copilot 年2回
スポーツ選手名 サッカー、野球、卓球、バスケットボール、バーレーボール、フィギュアスケート、ゴルフ、大相撲等 佐々木麟太郎、河村勇輝 年2回
芸能人名 俳優、声優、歌手、タレント、お笑い芸人等 河合優実、iScream 年4回
番組名 ドラマ、バラエティ、アニメ等 光る君へ、マッシュル 年4回
作品名、作家名 書籍、ゲーム、漫画、映画等 カラオケ行こ!、東京都同情塔 年2回
商品名 商品や関連するキャラクターなど マッサージガン、サメにゃん 年2回
ランドマーク 国内の商業施設、娯楽施設等 イマーシブ・フォート東京、Kアリーナ横浜 年2回

そのほか

これらのカテゴリにはまらない雑多な語彙についても、継続的に収集して辞書に登録していきます。

カテゴリ 採用範囲
その他 一般語、略語、既登録語の表記展開等 転塾、政倫審、紅こうじ

※事例は既に登録済みのものも含む。

おしまいに

語彙の拡充は、ある程度機械的に行えても、最終的には人間の目で見て確認する必要があると考えています。そのため、時間はかかりますが、きちんと時代に沿った辞書になるよう、継続して取り組んでいきます。

5
2
0

Register as a new user and use Qiita more conveniently

  1. You get articles that match your needs
  2. You can efficiently read back useful information
  3. You can use dark theme
What you can do with signing up
5
2

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?