LoginSignup
4
0

More than 1 year has passed since last update.

Sudachi 辞書にコメントを埋め込む

Last updated at Posted at 2021-12-16

はじめに

形態素解析器 Sudachi の辞書バイナリには任意のコメントを埋め込むことができます。ユーザー辞書をつくる際に元ソースの情報や作成に利用したシステム辞書のバージョンなどをいれておくと便利です。

コメントの埋め込み方

Java 版でのユーザー辞書の作成を例に埋め込み方をしめします。

$ java -Dfile.encoding=UTF-8 -cp sudachi-0.5.3.jar com.worksap.nlp.sudachi.dictionary.UserDictionaryBuilder -o test_user.dic -s system_core.dic -d 'テスト用のユーザー辞書' input.csv

このように -d オプションで埋め込みたいコメントを指定します。長さは256バイトまでです。

埋め込んだコメントを表示する

コメントの埋め込み方はしれっとドキュメントにもかかれていますが、コメントを表示する方法は言及されていません。
じつはちゃんと用意してあります。

$ java -cp sudachi-0.5.3.jar com.worksap.nlp.sudachi.dictionary.DictionaryHeaderPrinter test_user.dic
filename: test_user.dic
type: user dictionary
createTime: 2021-12-09T18:15:20+09:00[Asia/Tokyo]
description: テスト用のユーザー辞書

さっき埋め込んだコメントが description 欄に表示されました。辞書を作成した日時も記録されています。

ちなみに公開されているシステム辞書の場合はバージョンが埋め込まれています。

$ java -cp sudachi-0.5.3.jar com.worksap.nlp.sudachi.dictionary.DictionaryHeaderPrinter system_core.dic
filename: system_core.dic
type: system dictionary
createTime: 2021-08-05T17:26:58+09:00[Asia/Tokyo]
description: 20210802

どのバージョンの辞書なのかわからなくなったときに便利です。

ではよい Sudachi life を。

4
0
0

Register as a new user and use Qiita more conveniently

  1. You get articles that match your needs
  2. You can efficiently read back useful information
  3. You can use dark theme
What you can do with signing up
4
0