はじめに
形態素解析器 Sudachi の辞書バイナリには任意のコメントを埋め込むことができます。ユーザー辞書をつくる際に元ソースの情報や作成に利用したシステム辞書のバージョンなどをいれておくと便利です。
コメントの埋め込み方
Java 版でのユーザー辞書の作成を例に埋め込み方をしめします。
$ java -Dfile.encoding=UTF-8 -cp sudachi-0.5.3.jar com.worksap.nlp.sudachi.dictionary.UserDictionaryBuilder -o test_user.dic -s system_core.dic -d 'テスト用のユーザー辞書' input.csv
このように -d
オプションで埋め込みたいコメントを指定します。長さは256バイトまでです。
埋め込んだコメントを表示する
コメントの埋め込み方はしれっとドキュメントにもかかれていますが、コメントを表示する方法は言及されていません。
じつはちゃんと用意してあります。
$ java -cp sudachi-0.5.3.jar com.worksap.nlp.sudachi.dictionary.DictionaryHeaderPrinter test_user.dic
filename: test_user.dic
type: user dictionary
createTime: 2021-12-09T18:15:20+09:00[Asia/Tokyo]
description: テスト用のユーザー辞書
さっき埋め込んだコメントが description 欄に表示されました。辞書を作成した日時も記録されています。
ちなみに公開されているシステム辞書の場合はバージョンが埋め込まれています。
$ java -cp sudachi-0.5.3.jar com.worksap.nlp.sudachi.dictionary.DictionaryHeaderPrinter system_core.dic
filename: system_core.dic
type: system dictionary
createTime: 2021-08-05T17:26:58+09:00[Asia/Tokyo]
description: 20210802
どのバージョンの辞書なのかわからなくなったときに便利です。
ではよい Sudachi life を。