LoginSignup
2
0

More than 1 year has passed since last update.

JUMANで竈門禰󠄀豆子が解析できない問題を調べてみた

Posted at

タイトルだけでオチが分かりそうですが。

JUMANで竈門禰󠄀豆子を解析しるとどうなるでしょう。

竈門禰󠄀豆子
竈 竈 竈 未定義語 15 その他 1 * 0 * 0 NIL
門 もん 門 名詞 6 普通名詞 1 * 0 * 0 "代表表記:門/もん 漢字読み:音 カテゴリ:場所-施設"
禰 禰 禰 未定義語 15 その他 1 * 0 * 0 NIL
󠄀 󠄀 󠄀 未定義語 15 その他 1 * 0 * 0 NIL
豆 まめ 豆 名詞 6 普通名詞 1 * 0 * 0 "代表表記:豆/まめ 漢字読み:訓 カテゴリ:植物 ドメイン:料理・食事"
子 こ 子 名詞 6 普通名詞 1 * 0 * 0 "代表表記:子/こ 漢字読み:訓 カテゴリ:人 ドメイン:家庭・暮らし"
@ 子 し 子 名詞 6 普通名詞 1 * 0 * 0 "代表表記:子/し 漢字読み:音 カテゴリ:人"
EOS

こうなります(Try JUMANで試しました)。
未定義語になってますね。

juman.h
#if defined(IO_ENCODING_EUC) || defined(IO_ENCODING_SJIS)
#define BYTES4CHAR  2   /* EUC-JP or SHIFT-JIS */
#else
#define BYTES4CHAR  3   /* UTF-8 (usually) */
#endif

まあ、こういうオチです。
juman_pat.hとかでも似たような記述があるので、ここだけが原因ではないですが。

なお、他の形態素解析器は調べてないです(JUMANは知ってたのでサクっと記事を書けるので書いた)。

2
0
0

Register as a new user and use Qiita more conveniently

  1. You get articles that match your needs
  2. You can efficiently read back useful information
  3. You can use dark theme
What you can do with signing up
2
0