タイトルだけでオチが分かりそうですが。
JUMANで竈門禰󠄀豆子
を解析するとどうなるでしょう。
竈門禰󠄀豆子
竈 竈 竈 未定義語 15 その他 1 * 0 * 0 NIL
門 もん 門 名詞 6 普通名詞 1 * 0 * 0 "代表表記:門/もん 漢字読み:音 カテゴリ:場所-施設"
禰 禰 禰 未定義語 15 その他 1 * 0 * 0 NIL
󠄀 󠄀 󠄀 未定義語 15 その他 1 * 0 * 0 NIL
豆 まめ 豆 名詞 6 普通名詞 1 * 0 * 0 "代表表記:豆/まめ 漢字読み:訓 カテゴリ:植物 ドメイン:料理・食事"
子 こ 子 名詞 6 普通名詞 1 * 0 * 0 "代表表記:子/こ 漢字読み:訓 カテゴリ:人 ドメイン:家庭・暮らし"
@ 子 し 子 名詞 6 普通名詞 1 * 0 * 0 "代表表記:子/し 漢字読み:音 カテゴリ:人"
EOS
こうなります(Try JUMANで試しました)。
禰
と未定義語
になってますね。
juman.h
#if defined(IO_ENCODING_EUC) || defined(IO_ENCODING_SJIS)
#define BYTES4CHAR 2 /* EUC-JP or SHIFT-JIS */
#else
#define BYTES4CHAR 3 /* UTF-8 (usually) */
#endif
まあ、こういうオチです。
juman_pat.h
とかでも似たような記述があるので、ここだけが原因ではないですが。
なお、他の形態素解析器は調べてないです(JUMANは知ってたのでサクっと記事を書けるので書いた)。