2
0

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?

JUMANで竈門禰󠄀豆子が解析できない問題を調べてみた

Last updated at Posted at 2022-02-02

タイトルだけでオチが分かりそうですが。

JUMANで竈門禰󠄀豆子を解析するとどうなるでしょう。

竈門禰󠄀豆子
竈 竈 竈 未定義語 15 その他 1 * 0 * 0 NIL
門 もん 門 名詞 6 普通名詞 1 * 0 * 0 "代表表記:門/もん 漢字読み:音 カテゴリ:場所-施設"
禰 禰 禰 未定義語 15 その他 1 * 0 * 0 NIL
󠄀 󠄀 󠄀 未定義語 15 その他 1 * 0 * 0 NIL
豆 まめ 豆 名詞 6 普通名詞 1 * 0 * 0 "代表表記:豆/まめ 漢字読み:訓 カテゴリ:植物 ドメイン:料理・食事"
子 こ 子 名詞 6 普通名詞 1 * 0 * 0 "代表表記:子/こ 漢字読み:訓 カテゴリ:人 ドメイン:家庭・暮らし"
@ 子 し 子 名詞 6 普通名詞 1 * 0 * 0 "代表表記:子/し 漢字読み:音 カテゴリ:人"
EOS

こうなります(Try JUMANで試しました)。
未定義語になってますね。

juman.h
#if defined(IO_ENCODING_EUC) || defined(IO_ENCODING_SJIS)
#define	BYTES4CHAR	2	/* EUC-JP or SHIFT-JIS */
#else
#define	BYTES4CHAR	3	/* UTF-8 (usually) */
#endif

まあ、こういうオチです。
juman_pat.hとかでも似たような記述があるので、ここだけが原因ではないですが。

なお、他の形態素解析器は調べてないです(JUMANは知ってたのでサクっと記事を書けるので書いた)。

2
0
1

Register as a new user and use Qiita more conveniently

  1. You get articles that match your needs
  2. You can efficiently read back useful information
  3. You can use dark theme
What you can do with signing up
2
0

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?