More than 5 years have passed since last update.

形態素解析器「Sudachi」の文字コードまわり

Posted at 2019-12-07

設計者の高岡さんに以前聞いたことのメモ。

▼ 内部的にUTF8の理由

1: UTF16だと"0"byteを含む文字がある → dartscloneでは"0"byteを許容できない
- シフトするときに、+0だと、そこからシフトしない → 成り立たない
- 普通のDAではC+1しているが、dartscloneでは+1していない
  - 255のとき+1すると=256、8bitで溢れる → 9bitにはしたくない
- UTF8ではnull文字以外で"0"はない
2: UTF16だと（コード割当的に？）Trieが非効率になる、という古くからの言い伝え

▼ UTF8InputText