More than 5 years have passed since last update.

Tesseract-ocr における漢字の対応（収録）状況

Posted at 2016-02-18

オープンソースのOCRエンジン、tesseract-ocrの日本語用データ（tessdata/langdata）について。

残念ながら、日本語の漢字すべてに対応していないのは既知の事実（参考サイト）。リンク先の情報は2014年のバージョン3.02用のデータ。

要するに認識できないであろう漢字についての調査結果。

記事にする意味があるかについては深く考えないものとする。

調査対象について

調査対象はバージョン3.04用のデータについて調査。JISX0213の漢字リストはこちらより入手したものを使用。

jpn.trainddataをcombine_tessdataコマンドでjpn.traineddata展開する。

$ combine_tessdata -u jpn.traineddata tmp/jpn.
Extracting tessdata components from jpn.traineddata
Wrote tmp/jpn.config
Wrote tmp/jpn.unicharset
Wrote tmp/jpn.unicharambigs
Wrote tmp/jpn.inttemp
Wrote tmp/jpn.pffmtable
Wrote tmp/jpn.normproto
Wrote tmp/jpn.punc-dawg
Wrote tmp/jpn.word-dawg
Wrote tmp/jpn.number-dawg
Wrote tmp/jpn.freq-dawg
Wrote tmp/jpn.shapetable
Wrote tmp/jpn.params-model

お目当のファイルはjpn.unicharset。エディタで開くと先頭に3714という数字があるのでこれがおそらく学習済みの文字の総数。このファイルの左端の列をgrepするか、もしくはlangdataリポジトリの、jpn.training_textファイルをgrepすれば学習済みの漢字かどうかは確認できる。

常用漢字の対応状況

いわゆる常用漢字1945字のうち、下記の6字が含まれていない。

虞劾勺錘朕匁

虞美人草の「虞」
弾劾の「劾」
「勺」（しゃく）：尺貫法の容積の単位
「錘」（おもり）
「朕」（ちん）：皇帝の自称
「匁」：尺貫法による重さの単位

あまり使わない字のような気もするが、6字ともJIS第一水準。

JIS第一水準

JIS第一水準漢字で含まれていないものは以下の123字。

穐袷吋嬰盈穎掩鴛恢劾浬鈎劃廓鰍竃侃澗翰翫誼黍笈禦兇彊粁駈虞轡粂祁戟諺乎鈷肱砿艮孜鴫悉蔀屡蕊勺輯酋藷恕鋤妾樵鉦擾錘趨椙頗栴賎糎岨鎗詑柁鐸歎樗瀦苧凋牒朕鍔菟鍍梼撞鴇涜橡椴噸乍迩廼狽矧駁硲櫨溌釆匪簸弼畢彪斌蕗弗箆穆釦哩柾粍鵡棉緬摸匁鑓愈猷熔慾葎掠賂榔亙

3.02の頃よりは未収録漢字が減っている。

OCR対象文書次第では必要そうなものがいくつかある。必要に応じてjpn.training_textに追加してtesstrain.shで学習させるべし。

JIS第二水準

546字だけ収録で残りは含まれていない。数が多いのでgistへ。

tesseract-ocr 3.04 日本語未収録漢字のうち、JIS第二水準漢字の一覧

JIS第三水準

収録されているのは1文字だけで残りは未収録。

鄧

多分、中国の政治家、鄧小平（とうしょうへい）さんの「鄧」だろう。著名人の苗字なんでGoogleのコーパスにおける出現率が高くなったのであろう。

JIS第四水準

収録漢字なし。下手に学習させると認識率低下しそうではある。

まとめ

分類	規格上の漢字の総数	対応している漢字	未対応漢字
常用漢字	1945	1939	6
JIS第一水準	2965	2842	123
JIS第二水準	3390	546	2844
JIS第三水準	1259	1	1258
JIS第四水準	2436	0	2436

ただし、ひらがな、カタカナ、数字、アルファベット、記号類などのいわゆる非漢字については考慮してない。

機会があれば非漢字についても調査しておきたい。

You get articles that match your needs
You can efficiently read back useful information
You can use dark theme

What you can do with signing up