5
9

More than 3 years have passed since last update.

Tesseract使用メモ、jpn.traineddataの選択

Last updated at Posted at 2020-10-11

Tesseract使用メモ、jpn.traineddataの選択

jpn.traineddataの選択

2020.10.11時点(Tesseract 5)

※一旦の結論:インストーラーで落ちてくるFAST版のjpn.traineddata使っとけ!となる

・日本語OCRの精度は、「jpn.traineddata」による
・github上に、複数、置いてある https://github.com/tesseract-ocr

◎通常版 2018/5 (34MByte)
https://github.com/tesseract-ocr/tessdata/blob/master/jpn.traineddata
◎BEST版 2019/5 (13.7MByte)
https://github.com/tesseract-ocr/tessdata_best/blob/master/jpn.traineddata
◎FAST版 2018/2 (2.36MByte)
https://github.com/tesseract-ocr/tessdata_fast/blob/master/jpn.traineddata

・たとえば、Win版のインストーラーで自動取得できるものは↑のFAST版
https://github.com/UB-Mannheim/tesseract/wiki
https://digi.bib.uni-mannheim.de/tesseract/tesseract-ocr-w64-setup-v5.0.0-alpha.20200328.exe

・通常版は、さほど精度がよくない(数字が、全部丸数字になってしまう:1→①)
・BEST版も、FAST版と比べて、精度が良い、と言い切れるほどではない。

●読み込み画像
base.png

※注:空行は、除外してあります。

---------------
●結果(通常版)
③. 今 回 調 達 贄 金 の 使 途
今 回 の 新 株 式 発 行 に よ る 差 引 手 取 概 算 額 約 ⑫.③⑨⑦ 百 万 円 に つ い て は 、 以 下 に 充 当 す る こ と を
予 定 し て お り ま す 。
① 広 告 客 伝 費 と し て ⑳②② 年 ⑥ 月 ま で に ④.①0③ 百 万 円
② 人 件 費 及 び 採 用 費 と し て ⑳②② 年 ⑫ 月 ま で に ②. 0③⑥ 百 万 円
③ 増 加 運 転 資 金 と し て ⑳②② 年 ⑥ 月 ま で に ③. ①0④ 百 万 円
 N&A 及 び 資 本 業 務 提 携 の た め の 資 金 と し て ⑳②① 年 ⑫ 月 ま で に ③.①⑤④ 百 万 円
上 記 ① 及 び ② の 資 金 使 途 に つ き ま し て は 、②0①⑨ 年 ①0 月 の 公 募 増 資 ( 新 規 上 場 哉 ) の 調 達 資 金
を 優 先 的 に 充 当 し 、 不 足 分 に つ い て 今 回 の 新 株 式 発 行 に よ る 調 達 資 金 を 充 当 す る 子 定 で す 。
上 記 の 資 金 使 途 に つ い て 、 上 記 支 出 予 定 期 間 中 に 上 記 金 額 分 の M&A 及 び 資 本 楽 務 提 携 を 実 施
し な か っ た 場 合 、 残 頚 分 に つ い て は 人 件 費 及 び 採 用 費 に 充 当 す る 予 定 で あ り ま す 。
---------------
●結果(BEST版)
3. 今回 調達 資金 の 使途
今回 の 新株 式 発行 に よる 差引 手取 概算 額 約 12.397 百 方 円 に つい て は 、 以 下 に 充当 する こと を
予定 し て お り ま す 。
1 広告 宣伝 費 と し て 2022 年 6 月 まで に 4,103 百 方 円
2 人 件 費 及び 採用 費 と し て 2022 年 12 月 まで に 2, 036 百 万 円
3 増加 運転 資金 と し て 2022 年 6 月 まで に 3, 104 百 万 円
4 M&A 及び 資本 業務 提携 の た め の 資 金 と し て 2021 年 12 月 まで に 3,154 百 万 円
上 記 1 及 び 2 の 資金 使途 に つき まし て は 、2019 年 10 月 の 公募 増資 (新規 上 場 時 ) の 調達 資金
を 優先 的 に 充当 し 、 不 足 分 に つい て 今回 の 新株 式 発行 に よる 調達 資金 を 充当 する 予定 で す 。
上 記 4 の 資金 使途 に つい て 、 上 記 支 出 予定 期間 中 に 上 記 金額 分 の M&A 及び 資本 業務 提携 を 実施
し な か っ た 場合 、 残 額 分 に つい て は 人 件 費 及び 採用 費 に 充当 する 予定 で あり ます 。
---------------
●結果(FAST版)
3. 今回調達資金の使途
今回の新株式発行による差引手取概算額約 12.397 百万円については、以下に充当することを
予定しております。
1 広告宮伝回として 2022 年6月までに 4.103 百万円
2 人件費及び採用費として 2022 年 12 月までに 2, 036 百万円
3 増加運転資金として2022 年6月までに 3, 104 百万円
4 M&A及び資本業務提携のための資金として 2021 年 12 月までに 3, 154 百万円
上記 1 及び2の資金使途につきましては、2019 年 10 月の公募増資 (新規上場時) の調達資金
を優先的に充当し、不足分について今回の新株式発行による調達資金を充当する予定です。
上記 4 の資金使途について、上記支出予定期間中に上記金額分の M&A 及び資本業務提携を実施
しなかった場合、残額分については人件費及び採用費に充当する予定であります。
---------------

jpn.traineddata の内容参照

combine_tessdata -d による閲覧結果

●通常版
C:\Program Files\Tesseract-OCR\tessdata>..\combine_tessdata -d jpn_o.traineddata
Version string:4.00.00alpha:jpn:synth20170629:[1,48,0,1Ct3,3,16Mp3,3Lfys64Lfx96Lrx96Lfx512O1c1]
0:config:size=2530, offset=192
1:unicharset:size=280627, offset=2722
2:unicharambigs:size=4676, offset=283349
3:inttemp:size=30618346, offset=288025
4:pffmtable:size=36561, offset=30906371
5:normproto:size=452735, offset=30942932
6:punc-dawg:size=2602, offset=31395667
7:word-dawg:size=1007922, offset=31398269
8:number-dawg:size=42, offset=32406191
9:freq-dawg:size=1146, offset=32406233
13:shapetable:size=664546, offset=32407379
16:params-model:size=699, offset=33071925
17:lstm:size=1577869, offset=33072624
18:lstm-punc-dawg:size=2602, offset=34650493
19:lstm-word-dawg:size=1005930, offset=34653095
20:lstm-number-dawg:size=50, offset=35659025
23:version:size=80, offset=35659075

●BEST版
C:\Program Files\Tesseract-OCR\tessdata>..\combine_tessdata -d jpn_b.traineddata
Version string:4.00.00alpha:jpn:synth20170629:[1,48,0,1Ct3,3,16Mp3,3Lfys64Lfx96Lrx96Lfx512O1c1]
0:config:size=2563, offset=192
17:lstm:size=12936715, offset=2755
18:lstm-punc-dawg:size=2602, offset=12939470
19:lstm-word-dawg:size=1167978, offset=12942072
20:lstm-number-dawg:size=50, offset=14110050
21:lstm-unicharset:size=173324, offset=14110100
22:lstm-recoder:size=46601, offset=14283424
23:version:size=80, offset=14330025

●FAST版
C:\Program Files\Tesseract-OCR\tessdata>..\combine_tessdata -d jpn_f.traineddata
Version string:4.00.00alpha:jpn:synth20170629:[1,36,0,1Ct3,3,16Mp3,3Lfys64Lfx96Lrx96Lfx384O1c1]
0:config:size=89, offset=192
17:lstm:size=1080340, offset=281
18:lstm-punc-dawg:size=2602, offset=1080621
19:lstm-word-dawg:size=1167978, offset=1083223
20:lstm-number-dawg:size=50, offset=2251201
21:lstm-unicharset:size=173324, offset=2251251
22:lstm-recoder:size=46601, offset=2424575
23:version:size=80, offset=2471176

おまけ(微修正方法)

・BEST版とFAST版を比べると、各文字が、半角スペースで区切られているか否か、という違いがある。
・一度、「combine_tessdata -u」で、BEST版とFAST版を分解する
・FAST版の「~.config」にある「preserve_interword_spaces 1」を
BEST版の「~.config」に足す
・その上であらためて、combine_tesssdataすると、BEST版ながら、半角スペースが除外された形で、出力される。

3. 今回調達資金の使途
今回の新株式発行による差引手取概算額約 12.397 百方円については、以下に充当することを
予定しております。
1 広告宣伝費として 2022 年6 月までに 4,103 百方円
2 人件費及び採用費として 2022 年 12 月までに 2, 036 百万円
3 増加運転資金として2022 年6月までに 3, 104 百万円
4 M&A及び資本業務提携のための資金として 2021 年 12 月までに 3,154 百万円
上記1及び2の資金使途につきましては、2019 年 10 月の公募増資 (新規上場時) の調達資金
を優先的に充当し、不足分について今回の新株式発行による調達資金を充当する予定です。
上記4 の資金使途について、上記支出予定期間中に上記金額分の M&A 及び資本業務提携を実施
しなかった場合、残額分については人件費及び採用費に充当する予定であります。

参考リンク集

※オフィシャル
https://tesseract-ocr.github.io/tessdoc/Data-Files

●2019/12
combine_tessdataのまとめ
https://qiita.com/mimuro_syunya/items/ec8349ed099c1f6ebe23

●2018/8
tesseractコマンドの使い方(Tesseract OCR 4.x)
http://blog.machine-powers.net/2018/08/02/learning-tesseract-command-utility/

●2020/6
日本語対応文字認識ソフト Tesseract 5 のインストールと使用法(Windows 上)
https://www.kkaneko.jp/tools/win/tesseract4.html

●2015/8
tesseract-ocr の言語データ(jpn.traineddata)について(その1)
https://a244.hateblo.jp/entry/2015/08/24/001916

●2019/2
Tesseract 4.0で日本語の認識をチューニングしよう
https://qiita.com/masaoki/items/df665e285330d4da3cca

●2019/12
Tesseract 4.1にLSTMを使って日本語を再学習させる
https://qiita.com/aki_abekawa/items/418e069038fbdb77c59e

●2017/2
tesstrain.sh で Tesseract-OCR の言語データをカスタマイズする
https://qiita.com/atuyosi/items/c0933b5edf605c4a7c19

●2020/6
TESSERACTのTRAINEDDATAを作る
https://minimashia.net/create-tesseract-traineddata/

●2019/12
PythonとTesseract OCRで文字認識
https://qiita.com/henjiganai/items/7a5e871f652b32b41a18

5
9
0

Register as a new user and use Qiita more conveniently

  1. You get articles that match your needs
  2. You can efficiently read back useful information
  3. You can use dark theme
What you can do with signing up
5
9