More than 5 years have passed since last update.

JavaでPDFファイルをOCR処理してみた part2

Last updated at 2018-08-01Posted at 2018-08-01

始めに

JavaでPDFファイルをOCR処理してみたの続編です。
主に、tess4j 4.1について書いています

tess4j 4.1に関してググってもあまり情報が出てこないので、動かし方と動かした結果を書いてみます
ネット上の情報のだけだと、実行時エラーでるので

compile group: 'net.sourceforge.tess4j', name: 'tess4j', version: '4.1.1'

な感じでモジュールの依存を記載します

textord_tabfind_vertical_horizontal_mix T

を追記します。この記載がないと実行時エラーが発生します

GitHubからダウンロードした学習用データで上書きします

Gradleからrunコマンドで実行するだけです

Win10pro iCore5 2.2GH メモリ16Gで3系と4系の実行結果を「平成 28年度春期　情報処理安全確保支援士試験　午後2」の変換処理で比較してみました
4系　約2分半
3系　約8分
4系のほうが圧倒的に早いです

3系は日本語と英字が混じっていたら誤変換率が無茶苦茶高かったのですが、4系はこれが劇的に改善されていました
例えば、3系で

問ー 膿S の特徴はどれか。
ア 鐘長によつて, 段数が決まる。

と変換されていた箇所が4系で

問 ① AES の 特 徴 は ど れ か 。
ア 鍵 長 に よ っ て , 段 数 が 決 ま る 。

と意味のある文字にきちんと変換されるようになっています