Delphi から Tesseract OCR エンジンを使う

Last updated at 2026-05-21Posted at 2023-01-17

はじめに

以前、Embarcadero さんのブログ記事にこんなのがありました。

「あー Winsoft さんの有償コンポーネントの紹介か～」と思って英語版の記事をざっとしか読んでいなかったのですが、日本語版の記事をちょっと読み返してみたらこんな事が書いてありました。

このOCRコンポーネントは、TesseractのOCRエンジンを使用しています。

ん、Tesseract とは？

See also:

調べてみたら、Tesseract (テッセラクト) というのはオープンソースの OCR (Apache License) で、WinSoft さんのコンポーネントはこれのラッパーのようです。

んー、オープンソースのラッパーコンポーネントが有償ってのにちょっと引っ掛かりを覚えますが、それ以前に Tesseract の素性を真っ先に書くべきだと思うんですよね。日本語版記事の元になった英語版記事には Tesseract の文字は一切出てきません。それってどうなのさ～？

See also:

それで、この Tesseract を WinSoft さんのコンポーネントを使わずに Delphi から使う方法を調べようとしたら、TTesseractOCR4 というリポジトリが GitHub にあるのを発見しました。

折角なので、こちらを試してみたいと思います。ライセンスは MIT となっています。

[Text] タブに認識結果が出力されます。

日本語ファイル名だと読み込めない事があるようです。

日本語版ブログ記事にあったのと同様の修正を行えばよいようです。

FormTesseractOCRImage.pas

  if not Tesseract.Initialize('tessdata' + PathDelim, 'eng', oemDefault) then
    ...

こんな感じで。

FormTesseractOCRImage.pas

  if not Tesseract.Initialize('tessdata' + PathDelim, 'jpn+jpn_vert', oemDefault) then
    ...

まあまあイケてます。

傾きを補正したり、二値化するなりの前処理をすれば認識率も向上するかもしれません。

この TTesseractOCR4 は Tesseract v4 に対応したもののようですが、現時点 (2023/01) での Tesseract の最新バージョンは 5.3.0 となっています。最新版に対応させるには修正が必要かもしれません。

v5 に対応した TTesseractOCR5 というリポジトリがあるようです。

See also: