はじめに
本記事では、OCI上で利用可能な以下3種類のOCR機能(LLM含む)による文字認識精度を比較します。
- OCI Document Understanding
- Yomitoku
- OCI Generative AI(xai.grok-4)
OCR(Optical Character Recognition)は、活字や手書き文字を画像から読み取り、コンピューターが扱えるテキストデータに変換する技術です。これにより、スキャンした書類や画像ファイルに含まれる文字を、検索・編集・コピー&ペーストができるようになります。
OCI Document Understanding
OCIのDocument Understandingサービスは、PaaS機能として提供されています。
Oracle Cloud Infrastructure (OCI) Document Understandingは、APIやコマンド行インタフェースツールを通じて、ドキュメント・ファイルからテキスト、表、その他の重要なデータを抽出できるAIサービスです。OCI Document Understandingを利用することで、事前に構築されたAIモデルで面倒なビジネス上の処理を自動化し、業界固有のニーズに合わせてドキュメント抽出をカスタマイズできます。
- アナリティクスとAIからドキュメントの理解を選択します。
- テキストの抽出を選択します。
- ドキュメント・ソースにローカル・ファイルを選択し、コンパートメントとBucketとPrefixを指定してSubmitします。
- 適当なPDFファイルなどをドラッグ&ドロップすると、ドキュメントのプレビューが下部に表示されます。
- Analyzeをクリックすると、右側に結果とJSONレスポンスなどが表示されます。
- オーバーライドから言語をJapaneseに変更して、オーバーライドします。
日本語対応済みです!
Yomitoku
YomitokuはOCI ComputeやOCI Data Scienceにデプロイすることで、OCI上で利用することが可能です。
今回は、OCI Data Science上のNotebookから利用します。
YomiToku は日本語に特化した AI 文章画像解析エンジン(Document AI)です。画像内の文字の全文 OCR およびレイアウト解析機能を有しており、画像内の文字情報や図表を認識、抽出、変換します。
以下のライセンスポリシーにはご注意ください。
本リポジトリ内に格納されているソースコードおよび本プロジェクトに関連する HuggingFaceHub 上のモデルの重みファイルのライセンスは CC BY-NC-SA 4.0 に従います。 非商用での個人利用、研究目的での利用はご自由にお使いください。 商用目的での利用に関しては、別途、商用ライセンスを提供しますので、https://www.mlism.com/ にお問い合わせください。
- アナリティクスとAIからデータ・サイエンスを選択します。
- プロジェクトの作成からプロジェクトを作成します。
- 作成したプロジェクトを開きます。
- ノートブック・セッションの作成を選択します。
- コンパートメント、コンピュート・シェイプなどを指定し、ノートブック・セッションを作成します。
今回は、VM.Standard .E5.Flex(AMDのシェイプ)を指定しました。
- ステータスがCREATINGからACTIVEに変わったら、開くでノートブック・セッションを開きます。
- ノートブック・セッションが開いたら、Python 3 Kernelを選択します。
- Yomitokuをインストールします。
pytorch はご自身の CUDA のバージョンにあったものをインストールしてください。
デフォルトでは CUDA12.4 以上に対応したものがインストールされます。
pip install yomitoku
- インストールが終わったら、KernelをRestartします。
- そのままYomitokuを実行すると、ライブラリが不足しているので、以下コマンドでライブラリを追加します。
!sudo dnf install -y mesa-libGL
以下は、ライブラリ不足のエラー。
- OCRを実行したい対象のPDFを左側のディレクトリにドラッグ&ドロップでアップロードします。
- 通常モデルでの推論を以下コマンドで実行します。
${path_data}の部分は実際のパスに変更してください。
!yomitoku ${path_data} -f md -o results -v --figure
resultsディレクトリ下にマークダウン形式と画像形式で結果が出力されます。
- _layout.jpg
- _ocr.jpg
- .md
OCI Generative AI(xai.grok-4)
Oracle Cloud Infrastructure (OCI) の生成AIは、文章作成支援、要約、分析、チャットなど、幅広いユースケースにこれらの多様な言語モデルをシームレスに統合するフルマネージド・サービスです。
OCI上で利用可能なxAIのLLMモデル(xai.grok-4)を利用し、アップロードしたJPEG内の表のテーブル変換を実行します。
- アナリティクスとAIから生成AIを選択します。
- プレイグラウンドのチャットを選択します。
- Modelをxai.grok-4に変更します。
- イメージのアップロードからJPEG画像をアップロードします。
- 以下のように生成AIへの依頼内容を入力し、送信をします。
添付の画像内の表をテーブル形式にしてください。
まとめ
本記事では、OCI上で利用可能な以下3種類のOCR機能(LLM含む)による文字認識精度を比較しました。
- OCI Document Understanding
- Yomitoku
- OCI Generative AI(xai.grok-4)
以下は、結果のまとめです。
| OCI Document Understanding | Yomitoku | OCI Generative AI(xai.grok-4) |
|---|---|---|
![]() |
![]() |
![]() |
![]() |
![]() |
![]() |
アプリケーションから利用する場合は、以下アーキテクチャのイメージで、OCI FunctionsからAPIを呼び出すことで、利用可能です。


































