5
0

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?

Oracle Cloud(OCI)で各種OCRを試して、結果を比較してみた。

Last updated at Posted at 2025-11-07

はじめに

本記事では、OCI上で利用可能な以下3種類のOCR機能(LLM含む)による文字認識精度を比較します。

  • OCI Document Understanding
  • Yomitoku
  • OCI Generative AI(xai.grok-4)

OCR(Optical Character Recognition)は、活字や手書き文字を画像から読み取り、コンピューターが扱えるテキストデータに変換する技術です。これにより、スキャンした書類や画像ファイルに含まれる文字を、検索・編集・コピー&ペーストができるようになります。

OCI Document Understanding

OCIのDocument Understandingサービスは、PaaS機能として提供されています。

Oracle Cloud Infrastructure (OCI) Document Understandingは、APIやコマンド行インタフェースツールを通じて、ドキュメント・ファイルからテキスト、表、その他の重要なデータを抽出できるAIサービスです。OCI Document Understandingを利用することで、事前に構築されたAIモデルで面倒なビジネス上の処理を自動化し、業界固有のニーズに合わせてドキュメント抽出をカスタマイズできます。

  • アナリティクスとAIからドキュメントの理解を選択します。

image.png

  • テキストの抽出を選択します。

image.png

  • ドキュメント・ソースにローカル・ファイルを選択し、コンパートメントとBucketとPrefixを指定してSubmitします。

image.png

  • 適当なPDFファイルなどをドラッグ&ドロップすると、ドキュメントのプレビューが下部に表示されます。

image.png

image.png

  • Analyzeをクリックすると、右側に結果とJSONレスポンスなどが表示されます。

image.png

  • オーバーライドから言語をJapaneseに変更して、オーバーライドします。

日本語対応済みです!

image.png

image.png

image.png

Yomitoku

YomitokuはOCI ComputeやOCI Data Scienceにデプロイすることで、OCI上で利用することが可能です。
今回は、OCI Data Science上のNotebookから利用します。

YomiToku は日本語に特化した AI 文章画像解析エンジン(Document AI)です。画像内の文字の全文 OCR およびレイアウト解析機能を有しており、画像内の文字情報や図表を認識、抽出、変換します。

以下のライセンスポリシーにはご注意ください。

本リポジトリ内に格納されているソースコードおよび本プロジェクトに関連する HuggingFaceHub 上のモデルの重みファイルのライセンスは CC BY-NC-SA 4.0 に従います。 非商用での個人利用、研究目的での利用はご自由にお使いください。 商用目的での利用に関しては、別途、商用ライセンスを提供しますので、https://www.mlism.com/ にお問い合わせください。

  • アナリティクスとAIからデータ・サイエンスを選択します。

image.png

  • プロジェクトの作成からプロジェクトを作成します。

image.png

  • 作成したプロジェクトを開きます。
  • ノートブック・セッションの作成を選択します。

image.png

  • コンパートメント、コンピュート・シェイプなどを指定し、ノートブック・セッションを作成します。

今回は、VM.Standard .E5.Flex(AMDのシェイプ)を指定しました。

image.png

  • ステータスがCREATINGからACTIVEに変わったら、開くでノートブック・セッションを開きます。

image.png

image.png

  • ノートブック・セッションが開いたら、Python 3 Kernelを選択します。

image.png

image.png

  • Yomitokuをインストールします。

pytorch はご自身の CUDA のバージョンにあったものをインストールしてください。
デフォルトでは CUDA12.4 以上に対応したものがインストールされます。

pip install yomitoku
  • インストールが終わったら、KernelをRestartします。

image.png

  • そのままYomitokuを実行すると、ライブラリが不足しているので、以下コマンドでライブラリを追加します。
!sudo dnf install -y mesa-libGL

以下は、ライブラリ不足のエラー。

image.png

  • OCRを実行したい対象のPDFを左側のディレクトリにドラッグ&ドロップでアップロードします。

image.png

  • 通常モデルでの推論を以下コマンドで実行します。

${path_data}の部分は実際のパスに変更してください。

!yomitoku ${path_data} -f md -o results -v --figure

resultsディレクトリ下にマークダウン形式と画像形式で結果が出力されます。

  • _layout.jpg
  • _ocr.jpg
  • .md

image.png

image.png

OCI Generative AI(xai.grok-4)

Oracle Cloud Infrastructure (OCI) の生成AIは、文章作成支援、要約、分析、チャットなど、幅広いユースケースにこれらの多様な言語モデルをシームレスに統合するフルマネージド・サービスです。

OCI上で利用可能なxAIのLLMモデル(xai.grok-4)を利用し、アップロードしたJPEG内の表のテーブル変換を実行します。

  • アナリティクスとAIから生成AIを選択します。

image.png

  • プレイグラウンドのチャットを選択します。

image.png

  • Modelをxai.grok-4に変更します。

image.png

  • イメージのアップロードからJPEG画像をアップロードします。

image.png

image.png

  • 以下のように生成AIへの依頼内容を入力し、送信をします。
添付の画像内の表をテーブル形式にしてください。

image.png

image.png

image.png

まとめ

本記事では、OCI上で利用可能な以下3種類のOCR機能(LLM含む)による文字認識精度を比較しました。

  • OCI Document Understanding
  • Yomitoku
  • OCI Generative AI(xai.grok-4)

以下は、結果のまとめです。

OCI Document Understanding Yomitoku OCI Generative AI(xai.grok-4)
image.png image.png image.png
image.png image.png image.png

アプリケーションから利用する場合は、以下アーキテクチャのイメージで、OCI FunctionsからAPIを呼び出すことで、利用可能です。

image.png

5
0
0

Register as a new user and use Qiita more conveniently

  1. You get articles that match your needs
  2. You can efficiently read back useful information
  3. You can use dark theme
What you can do with signing up
5
0

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?