Amazon Bedrockで使えるモデルの日本語OCR能力を検証しました

Posted at 2025-05-12

以前、「Claude.aiをつかって画像内の文字を正確に抽出する方法を見つけました」という記事を投稿し、かなりたくさんの方に見ていただきました。ありがとうございます。m(_ _)m

さて、Amazon Bedrockで画像を入力にできるモデルが増えてきたので、「日本語性能はどんなものかな？」と思って、検証してみました。

検証条件

以下のページで公開されているPDFを使います。

具体的には、P.36を画像（PNG）にしたものをインプットとして使用することにしました。

この画像を、 「添付画像をHTMLで再現してください。HTMLコードのみを出力してください。説明や追加のテキストは含めないでください。」 というプロンプトととに送信しました。

生成AIの回答は、ほとんどが<html>で始まり</html>で終わる感じでしたが、一部そうでない文字も含まれていたので、そこは正規表現などを駆使して整形します。（整形するコードはAmazon Q Developer CLIが作ってくれました）

検証コード

import boto3
import os
import json
import re
from datetime import datetime

# Bedrockのランタイムクライアントを初期化（us-east-1リージョンを使用）
client = boto3.client("bedrock-runtime", region_name="us-east-1")

# 対象モデルのリスト（クロスリージョン推論プロファイルを使用）
models = [
    "us.anthropic.claude-3-7-sonnet-20250219-v1:0",  # Claude 3.7 Sonnet
    "us.anthropic.claude-3-5-sonnet-20240620-v1:0",  # Claude 3.5 Sonnet
    "us.anthropic.claude-3-haiku-20240307-v1:0",     # Claude 3 Haiku
    "us.amazon.nova-pro-v1:0",                       # Amazon Nova Pro
    "us.amazon.nova-lite-v1:0",                      # Amazon Nova Lite
    "us.meta.llama4-scout-17b-instruct-v1:0",        # Llama 4 Scout 17B Instruct
    "us.meta.llama4-maverick-17b-instruct-v1:0",     # Llama 4 Maverick 17B Instruct
    "us.mistral.pixtral-large-2502-v1:0"             # Pixtral Large (25.02)
]

# 画像ファイルを読み込む
def read_image(image_path):
    with open(image_path, "rb") as f:
        image_bytes = f.read()
    return image_bytes

# HTMLコードのみを抽出する関数
def extract_html_code(text):
    # ```html と ``` で囲まれたコードを抽出
    html_pattern = r"```html\s*([\s\S]*?)\s*```"
    match = re.search(html_pattern, text)
    
    if match:
        return match.group(1)
    
    # <html> タグを含むコードを抽出（```で囲まれていない場合）
    html_tag_pattern = r"<!DOCTYPE html>[\s\S]*?<\/html>"
    match = re.search(html_tag_pattern, text)
    
    if match:
        return match.group(0)
    
    # 上記のパターンに一致しない場合は元のテキストを返す
    return text

# 結果を保存するディレクトリを作成
results_dir = "results"
os.makedirs(results_dir, exist_ok=True)

# 現在の日時を取得してファイル名に使用
timestamp = datetime.now().strftime("%Y%m%d_%H%M%S")

# 画像ファイルのパス
image_path = "image.png"
image_bytes = read_image(image_path)
image_format = image_path.split(".")[-1]

# 改善されたプロンプト
prompt_text = "添付画像をHTMLで再現してください。HTMLコードのみを出力してください。説明や追加のテキストは含めないでください。"

# 各モデルに対して実行
for model_id in models:
    print(f"Processing model: {model_id}")
    
    try:
        # メッセージを構築
        message = {
            "role": "user",
            "content": [
                {
                    "text": prompt_text
                },
                {
                    "image": {
                        "format": image_format,
                        "source": {
                            "bytes": image_bytes
                        }
                    }
                }
            ]
        }
        
        # Converseリクエストを実行
        response = client.converse(
            modelId=model_id,
            messages=[message]
        )
        
        # レスポンスを取得
        output_message = response['output']['message']
        
        # レスポンステキストを安全に取得
        response_text = ""
        for content_block in output_message.get('content', []):
            if 'text' in content_block:
                response_text += content_block['text']
        
        # HTMLコードのみを抽出
        html_code = extract_html_code(response_text)
        
        # モデル名からファイル名を生成（スラッシュやコロンを置換）
        model_name = model_id.replace(".", "-").replace(":", "-").replace("/", "-")
        base_filename = f"{timestamp}_{model_name}"
        json_file = f"{results_dir}/{base_filename}.json"
        html_file = f"{results_dir}/{base_filename}.html"
        
        # 結果をJSONファイルに保存
        with open(json_file, "w", encoding="utf-8") as f:
            json.dump({
                "model_id": model_id,
                "prompt": prompt_text,
                "response": output_message,
                "html_code": html_code,
                "usage": response.get("usage", {}),
                "stop_reason": response.get("stopReason", "")
            }, f, ensure_ascii=False, indent=2)
        
        # HTMLコードを別ファイルに保存
        with open(html_file, "w", encoding="utf-8") as f:
            f.write(html_code)
        
        print(f"Response saved to {json_file}")
        print(f"HTML saved to {html_file}")
        
    except Exception as e:
        print(f"Error with model {model_id}: {str(e)}")

print("Processing complete!")

検証対象モデル

今回はAmazon Bedrockで使用でき、画像の入力に対応しているものから、以下のモデルを対象としました。

Amazon Nova
- Nova Premier
- Nova Pro
- Nova Lite
Anthropic Claude
- Claude 3.5 Sonnet (V1)
- Claude 3.7 Sonnet
- Claude 3 Haiku（Claude 3.5 Haikuは画像に未対応）
Meta Llama
- Llama 4 Maverick
- Llama 4 Scout

それでは早速検証結果を見ていきましょう！

検証結果

Nova Premier

パッと見、あっているようで、自治は全く違う内容です。。

Nova Pro

全く関係のない内容になってしまいました。。。

Nova Lite

何なんだこれは。。気象情報です。全く関係ない。。

補足しておくと、Novaモデルのマルチモーダル機能は、マルチリンガルの対応していない旨がドキュメントに明記されています。

https://docs.aws.amazon.com/nova/latest/userguide/modalities-image-limitations.html

Multilingual Image Understanding: The models have limited understanding of multilingual images and video frames and can struggle or hallucinate on similar tasks.

まぁ、知ってたうえでチャレンジしたのですがw