0
0

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?

📄 PDF内の画像も読み取れるAI文書処理アプリの使い方

Posted at

AWS BedrockとClaude Sonnet 4を使った「bedrock_pdf_app」の使い方をご紹介します。従来のPDF処理ツールとの大きな違いは、テキストだけでなく画像・図表も理解できる点です。

🔧 セットアップ方法

必要な環境

  • Python 3.11以上
  • AWS Bedrockのアクセス権限
  • justuv(パッケージマネージャー)

インストール手順

# 1. 必要ツールのインストール
brew install just uv  # macOS
# Windows: scoop install just && curl -LsSf https://astral.sh/uv/install.sh | sh

# 2. リポジトリクローン
git clone https://github.com/Sunwood-ai-labs/bedrock_pdf_app.git
cd bedrock_pdf_app

# 3. 依存関係インストール
just setup

# 4. AWS認証情報設定
export AWS_ACCESS_KEY_ID="your_access_key"
export AWS_SECRET_ACCESS_KEY="your_secret_key"

# 5. アプリ起動
just run

Docker版(推奨)

# 1. 環境設定ファイル作成
cp .env.example .env
# .envファイルにAWS認証情報を記入

# 2. Docker Composeで起動
docker compose up

起動後、ブラウザで http://localhost:7860 にアクセスします。

📋 基本的な使い方

1. PDFファイルのアップロード

  • 左側の「PDFファイル」エリアにファイルをドラッグ&ドロップ
  • または「Browse files」をクリックしてファイル選択
  • 対応サイズ: 4.5MB以下

2. 質問の入力

  • 「質問」テキストボックスに聞きたいことを入力
  • 日本語での質問に対応

3. 分析実行

  • 「🚀 分析開始」ボタンをクリック
  • 数秒〜数十秒で結果が表示されます

💡 効果的な質問の仕方

テキスト部分への質問

✅ 良い例:
「この契約書の有効期限はいつまでですか?」
「第3章の要点を教えてください」
「リスク要因として挙げられているものは?」

画像・図表への質問(ここがポイント!)

✅ 画像認識を活用した質問:
「このグラフで最も売上が高い月は?」
「組織図でマーケティング部の人数は?」
「フローチャートの最初のステップは?」
「この表で利益率が最も高い商品は?」

質問のコツ

  • 具体的に: 「この資料について」より「第2章の売上データについて」
  • 画像を指定: 「グラフで」「表で」「図で」と明示する
  • 複数の質問: 一度に複数聞いても大丈夫

📊 実際の活用例

ビジネス資料の分析

売上レポートの場合:

質問: 「このグラフで前年同月比の成長率が最も高い商品は?」

回答例: 「グラフを確認したところ、商品Aが前年同月比150%の成長率を示しており、
最も高い成長を記録しています。特に7-9月期の伸びが顕著です。」

組織図の確認:

質問: 「この組織図で開発部門の構成を教えて」

回答例: 「開発部門は部長1名の下に、フロントエンド、バックエンド、
インフラの3チームに分かれており、各チーム3-4名の構成となっています。」

技術文書の理解

システム構成図:

質問: 「このシステム構成図でデータベースへの接続経路は?」

回答例: 「アプリケーションサーバーからロードバランサーを経由し、
プライベートサブネット内のRDSインスタンスに接続される構成になっています。」

学術・研究資料

グラフ・データ分析:

質問: 「この実験結果のグラフから統計的に有意な差はありますか?」

回答例: 「グラフ上のエラーバーと p値(p<0.01)の表示から、
グループAとBの間には統計的に有意な差があることが確認できます。」

🎯 従来ツールとの違い

処理内容 従来のPDF処理 bedrock_pdf_app
テキスト抽出 ✅ 対応 ✅ 対応
表の理解 △ 構造が崩れがち ✅ 正確に理解
グラフ読み取り ❌ 不可 数値まで読み取り
図解の説明 ❌ 不可 内容を理解
画像内文字 ❌ 不可 OCR機能

🔍 便利な機能

Citations機能

回答の根拠となる部分を明示してくれるため、情報の信頼性を確認できます。

ファイル情報の自動表示

アップロード時にファイル名の処理情報が表示され、特殊文字が含まれる場合は自動で調整されます。

トークン使用量の表示

処理後に使用したトークン数が表示されるため、コスト管理の参考になります。

⚠️ 注意点・制限事項

  • ファイルサイズ: 4.5MB以下のPDFのみ対応
  • リージョン: ap-northeast-1での利用を推奨
  • 認証: AWS Bedrockでのクオード(Claude)モデルへのアクセス権限が必要
  • 処理時間: 複雑な画像が多いPDFは処理に時間がかかる場合があります

🛠️ トラブルシューティング

よくあるエラーと対処法

「AWS APIエラー」が出る場合:

  • AWS認証情報の確認
  • Bedrockでのモデルアクセス権限の確認

「ファイルが大きすぎます」の場合:

  • PDFを4.5MB以下に圧縮
  • ページ数を分割して処理

画像が認識されない場合:

  • 画像の解像度を確認(低解像度だと認識精度が下がります)
  • 「この画像で」「このグラフで」など明示的に指定

📚 活用のヒント

  1. 段階的に質問: まず全体の概要を聞いてから、詳細を深掘り
  2. 画像を活用: テキストだけでなく図表からの情報抽出を積極的に
  3. 複数の角度: 同じデータでも異なる視点から質問してみる
  4. 結果の確認: Citations機能で回答の根拠を確認する習慣を

この使い方をマスターすれば、PDF内のあらゆる情報を効率的に活用できるようになります。特に図表が多いビジネス資料や技術文書での威力は絶大です。

ぜひ試してみてください!

リポジトリ

0
0
0

Register as a new user and use Qiita more conveniently

  1. You get articles that match your needs
  2. You can efficiently read back useful information
  3. You can use dark theme
What you can do with signing up
0
0

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?