D-Y
@D-Y

Are you sure you want to delete the question?

If your question is resolved, you may close it.

Leaving a resolved question undeleted may help others!

We hope you find it useful!

Chat GPTでPDFを扱う際のページ指定について

解決したいこと

ChatGPT 4oで,日本語書籍のPDFを読み込み,5ページごとに要約したい。
プロンプトの正確性を上げるため,正確にPDFファイルのページ指定を行いたい。

発生している問題・エラー

・最初の5ページを読み込んで要約
・次の5ページを読み込んで要約…
としたいのですが,対象ページの理解がずれていく場合が多く困っています。
途中で「51ページにはこの見出しがある」など指摘すると修正されますが,
複数のファイルについて処理できるプロンプトにしたいため,正確性を上げたいと思っています。

自分で試したこと

プロンプトでのPDFファイルのページ指定方法に問題があると考えています。
ファイル上のページ数と,紙面に記されたページ番号がずれているのに加え,
アウトプットの精度を上げるため,書籍の100~200ページのPDFなど細切れのファイルを扱っています。
細切れにする際にブックマーク情報は削除しています。

PDFファイルをChat GPTで扱う際に,(正しい表現ではないかもしれませんが)論理ページ(紙面に示されるノンブル)と物理ページ(PDFファイルにおける何ページ目か)をどのように指定するのが適切でしょうか。
Acrobatなど各アプリで既定の名前で定義されているものがありましたらその項目名を,またChat GPTで表現する際に有効な記述方法があればその方法を教えてください。よろしくお願いします。

0

2Answer

5ページごとにpdfファイルを作って、5ページ分のpdfをアップロード、要約、5ページ分のpdfをアップロード、要約が最も良い方法かと。

前後の文脈が課題になる場合は対象5ページの前後10ページ程度を入れるように、25ページごとにカット、5ページずらして25ページカットとやればうまくいくかと。

1Like

Comments

  1. @D-Y

    Questioner

    ありがとうございます。
    PDFの内容をもとに問題作成するのが目的なのですが,
    内容全体に分散して作問しようとしても最重要語句に集中してしまう傾向があり,
    無理やりページで切ってやろう!と思っていました。
    ご指摘の通り内容もぶつ切りになるので前後の読み込みがあると効果的ですね。

    現在は飽和するくらい問題数を吐き出させて,そこから適切に取捨する方向も考えています。

5ページ毎が必須でしょうか。PDFのページ認識は怪しいですね。

章や節など内容毎のまとまりで指定した方がまだ認識が正確だと思います。

1Like

Comments

  1. @D-Y

    Questioner

    ご指摘の通り,内容の把握や理解に問題がありますね。
    章・節・項などのブロックごとに生成してみたいと思います。
    ありがとうございました。

Your answer might help someone💌