@K_daichan

Are you sure you want to delete the question?

Leaving a resolved question undeleted may help others!

CHATGTP 4oに株式情報のPDFファイルを読み込ませ、エクセルにデータを抽出させたい。

解決したいこと

ここに解決したい内容を記載してください。
CHATGTP 4oに株式情報のPDFファイルを読み込ませ、エクセルにデータを抽出させたいと思います。
(東京証券取引所日報)
https://www.jpx.co.jp/markets/statistics-equities/daily/um3qrc000001kdfq-att/stq_20250611.pdf

欲しい情報は、コード、銘柄名、始値、終値です。
ですが、PDFから情報を取得させると、全然違った数字を拾い集めてきます。
これ以上正確なソースはないのですが、どのようにすればよいでしょうか?

OCR認識に切り替えればできると提案され、
Tesseract OCR & 日本語データのセットアップ手順(ローカル環境向け)

  1. Tesseract をインストール
    Windows: Tesseract公式インストーラー(日本語対応のものを選択)

すればよいといわれました。
ですがリンク先は移転しているし、移転先にも日本語版はないようです。
すべてにおいて、中途半端な解決策を提示され、どう指示すればいいのか困っています。

ネットから集めてくるよう指示した場合、かぶたん、yahooファイナンス、から集めてくるようですが、それでもデータは虫食い状態です。
しかも集められるのは一回の命令につき、5つくらいです。
間違いも多く、画像に赤丸つけてこのデータを持ってこいと教えても、理解できないようです。

どのようにすればよいのかアドバイスを頂けたらと思います。
皆様よろしくお願いします。

0 likes

3Answer

その PDF を CSV に変換して再配布しているサイトがあるようです。これをそのまま、あるいは最低限の加工で Excel に読み込ませることができると思います。

2Like

Comments

  1. @K_daichan

    Questioner

    このデータが欲しかったんです。
    教えてくださいまして、ありがとうございます。

こっから目当ての情報がありそうなデータを見つけて自分で抽出した方が早い気がします.
OCRやるとこまでになるとプロンプトを調整すればするだけ時間の無駄です.

1Like

Comments

  1. @K_daichan

    Questioner

    わかりました。
    ここから必要なデータを探してきます。
    ご親切にありがとうございます。

解決方法が分かったのでまあ蛇足です。

私の拙い認識なんですが、そういうプロンプト書いた場合AIが直接データ拾ってくるのでなく、Pythonのコード生成してきてそれをユーザーが実行するか、AIの方で実行する形になってるようですね。なので、仕様をある程度固めたプロンプトにする必要があるんじゃないでしょうか?

0Like

Your answer might help someone💌