@K_daichan

Are you sure you want to delete the question?

If your question is resolved, you may close it.

Leaving a resolved question undeleted may help others!

We hope you find it useful!

CHATGTP 4oに株式情報のPDFファイルを読み込ませ、エクセルにデータを抽出させたい。

解決したいこと

ここに解決したい内容を記載してください。
CHATGTP 4oに株式情報のPDFファイルを読み込ませ、エクセルにデータを抽出させたいと思います。
(東京証券取引所日報)
https://www.jpx.co.jp/markets/statistics-equities/daily/um3qrc000001kdfq-att/stq_20250611.pdf

欲しい情報は、コード、銘柄名、始値、終値です。
ですが、PDFから情報を取得させると、全然違った数字を拾い集めてきます。
これ以上正確なソースはないのですが、どのようにすればよいでしょうか?

OCR認識に切り替えればできると提案され、
Tesseract OCR & 日本語データのセットアップ手順(ローカル環境向け)

  1. Tesseract をインストール
    Windows: Tesseract公式インストーラー(日本語対応のものを選択)

すればよいといわれました。
ですがリンク先は移転しているし、移転先にも日本語版はないようです。
すべてにおいて、中途半端な解決策を提示され、どう指示すればいいのか困っています。

ネットから集めてくるよう指示した場合、かぶたん、yahooファイナンス、から集めてくるようですが、それでもデータは虫食い状態です。
しかも集められるのは一回の命令につき、5つくらいです。
間違いも多く、画像に赤丸つけてこのデータを持ってこいと教えても、理解できないようです。

どのようにすればよいのかアドバイスを頂けたらと思います。
皆様よろしくお願いします。

0 likes

2Answer

その PDF を CSV に変換して再配布しているサイトがあるようです。これをそのまま、あるいは最低限の加工で Excel に読み込ませることができると思います。

1Like

こっから目当ての情報がありそうなデータを見つけて自分で抽出した方が早い気がします.
OCRやるとこまでになるとプロンプトを調整すればするだけ時間の無駄です.

0Like

Your answer might help someone💌