CHATGTP 4oに株式情報のPDFファイルを読み込ませ、エクセルにデータを抽出させたい。
解決したいこと
ここに解決したい内容を記載してください。
CHATGTP 4oに株式情報のPDFファイルを読み込ませ、エクセルにデータを抽出させたいと思います。
(東京証券取引所日報)
https://www.jpx.co.jp/markets/statistics-equities/daily/um3qrc000001kdfq-att/stq_20250611.pdf
欲しい情報は、コード、銘柄名、始値、終値です。
ですが、PDFから情報を取得させると、全然違った数字を拾い集めてきます。
これ以上正確なソースはないのですが、どのようにすればよいでしょうか?
OCR認識に切り替えればできると提案され、
Tesseract OCR & 日本語データのセットアップ手順(ローカル環境向け)
- Tesseract をインストール
Windows: Tesseract公式インストーラー(日本語対応のものを選択)
すればよいといわれました。
ですがリンク先は移転しているし、移転先にも日本語版はないようです。
すべてにおいて、中途半端な解決策を提示され、どう指示すればいいのか困っています。
ネットから集めてくるよう指示した場合、かぶたん、yahooファイナンス、から集めてくるようですが、それでもデータは虫食い状態です。
しかも集められるのは一回の命令につき、5つくらいです。
間違いも多く、画像に赤丸つけてこのデータを持ってこいと教えても、理解できないようです。
どのようにすればよいのかアドバイスを頂けたらと思います。
皆様よろしくお願いします。