データはないのか?
元からないか?
買えないか?
似たものはないか?
pdfから変換はできないか?
pdf → word
pdf → text
など
※ライブラリを試すときは何個か試してみること。
ライブラリによっては簡単にできる可能性もあり。
例えばpdf詳解に乗ってるような細かいフォーマットを知らないと
実装ができないという思い込みは禁物。
ライブラリを変えただけで文字化けが直るなど、
理解が足りなくてもすぐに解決する場合もある。
もちろん時間があるときに細かく理解する努力は必要。
pdfのライブラリを書いてるようなgitのプロジェクトに入るか、
海外エンジニアのメンターのサービスを使って質問すると良い。
クローリングはできないか?
とって来れそうなサイトはないか。
OCRはできないか?
複合機や、既存のソフトウェアでは対応できないか?
紙に印刷すると簡単にできないか?
Google, Azure, Awsのapiを使えないか?
※枚数が多いと金額が高いので注意。個人的に考えずに使って60万くらい溶かした。クレジットリボ払いにした。涙
Tesseract OCRなどのライブラリはどうか?
精度はあまり良くないが悪くもない。
独自アルゴリズム実装のpocをやらせてもらえないか?
機能自体代用できないか?
など