1
0

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?

More than 5 years have passed since last update.

PDFから文字の読み取り処理する時の検討事項

Posted at

データはないのか?
 元からないか?
 買えないか?
 似たものはないか?

pdfから変換はできないか?
pdf → word
pdf → text
など

※ライブラリを試すときは何個か試してみること。
ライブラリによっては簡単にできる可能性もあり。
例えばpdf詳解に乗ってるような細かいフォーマットを知らないと
実装ができないという思い込みは禁物。
ライブラリを変えただけで文字化けが直るなど、
理解が足りなくてもすぐに解決する場合もある。
もちろん時間があるときに細かく理解する努力は必要。
pdfのライブラリを書いてるようなgitのプロジェクトに入るか、
海外エンジニアのメンターのサービスを使って質問すると良い。

クローリングはできないか?
 とって来れそうなサイトはないか。

OCRはできないか?
 複合機や、既存のソフトウェアでは対応できないか?
 紙に印刷すると簡単にできないか?
 Google, Azure, Awsのapiを使えないか?
  ※枚数が多いと金額が高いので注意。個人的に考えずに使って60万くらい溶かした。クレジットリボ払いにした。涙
 Tesseract OCRなどのライブラリはどうか?
  精度はあまり良くないが悪くもない。
 独自アルゴリズム実装のpocをやらせてもらえないか?

機能自体代用できないか?
など

1
0
0

Register as a new user and use Qiita more conveniently

  1. You get articles that match your needs
  2. You can efficiently read back useful information
  3. You can use dark theme
What you can do with signing up
1
0

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?