More than 5 years have passed since last update.

画像形式のPDFファイルから文字を取得する方法

Last updated at 2019-11-26Posted at 2019-11-11

備忘録

簡易版です。

画像形式のPDFファイルからテキストを読み取りたいという要望があったので、適当に作ってみました。

使用変数
名前：count
型：int
規定値：1

①とりあえず繰り返しを配置する。
式の箇所には以下の値を設定。
count <= [pdfのページ数]

②読み取りたいPDFファイルを開く

③画面スクレイピングを起動
　読み取らせたい箇所を設定するよう指示があるのでPDFファイルを選択する。

④しばらくすると、結果が表示されるので、スクレイピング方法をOCRにする。
　上手く読み取れない時は拡大縮小を変える。

⑤文字列書き込みを追加する。

1行目にはcount+ページ数とする
2行目には読み取った結果を設定する
3行目には空白と改行コードを設定しページが変わった事を示す。

⑤ページが複数ある場合はホットキーを押下を使用する。
　キーはrightを使用する。

⑥最後にcountをカウントアップする。

以上

精度はガバガバだが、画像形式のpdfファイルからテキストをocrで読み取りテキストファイルに書き出す事は出来ます。

使用する場合は必ず対象のPDFファイルを1P目から開いていること。