0
4

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?

More than 3 years have passed since last update.

画像形式のPDFファイルから文字を取得する方法

Last updated at Posted at 2019-11-11

備忘録

簡易版です。

画像形式のPDFファイルからテキストを読み取りたいという要望があったので、適当に作ってみました。

使用変数
名前:count
型:int
規定値:1

①とりあえず繰り返しを配置する。
式の箇所には以下の値を設定。
count <= [pdfのページ数]
image.png

②読み取りたいPDFファイルを開く

③画面スクレイピングを起動
 読み取らせたい箇所を設定するよう指示があるのでPDFファイルを選択する。

④しばらくすると、結果が表示されるので、スクレイピング方法をOCRにする。
 上手く読み取れない時は拡大縮小を変える。
image.png

⑤文字列書き込みを追加する。
image.png

1行目にはcount+ページ数とする
2行目には読み取った結果を設定する
3行目には空白と改行コードを設定しページが変わった事を示す。

⑤ページが複数ある場合はホットキーを押下を使用する。
 キーはrightを使用する。
image.png

⑥最後にcountをカウントアップする。

以上

精度はガバガバだが、画像形式のpdfファイルからテキストをocrで読み取りテキストファイルに書き出す事は出来ます。

使用する場合は必ず対象のPDFファイルを1P目から開いていること。

0
4
0

Register as a new user and use Qiita more conveniently

  1. You get articles that match your needs
  2. You can efficiently read back useful information
  3. You can use dark theme
What you can do with signing up
0
4

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?