LoginSignup
13
7

やったこと

100件ほどの帳票PDFを内容確認する必要があり、Xpdfを使ってPDF→txtへ変換してgrepで確認できるようにしました

Xpdfをインストールする

XpdfはPDFビューアとPDF操作ツールが一体となったパッケージソフトです。
今回使ったテキスト変換(pdftotext)以外にも、png変換(pdftopng)やHTML変換(pdftohtml)などがあります。

Mac環境のため主にこちらの記事を参考にしました。

ディレクトリ配下のPDFを一括でテキストファイルに変換する

cd hoge/
for i (**/*.pdf) pdftotext  -enc UTF-8 -layout -table -f 1 -l 1  "${i}"

forコマンドを使ってhoge配下のPDFファイルを全てテキストファイルへ変換します。

  • -enc UTF-8
    • xpdfの設定ファイルがうまく読み込めなかったので付与しています。ちゃんと設定すれば不要
  • -layout -table
    • PDFのレイアウトを保持して崩れにくくするためのオプション。今回はExcel方眼紙的な帳票だったため付与他にも-simpleなどがあり組み合わせを試して設定しています
  • -f 1 -l 1
    開始ページ(-f)と終了ページ(-l)。帳票の1ページ目だけ取得すれば良かったので付与

変換が成功すると同ディレクトリ内にpdfと同名のテキストファイルが作成されます。

あとはgrepコマンドでよしなに

今回はデータが単純だったので、grepコマンドで検証に事足りました。

13
7
0

Register as a new user and use Qiita more conveniently

  1. You get articles that match your needs
  2. You can efficiently read back useful information
  3. You can use dark theme
What you can do with signing up
13
7