やったこと
100件ほどの帳票PDFを内容確認する必要があり、Xpdfを使ってPDF→txtへ変換してgrepで確認できるようにしました
Xpdfをインストールする
XpdfはPDFビューアとPDF操作ツールが一体となったパッケージソフトです。
今回使ったテキスト変換(pdftotext)以外にも、png変換(pdftopng)やHTML変換(pdftohtml)などがあります。
Mac環境のため主にこちらの記事を参考にしました。
ディレクトリ配下のPDFを一括でテキストファイルに変換する
cd hoge/
for i (**/*.pdf) pdftotext -enc UTF-8 -layout -table -f 1 -l 1 "${i}"
forコマンドを使ってhoge配下のPDFファイルを全てテキストファイルへ変換します。
-
-enc UTF-8
- xpdfの設定ファイルがうまく読み込めなかったので付与しています。ちゃんと設定すれば不要
-
-layout
-table
- PDFのレイアウトを保持して崩れにくくするためのオプション。今回はExcel方眼紙的な帳票だったため付与他にも
-simple
などがあり組み合わせを試して設定しています
- PDFのレイアウトを保持して崩れにくくするためのオプション。今回はExcel方眼紙的な帳票だったため付与他にも
-
-f 1
-l 1
開始ページ(-f)と終了ページ(-l)。帳票の1ページ目だけ取得すれば良かったので付与
変換が成功すると同ディレクトリ内にpdfと同名のテキストファイルが作成されます。
あとはgrepコマンドでよしなに
今回はデータが単純だったので、grepコマンドで検証に事足りました。