LoginSignup
2
2

More than 1 year has passed since last update.

Pythonを使って、PDFファイル中の任意の文字列を変換する

Last updated at Posted at 2021-08-19

pdf-redactor を使って可能でした。
https://github.com/JoshData/pdf-redactor

Install

https://github.com/JoshData/pdf-redactor からZIPファイルをダウンロード

ライブラリをインストールする。

pip3 install -r requirements.txt

構文ファイルを書く

この例ではPDF ファイル中の 123456 を、ABCDEFに置換している。

hoge.py
import re
from datetime import datetime

import pdf_redactor

options = pdf_redactor.RedactorOptions()
options.content_filters = [
    (
        re.compile(u"123456"),
        lambda m : "ABCDEF"
    ),
]
pdf_redactor.redactor(options)

動作させてみる

conv.bat
python hoge.py < input.pdf > output.pdf

諸問題

PDFはフォントを埋め込むため、ドキュメント中で使用されていない文字に置換しようとすると、文字が歯抜けになります。。

2
2
0

Register as a new user and use Qiita more conveniently

  1. You get articles that match your needs
  2. You can efficiently read back useful information
  3. You can use dark theme
What you can do with signing up
2
2