More than 5 years have passed since last update.

PDFに入っている文字列が変で困った

Posted at 2020-03-03

直面した問題

PDFの文字列を取得してみると、たまに変な文字が入っていたりする。
検索書けて合致する場所を探そうとしても、うまくひっかからない。

⾼高
⽥田
⼭山

ね、違うでしょ？
コンソールでは全く同じ文字に見えていたので、なぜうまく検索に引っかからないのか気づくまで時間がかかりました。

どう検索してたどり着いたかは忘れましたが、ここを参考にしました。
https://qiita.com/korkewriya/items/e747253b715f41febfc4

# resultにはすでに何らかの文字列が入っているものとする
from unicodedata import normalize
result = normalize('NFKC', result)  # Unicode正規化