直面した問題
PDFの文字列を取得してみると、たまに変な文字が入っていたりする。
検索書けて合致する場所を探そうとしても、うまくひっかからない。
以下の文字列をメモ帳にコピペしてみてね!
⾼高
⽥田
⼭山
ね、違うでしょ?
コンソールでは全く同じ文字に見えていたので、なぜうまく検索に引っかからないのか気づくまで時間がかかりました。
原因はユニコードらしい
どう検索してたどり着いたかは忘れましたが、ここを参考にしました。
https://qiita.com/korkewriya/items/e747253b715f41febfc4
以下のコードで解決
# resultにはすでに何らかの文字列が入っているものとする
from unicodedata import normalize
result = normalize('NFKC', result) # Unicode正規化