2
4

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?

More than 3 years have passed since last update.

PDFに入っている文字列が変で困った

Posted at

直面した問題

PDFの文字列を取得してみると、たまに変な文字が入っていたりする。
検索書けて合致する場所を探そうとしても、うまくひっかからない。

以下の文字列をメモ帳にコピペしてみてね!

⾼高
⽥田
⼭山

ね、違うでしょ?
コンソールでは全く同じ文字に見えていたので、なぜうまく検索に引っかからないのか気づくまで時間がかかりました。

原因はユニコードらしい

どう検索してたどり着いたかは忘れましたが、ここを参考にしました。
https://qiita.com/korkewriya/items/e747253b715f41febfc4

以下のコードで解決

# resultにはすでに何らかの文字列が入っているものとする
from unicodedata import normalize
result = normalize('NFKC', result)  # Unicode正規化
2
4
0

Register as a new user and use Qiita more conveniently

  1. You get articles that match your needs
  2. You can efficiently read back useful information
  3. You can use dark theme
What you can do with signing up
2
4

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?