[Q&A] PDF内のベクトルデータが文字なのか図形なのかを区別する方法はありますか？

PDF内のベクトルデータが文字なのか図形なのかを区別する方法はありますか？

PDF内のベクトルデータが文字なのか図形なのかを区別する方法はありますか？
言語はpythonが最もそういったライブラリが豊富ではないかと思われる為
一応pythonとしていますが言語にこだわりはありません。

ベクトルデータのうち図形のみ区別し図形に対してのみラスタライズを掛けたいです。
そういったライブラリをご存知の方はご教示頂けますと幸いです。

0 likes

1Answer

おそらくもとめている回答ではないと思いますが、すこしだけ。

文字と図形の区別をしたいという話ですが、「文字」というのが、例えば「英語の文字」なのか「日本語の文字」なのか、その他の言語の文字なのか、など様々な範囲があると思います。

例えば、「数字だけ」であればディープラーニングの学習済のモデルが使えると思いますし、もしかしたらそれ用のライブラリも使いやすいものがあるかもしれません。
あるいは、「英語だけ」とか「ひらがなだけ」「日本語の活字だけ」「日本語の草書体」などの学習済モデルなどもあるかもしれません。

ですが、どんな文字でも判定できるライブラリのようなものは存在しないと思います（そもそも、そのようなものが欲しいのかどうかもわかりませんが）。
特定の文字について判定できるライブラリが存在しても、それが要望にマッチしたものなのかはわかりません。

一番簡単に思いつくのは OCR ソフト/ライブラリで認識できれば文字、そうでなければ図形と判断するとかでしょうか？
とはいえ、かなり誤判断は多そうに思います。

基本は目的（主に文字の範囲）に合わせて、様々な機能を組み合わせないと実現できないのではないでしょうか。

0Like

Are you sure you want to delete the question?