勉強前イメージ
全然聞いたこともなくてよくわからん
調査
OCRとは
Optical Character Recognition の略で、光学文字認識の意味です。
印刷や手書きの文字を光化学的(カメラ・スキャナ)な機械で、データとして読み込み、文字の認識をすることで
テキストに変換する技術です。
OCRの歴史
開発は1928年のオーストラリアで、印刷された数字を読み取るもので
翌年の1929年にはアメリカで、数字とアルファベットを読み取るものが開発されています。
日本では1968年に郵便番号を読み取り仕分けするためのものとして開発されました。
データ化までの流れ
- 画像の読み取り : 画像データとしてと取り込み
- レイアウトの認識 : 文書の文字・罫線・写真の要素を分解して文字の部分を確認
- 文字列の認識 : 見出し・段落・行から1文字単位に分ける
- 文字の認識 : 1文字単位にしたものを特徴から文字の認識を行う
- 出力 : テキストデータやCSVなどに出力を行う
勉強後イメージ
あまりつっこんで調べられてないけど、
はがきの郵便番号とか書くところ決まってるし、その枠で↑のレイアウトの認識をしてるのかな
しかも結構歴史があるのね。
もうちょっと最近技術かと思った。