画像認識技術とは?
テキスト認識、顔認識などすべて画像認識技術の応用です。ただし、これは全部画像認識技術の基本応用です。最先端の技術はすでに犬の写真のか猫の写真のかを認識できるようになりました。
それはどうやったの?専門家たちの研究で、人間は物の輪郭を見てから、それが何ですかを判断しています。画像認識技術も同じでまずは画像の輪郭を認識から始めます。
カリフォルニア大学の学生AditDeshpandeは、《A Beginner's Guide To Understanding Convolutional Neural Networks》という記事を書きました。その中に初心者向けて、画像認識のアルゴリズムや基本的な原因を分かりやすく紹介しました。
コンピュータは画像を数値配列に転換していますので、「画像認識」とは数値配列を分析することです。一般的に余裕な情報を除外するために、画像を縮小し(49 x 49ピクセル)、各ピクセルの色情報をグレー値に変換して、49 x 49のマトリックスを取得することができます。
次に、左上から小さなブロックを1つずつ取り出して計算します。
右側の図は曲線、左側は曲線の7 x 7のグレーマトリックスです。曲線のところにエッジグレー値が高い、他はすべて「0」です。
左上隅のブロックを取り出して、グレーマトリックスに転換し、マトリックスの重複ところの数値を乗算して合計する結果は6600です。かなり大きい数値ですが、何を説明できるのか?
ネズミの頭をマトリックス化にすると値は0になります。
結論:
計算結果の値が大きいだと画像一致する部分が多いという結論出来ました。通常はたくさんモードが事前用意されており、ブロックごとに最適なモードを計算され、最後に全体を判断されます。