はじめに
はじめてのパターン認識 を読み進めて理解した内容を章ごとにまとめていきます。随時アップデート予定。
各章のまとめ
事前知識
- パターン認識という分野がある
- 画像や音声といったデータの中に潜む何かしらのルールを自動で抽出する方法を研究する学問
- パターン認識を実現するための1つの手法として機械学習があるが、パターン認識=機械学習と考えてもよい
1.1 パターン認識とは
- パターン
- 型、類型
- 認識
- 人間が物事を知る働き、およびその内容
- よって パターン認識 とは物事の類型を知るはたらき、およびその内容
- 識別
- 何かを判断すること
- 特徴抽出
- 判断するために必要な特徴を抽出すること
-
特徴ベクトル とは抽出された特徴を並べてベクトルの形にまとめたもの
- 例:硬貨の透磁率や重さ、サイズ、穴の有無など
- 識別規則
- 入力データが所属する正しいクラスを同定するために規則
- 識別規則を作るためには、入力データとそのクラスを対にしたたくさんの事例を使って、入力データとクラスの対応関係を学習する必要がある
- 汎化能力
- 未知の入力データに対して正しいクラスを識別する能力
1.2 特徴の型
定性的特徴
- 非数値データとして抽出された特徴
- 名義尺度も順序尺度も比例尺度である出現頻度に変換して取り扱うことが多い
- 2つのクラスラベルを表すには、0, 1 といったように符号を用いる
- クラス数が2個以上ある場合は、N個の2値変数を用意し、クラスに対応する変数のみを1として他を0とする符号化を行う ダミー変数 化を行う
- 名義尺度
- 他と区別し分類するための名称のようなもの
- 変数値間の比較は等しいか異なるかでしか行えない
- 離散変数、カテゴリ変数ともよばれる
- 例:男女、血液型、郵便番号、住所、本籍地、所属学部、学籍番号
- 順序尺度
- 順序や大小には意味があるが間隔には意味がないもの
- 比較はできるが、加減算などの演算はできないc
- 例:1位 / 2位 / 3位…、1. 好き / 2. ふつう / 3. 嫌い
定量的特徴
- 数値データとして抽出された特徴
- 間隔尺度
- 目盛が等間隔になっているもので、その間隔に意味があるもの
- 原点はあっても無ではない
- 例えば、気温が19℃から1℃上昇すると20℃になるとは言えるが、10℃から20℃に上昇したとき、2倍になったとは言えないもの
- 例:カレンダーの日付、試験の成績
- 比例尺度
- 0が原点であり、間隔と比率に意味があるもの
- 例えば、身長が150cmから30cm伸びると180cmになると言えるし、1.2倍になったとも言えるもの
- 例:身長、速度、睡眠時間、値段、給料、幅跳びの記録
1.3 特徴ベクトル空間と次元の呪い
- 適応制御において未知の複雑な関数を学習するために必要なデータが次元の増加と共に指数関数的に増加すること
- 特徴数が n個であれば特徴ベクトルは n次元線型空間を張る
- 16 * 16 = 256 個の画素値からなる手書き文字の画像データを256次元と表現する
- 各画素が 16レベルの段階を持っていた場合、$16^{256}$ となり、1枚の画像は少なくとも256桁ある区画の中の1つの区画を埋めるだけである