『はじめてのパターン認識』の第1章の勉強メモです。
パターン認識とは
パターン認識とは、物事の類型を知る働き、およびその内容。
用語 | 説明 |
---|---|
クラス | 物事の類型 |
識別 | クラスを判断すること |
特徴抽出 | 有効な特徴を抽出すること |
識別規則 | クラスと有効な特徴を結び付ける規則 |
学習 | 識別規則を更新すること |
特徴ベクトル | 抽出された特徴を並べてベクトルの形にまとめたもの |
学習データ | 学習するために入力データとクラスの対応関係を表したデータ |
汎化能力 | 学習データにはなかった未知の入力データ |
特徴の型
特徴は、以下に大別される
特徴 | 説明 |
---|---|
定性的特徴 | 非数値データとして抽出されたもの |
定量的特徴 | 数値データとして抽出されたもの |
特徴は、そのデータの特性により、さらに複数の尺度に分類される。
尺度 | ラベル | 順序関係 | 加減算 | 比例 |
---|---|---|---|---|
名義尺度 | 〇 | × | - | - |
順序尺度 | 〇 | 〇 | - | - |
間隔尺度 | - | - | 〇 | × |
比例尺度 | - | - | 〇 | 〇 |
定性的な特徴を計算机上で表現するためには2値変数で符号化する。この2値変数をダミー変数という。
特徴ベクトル空間と次元の呪い
適応制御において未知の複雑な関数を学習するために必要なデータが、次元の増加と共に指数関数的に増加することを次元の呪いという。
$d$次元単位超立方体の中心から頂点までの距離は
D(d)=\left\{d\times \left(\frac{1}{2}\right)^2\right\}^{\frac{1}{2}}=\frac{1}{2}\sqrt{d}
となる。
章末問題
1.1
[下章](# 指紋認証について)を参照。
1.2
(1)
下章を参照。
(2)
下章を参照。
(3)
$3$次元超立方体の$2$次元超平面(面)の個数は、問題式に則り、$_3 C_2 2^1=6$となり、正しい。
$1$次元超平面(辺)の個数は、$_3 C_1 2^2=12$となり、正しい。
$0$次元超平面(頂点)の個数は、$_3C_0 2^3=8$となり、正しい。
(4)
$d$次元超立方体の超平面は$0$次元~$d-1$次元が存在するので、総数は$\sum_{m=0}^{d-1} \ _dC_m2^{d-m}$個となる。
(5)
\begin{multline}
\begin{split}
\sum_{m=0}^{4} {}_5C_m2^{5-m}&= {}_5C_02^5+ {}_5C_12^4 +{}_5C_2 2^3+{}_5C_3 2^2+{}_5C_4 2^1\\
&=32+80+80+40+10\\
&=242
\end{split}
\end{multline}
単位超立方体について
$d$次元の単位超立方体とは、$d$次元ユークリッド空間$(x_1,x_2,\cdots,x_d)$において、$(x_1,x_2,\cdots,x_i,\cdots,x_d|x_i=\pm 1,\forall |x_n|\leq 1)$となる面の集合。
単位超立方体の$m(m< d)$次元の超平面は、残りの$d-m$次元の座標を$+1$または$-1$に固定した面のこと。その個数は、$m$個の次元の選び方$_d C_m$と残りの$d-m$次元の座標の取り方$2^{d-m}$より、$_d C_m 2^{d-m}$個となる。
単位超立方体の頂点は$0$次元の超平面のことなので、$_d C_0 2^d~2^d$個となる。
単位超立方体の面(ファセット)は$m-1$次元の超平面のことなので、$_d C_1 2^1=2d$個となる。
単位超立方体の辺は$1$次元の超平面のことなので、$_dC_12^{d-1}=d2^{d-1}$個となる。
単位超立方体の体積は、すべての直交する辺の長さを掛け合わせたもの。その値は、$d$次元で直交するする辺の数は$d$個で辺の長さは$1-(-1)=2$となるので、$2^d$となる。
単位超立方体の表面積は、すべての$d-1$次元超平面の体積を足し合わせたもの。その値は、$d-1$次元平面の体積は$2^{d-1}$でその個数は$_d C_1 2^1$となるので、$2^{d-1}\times_d C_1 2^1=d2^d$となる。
指紋認証について
指紋認証の方式には大きく分けて、特徴点(マニューシャ)方式、イメージマッチング方式、隆線特徴方式がある。
特徴点方式では、マニューシャと呼ばれる特徴点を求め、位置と属性を用いて類似度を計算する。イメージマッチング方式では、画像の類似度を計算する。隆線特徴方式では、小ブロックに分割して、そのブロック内の指紋の隆線の特徴を数値化して類似度を計算する。
マニューシャには、指紋の模様の途切れ(端点)や分岐(分岐点)を採用することが多い。
Rの実行環境を整える
Rをインストールする
- Rの公式サイトからインストーラをダウンロードする
- インストーラを実行し、すべて「次へ」で進める
Visual Studio Codeで利用する
-
Rの拡張機能をインストールする
-
「Ctrl」+「+」+「,」で設定を開き、「設定を開く」ボタンからsetting.jsonを開く
-
下のように、R.exeのパスを記載し、保存する
"r.rterm.windows": "C:\\Program Files\\R\\R-4.4.0\\bin\\x64\\R.exe"