2.5 ノンパラメトリック法

  • パラメトリック

    分布の形を仮定し、観測値に合わせてパラメーターを調節する手法。一般に、モデルの関数形が適切であれば、ノンパラメトリックな場合より少ない訓練事例数で適切な推定ができる。

  • ノンパラメトリック

    分布の形を仮定せず、観測値によって分布を決める手法。パラメータでその形状が決まる関数で明示的には表されていないモデルを用いる場合をさす。ノンパラメトリックの場合でもパラメータはあるにはあるが,これらは関数の形状ではなく,モデルの複雑さを主に調整する。

ヒストグラム密度推定法

2.241.png
- Δの値による推定の変化

図2.24.png

Δは適切な値にしないと分布の特徴を抑えきれない。

利点

一度ヒストグラムを求めると、元データを破棄できる。→大規模データに有利。
データが逐次的に与えられた時に容易に適用できる。

欠点

推定した密度が区画の縁で不連続になる。
次元数が増えると、指数的に区間の総数が増え、計算規模が増大する。(次元の呪い)

ヒストグラム法は1次元か2次元のデータの可視化には役に立つが、他の殆どの密度推定の応用問題には適さない。

  • ヒストグラム密度推定法から分かること

特定の一の確率密度を推定するにはその点の近傍のデータ点も考慮すべき

近傍の特性は区間によって定義されている。
区間の幅→平滑化パラメータ

平滑化パラメータの値は、大きすぎず、小さすぎず、適切な値にすべき

多項式曲線フィッティングの際のモデル複雑度の選択と似ている。

2.5.1カーネル密度推定法

xを含むある小さな領域Rに割り当てられた確率P(式 2.242)
2.242.png

R内の天の総数Kは二項分布に従う(式 2.243)
2.243.png
点がこの領域にある平均割合は2.244-1.png
平均の周りの分散は
2.244-2.png
Nが大きい時2.244-3.png

大きなNについて分布が平均の周囲で鋭く尖ったものとなる。(式 2.244)
2.244.png
R内の確率見る度が領域内でほぼ一定(式 2.245)
2.245.png
(式 2.244)と(式 2.245)合わせる(式 2.246)
2.246.png
領域Rは近似的に密度が一定とみなせるほど小さく、二項分布が鋭く尖るほど十分な量のKが存在する。

(式 2.246)の結果は2通りに使うことが出来る。
図1.png

カーネル密度推定法(Vを固定し、Kを推定)

カーネル密度推定とは?
- 統計学において、確率変数の確率密度関数を推定する手法の1つ
- ある母集団の標本データが与えられたとき、カーネル密度推定を使えばその母集団のデータを外挿できる。

カーネル密度推定のアイデア
カーネル図.png
各観測値の周りに一様にブロックを積むのではなく、滑らかなカーネルを用いてそれを積み上げる→滑らかな密度関数が得られる。

原点を中心とした単位立方体を表す関数(式 2.247)
2.247.png

k(u)・・・カーネル関数→ノンパラメトリックな推定手法に用いられる重み付け関数のことである。

カーネル関数の一例

  • Parzen窓

k((x-xn)/h)は、xを中心とする一遍がhの立方体の内部にデータ点xnがあれば1、そうでなければ0となる関数。大まかに言えば、ある母集団の標本のデータが与えられたとき、カーネル密度推定を使えばその母集団のデータを外挿できる。

立方体内部の総点数(式 2.248)
2.248.png
(式 2.249)に代入すると、xの推定密度が得られる。
2.249.png

  • Parzenの窓の問題点

立方体の縁で確率密度が不連続となってしまう。

  • 解決策

ガウスカーネルを使う
ガウスカーネル.png
xiとxjの近さを表します。

確率モデルは(式 2.250)
2.250png.png

モデル(式 2.250)を適用した結果(図 2.25)
小さくしたしすぎるとノイズが多くなり、大きくしすぎると過剰に平滑化されてしまう
図2.25.png

カーネル密度推定法の利点・欠点

  • 訓練段階では単なる訓練集合を保存しておけばよい。
  • 密度の評価にかかる県産コストがデータ集合の大きさに比例。

2.5.2 最近傍法

最近傍法とは?

  • 近いデータに合わせる→判別対象のデータがどの鋳型(学習データ)に一番近いかで判別する。 最近傍法.png
  • カーネル密度推定法の問題点

    カーネル幅(密度推定の粒度)を決めるパラメータhがすべてのカーネルで一定となっている。
    ・hが大きいと、全体的に平滑化される。
    ・hが小さいと、全体的にノイズの多い推定

  • 解決策

    データ空間内の位置に応じてhを変える→最近傍法

k近傍法(kを固定し、vを推定)

k近傍法とは?

  • p(x)を推定したい点xを中心とした小球を考え、その半径をk個のデータ点を含むようになるまで広げる。
  • この時の体積をvとし、(式 2.246)から密度推定。
  • カーネルに密度推定法ではh(単位立方身体の一辺の大きさ)が精度に関連してきたが、k近傍法ではkが精度に関連してくる。

(図 2.24)や(図 2.25)と同じデータ集合にパラメータkを適用した結果(図 2.226)
小さくしすぎるとノイズが多くなり、大きくしすぎると過剰に平滑化されてしまう。
図2.26.png

k近傍法を用いたクラス分類

  • 目的

クラスCk中にNk個の点があり、点の総数はNである。
データ集合に対し、新たな点xを分類する。

  • 分類方針

・xを中心として、クラスを考えずにk個の点を含む球を見つける。
・各クラスについてベイズの定理を適用し、クラスに属する事後確率を求める。
・事後確率が最大のクラスに割り当てる。

xを中心とし、クラスは考えずにk個の点含むような球を見つける。この球が体積V
クラスCkに属する点をそれぞれKk個含んでいたとする。

(式 2.246)より各クラスの密度の推定値が得られる。(式 2.253)

2.253.png

条件のない密度( 2.254)
2.254.png

クラスの事前分布(式 2.255)
2.255.png

(式 2.253)(式 2.254)(式 2.255)を合わせ、ベイズの定理を適用(式 2.256)
2.256.png
誤分類の確率を最小にする→事後確率を最大化する。

  • 分類手順

    1.訓練データ集合からk近傍の点集合を選ぶ
    2.この集合の中で最も多数派にクラスを割り当てる。ただし、同順位だった場合はランダム

  • k=1の時を最近傍則という

最近傍則の特徴

N→∞の極限で、誤分類率は、真のクラス分布を用いた最適な分類器で達成可能な最小誤差分類率のたかだか2倍にしかならない。

k近傍法・カーネル密度推定法共通の特徴

データ集合全体を保持しなくてはならない。(データ集合が大きいと膨大な計算量)
探索用の木構造の構築で対処可能。

図 最近傍.png
図 2.28png.png

Sign up for free and join this conversation.
Sign Up
If you already have a Qiita account log in.