#####分類問題(クラス問題)
ある入力(数値)からクラスに分類する問題
#####分類で扱うデータ
- 入力(各要素を説明変数または特徴量と呼ぶ)
m次元のベクトル(m次元の場合はスカラ)
- 出力(目的変数)
0 or 1の値
- タイタニックデータ、IRISのデータなど
#####シグモイド関数
- 入力は実数、出力は必ず0~1の値
- (クラス1に分類される)確率を表現
- 単調増加関数
\sigma (x)= \frac{1}{1+\exp(-ax)}
- シグモイド関数の性質
シグモイド関数の微分はシグモイド関数で表せる。
- シグモイド関数の出力をY=1になる確率に対応させる
P(Y=1|x)=\sigma (w_o+w_1x_1+...+w_mx_m)
データYは確率が0.5以上ならば1、未満なら0と予測
- ベルヌーイ分布
数学において、確率pで1、確率1-pで0をとる、離散確率分布(例;コイン投げ)
- 同時確率
あるデータが得られた時、それが同時に得られる確率
確率変数は独立であることを仮定すると、それぞれの確率の掛け算となる。
- 尤度関数とは
データは固定し、パラメータを変化させる
尤度関数を最大化するようなパラメータを選ぶ推定方法を最尤度推定という
- ロジスティック回帰モデルの最尤推定
- 尤度関数を最大とするパラメータを探す(推定)
対数をとると微分の計算が簡単
対数をとるのは桁落ちしないため
- 勾配降下法
w(k+1)=w^k-\eta\frac{\partial E(w)}{\partial w}
- 勾配降下法では、パラメータを更新するのにN個全てのデータに対する和を求める必要がある。
nが巨大になったときにデータをオンメモリに載せる容量が足りない、計算時間が莫大になるなどの問題がある
確率的勾配降下法を利用して解決
- 確率的勾配降下法(SGD)
w(k+1)=w^k+\eta (y_i-p_i)x_i