第1章:線形回帰
・機械学習の「教師あり」学習である「分類・回帰」の「回帰」にあたる。
・入力データはm次元のベクトルの説明変数(特徴量ともいう)であり、それに対する出力は目的変数(スカラー値)である。
・線形回帰は、データの塊を線形式で表す(近似する)ものであり、その線形式を表すパラメータ(未知パラメータ)を最小二乗法により推定する。つまり、データの各点と線形式で表される直線との誤差の総和が最も小さくなるパラメータを推定することである。
・式で表すと、y=w0+w1x1+ε となり、y:目的変数、x:説明変数、w0:切片、w1:回帰係数を表す。εは、各データが回帰直線上に無い場合に、その誤差を表すものである。
・上記の説明は、m次元が1次元の場合の説明である。多次元の場合は、行列式を構築し、同じ最小二乗法で近似する。ただし未知パラメータは次元に沿って増える。
・データの分割は、構築した回帰式の正確さを検証するためである。一般的に、全データの80%を学習用に、20%を検証用に使う。
・最尤法を用いて分散法を使う。「最もらしい値」を求めるのが最尤推定法であり、尤度関数を求めて、それが最大となる値を求めることである。
第2章:非線形回帰
・データが線形に並んでいる場合は少なく、一般的に複雑にプロットされている。そのため非線形回帰モデルが使われる。しかし、使われている理論は、線形回帰モデルと同じであるため、未知パラメータを求める手法も同じく、最小二乗法や最尤法を用いる。
・相違点は、基底関数と呼ばれる非線形関数を使い、パラメータを1つだけ使う線形では表しきれない多項式を表す。
基底関数には、多項式関数、ガウス型基底関数、スプライン関数等がある。
・学習データに対して、誤差が小さくならない状態を未学習、学習データとの誤差は小さいが、検証データとの誤差が小さくならない状態を過学習という。過学習を抑制する方法として正則化を使う。
・正則化では、正則化項付きの最小二乗法における目的関数を最小化することを目的としている。その方法として、L2ノルムを利用したRidge推定量(係数の値を小さくする正則化)と、L1ノルムを利用したLasso推定量(値を0とする係数を多くする正則化)等を使う。
・ホールドアウト法は、全データを学習用とテスト用(検証用)に分け、予測精度や誤り率を推定する。ただし、一方のデータ量を多くして精度を上げたとしても、他方の精度が落ちる問題があり、全データが多く存在する場合に効果が得られる。
・交差検証は、ホールドアウト法の欠点を補う方法で、全データを複数のデータのグループに分割し、全てのグループが1回、検証用データとして使われるように学習を繰り返し、誤差率の平均を性能予測値とする。この予測値が小さい手法(モデル)が最も良いモデルと推定できる。
第3章:ロジスティック回帰
・教師あり学習で、分類問題を解く方法であり、出力関数にシグモイド関数を使う。
・シグモイド関数は、入力Xに対して、0~1の間の出力をする関数であり、微分をした場合、シグモイド関数自身で表現することができる。 f’(x)=f(x)*(1-f(x))
・x=0の時、Y=0.5とことを利用し、出力Yを確率とみなし、0.5以上なら1、以下なら0として、分類問題を解く。
・最尤推定法とは、最も尤もらしくなるようにパラメータを選択する方法である。
・勾配降下法とは、学習によりパラメータを更新し、最適値を求める手法
・確率的勾配法とは、ランダムにデータを1つ選び更新する。勾配降下法は、N個のデータにつき、1回更新するところを確率的勾配法では1個のデータにつき1回で更新できる。
・モデルの評価は、選択したモデルに対する性能評価であり、以下の4つの項目で評価する。
正解率:全体のデータの中で正解した割合((TP+TN)/(TP+FN+FP+TN))
再現率:誤りがあっても、漏れを少なくしたい場合の指標(TP/(TP+FN))
適合率:見逃しがあっても、正確な予測をしたい場合の指標(TP/(TP+FP))
F値:再現率と適合率がトレードオフの関係であるため、両者の最適値を求める指標
予測:Positive 予測:Negative
実際:Positive TP FN
実際:Negative FP TN
第4章:主成分分析
・多変量データを次元削減して、より少数個の指標にまとめることである。
・次元削減をしても、全体のデータの情報損失をできるだけ小さくする、
・主成分は、固有方程式を解くことで求められ、固有値と分散値は一致する。また、最大固有値に対応する固有ベクトルで線形変換された主成分を第一主成分と言う。
・次元削減する方法はいくつかあり、主成分分析の他に、カーネル主成分分析、自己符号化器(オートエンコーダ)、多次元尺度構成法がある。
第5章:アルゴリズム
・K近傍法:「教師あり・分類問題」を解く手法で、新規データと「距離(k)が近い」既存データの数によって、クラス分類を行う。kの値を事前に決定し、それによって、分類されるクラスが決定される。
・K平均法:「教師なし・クラスタリング」手法で、全データをk個のクラスタに分類する手法である。各クラスタの中心との距離を計算し、最も距離が小さいクラスタにデータを割り当てる。その後、再度中心(各クラスタの平均ベクトル)を計算し、再度クラスタの割り当てを行う。これを繰り返して最適なクラスタに分類する。
第7章:サポートベクターマシン
・2クラス分類を行うための手法である、決定境界を決めた時に、より大きなマージンが得られるようにする方法である。マージンとは、決定境界と最も近いデータとの距離である。
・マージンを最大化する目的関数は、線形識別関数を、Z=W1X1+W2X2とした場合、勾配が緩い関数、つまり、W1,W2においてL2ノルムが小さい場合を求めることと同じである。よって、1/2||W||2 が最小となる場合を求める。