機械学習
機械学習
トム・ミッチェル(1997)は、「コンピュータプログラムは、タスクTを性能指標Pで測定し、その性能が経験Eにより改善される場合、タスクTおよび性能指標Pに関して経験Eから学習すると言われている。」と機械学習について定義した。1ここで、タスクTとは分類や回帰、機械翻訳などであり、性能指標Pとはモデルの精度や翻訳タスクにおけるBLEU値などのことである。また機械学習アルゴリズムは、学習過程においてどのような経験を獲得できるかによって、大きく教師なし(unsupervised)と教師あり(supervised)に分類できる。1
第一章 線形回帰モデル
講義
回帰モデル
ある入力(離散値あるいは連続値のスカラーまたはベクトル)から連続値のスカラーを出力するモデル。
この時の入力を説明変数または特徴ベクトルといい、出力を目的変数という。
- 説明変数 $\boldsymbol{x}=(x_1,x_2,\cdots,x_m)^T\in \mathbb{R}^m$
- 目的変数 $y\in \mathbb{R}^1$
線形回帰モデル
入力とm次元パラメータの線形結合を出力するモデル
教師あり学習である。
- パラメータ $\boldsymbol{w}=(w_1,w_2,\cdots,w_m)^T\in \mathbb{R}^m$
- 線形結合 $\boldsymbol{w}^T\boldsymbol{x} + w_0 = \sum_{j=1}^{m}w_jx_j+w_0$
線形回帰モデルのパラメータは最小二乗法で推定する。
- 最小二乗法 $MSE_{train}=\frac{1}{n_{train}}\sum_{i=1}^{n_train}(\hat y_i^{(train)}-y_i^{(train)})^2$
$\frac{\partial}{\partial \boldsymbol{w}}MSE_{train}=0$を解くことで
$\hat w={\rm argmin} MSE_{train}$
を求める。
- 回帰係数 $\hat{\boldsymbol{w}}=(X^{(train)T}X^{(train)})^{-1}X^{(train)T}\boldsymbol{y}^{(train)}$
- 予測値 $\hat{\boldsymbol{y}}=X^{(input)}(X^{(train)T}X^{(train)})^{-1}X^{(train)T}\boldsymbol{y}^{(train)}$
ハンズオン
ボストン住宅データセットを線形回帰モデルで分析する。
データを読み込み、pandasのdataframeで表示する。
scikit-learnとの比較用にnumpyで実装する
RM(部屋数)を特徴変数、PRICE(価格)を目的変数とする。
scikit-learnとnumpyでの結果を比較する。
ただし、このモデルでは部屋数が1の部屋の価格をマイナスにしてしまった。
次にCRIM(犯罪率)とRM(部屋数)を特徴変数、PRICE(価格)を目的変数とする。
しかし、これでもおかしな結果が出てしまった。
回帰係数と切片の値を確認する。
精度を求めるため、学習データと検証データに分割し、モデルを学習させ、学習データと検証データそれぞれで予測する。
モデルが求めた結果と正解の差をプロットする。0の線から遠いほど正解からずれている。
平均2乗誤差、R^2を計算する。
第二章 非線形回帰モデル
講義
非線形回帰モデル
複雑な非線形構造を非線形関数により表現するモデル
-
基底展開法
線形回帰モデルと基本は同じだが、入力を基底関数と呼ばれる既知の非線形関数で変換しておく。
未知パラメータは線形回帰モデルと同様に最小2乗法や最尤法により推定できる。 -
パラメータ $\boldsymbol{w}=(w_1,w_2,\cdots,w_m)^T\in \mathbb{R}^m$
-
線形結合 $y_i = \sum_{j=1}^{m}w_j\phi_j(x_i)+w_0+\epsilon_i$
$\phi()_j$には多項式関数やガウス型基底関数、スプライン関数が用いられる。 -
説明変数 $\boldsymbol{x}_{i} = (x_{i1}, x_{i2}, \cdots, x_{im}) \in \mathbb{R}^{m}$
-
非線形関数ベクトル$\boldsymbol{\phi}(\boldsymbol{x_i}) = (\phi_{1}(\boldsymbol{x}_{i}), \phi_{2}(\boldsymbol{x}_{i}), \cdots, \phi_{k}(\boldsymbol{x}_{i}))^{T} \in \mathbb{R}^k$
-
非線形関数の計画行列 $\Phi^{(train)} = (\phi(x_{1}), \phi(x_{2}), \cdots , \phi(x_{n})) \in \mathbb{R}^{n \times k}$
-
最尤法による予測値 $\hat{y} = \Phi(\Phi^{(train)T}\Phi^{(train)})^{-1}\Phi^{(train)T} \boldsymbol{y}^{(train)}$
未学習(underfitting)と過学習(overfitting)
- 未学習
学習データに対して、十分小さな誤差が得られないモデル - 過学習
小さな誤差は得られたけど、テスト集合誤差との差が大きいモデル
正則化
モデルが複雑になると過学習になってしまう
->「モデルの複雑さに伴って、その値が大きくなる正則化項(罰則項)を課した関数」を最小化する
$S_{\gamma} = (\boldsymbol{y} - \Phi\boldsymbol{w})^{T}(\boldsymbol{y} - \Phi\boldsymbol{w}) + \gamma\boldsymbol{R}(\boldsymbol{w})$
$\gamma\boldsymbol{R}(\boldsymbol{w})$が正則化項
- 正則化項の役割
- なし⇒最小二乗推定量
- L2ノルム:Ridge推定量(縮小推定)
パラメータを0に近づけるよう推定 - L1ノルムを利用⇒Lasso推定量(スパース推定)
いくつかのパラメータを0にすることで、計算上も有利
汎化性能
- 汎化性能
学習に使用した入力だけでなく、これまで見たことのない新たな入力に対する予測性能- 訓練誤差もテスト誤差もどちらも小さい▶汎化しているモデルの可能性
- 訓練誤差は小さいがテスト誤差が大きい▶過学習
- 訓練誤差もテスト誤差もどちらも大きい▶未学習
- ホールドアウト法
有限のデータを学習用とテスト用の2つに分割し、「予測精度」や「誤り率」を推定する為に使用 - クロスバリデーション(交差検証)
データを複数のブロックに分割しそれぞれのブロックを一度ずつ検証データとして使いホールドアウト法を行う。 - グリッドサーチ
全てのチューニングパラメータの組み合わせで評価値を算出
ハンズオン
線形回帰モデル、非線形回帰モデル、サポートベクター回帰モデル、ニューラルネットワークを比較する。
必要な設定をする。
ランダムなノイズを加えた関数を作成する。
線形回帰をする
Ridge推定量を用いて回帰した非線形モデル
Ridge推定量を用いて回帰した非線形モデル(scikit-learnのkernel.ridgeを用いない)
多項式を用いた回帰モデル
Lassoを用いた非線形モデル
SVM
ニューラルネットワークモデル
第三章 ロジスティック回帰モデル
講義
2値分類問題(クラス分類)
ある入力(数値のベクトル)からクラス(0 or 1)に分類する問題
- 説明変数 $\boldsymbol{x} = (x_{1}, x_{2}, ... , x_{m})^{T} \in \mathbb{R}^{m}$
- 目的変数 $y\in{0,1}$
ロジスティック線形回帰モデル
分類問題を解くための教師あり機械学習モデル(教師データから学習)
線形回帰の結果をシグモイド関数に入力することでy=1である確率を出力する。
シグモイド関数
入力は実数・出力は必ず0~1の値
$\sigma(x)=\frac{1}{1+exp(-ax)}$
最尤推定
データは固定し、パラメータを変化させる
尤度関数を最大化するようなパラメータを選ぶ推定方法
-
一回の試行で$y=y_1$になる確率
$P(y)=p^y(1-p)^{1-y}$ -
n回の試行で$y_1$~$y_n$が同時に起こる確率(p固定)
$P(y_1,y_2,\cdots,y_n;p)=\prod_{i=1}^n{p^y_i}(1-p)^{1-y_i}$
(pは既知) -
$y_1$~$y_n$のデータが得られた際の尤度関数
$P(y_1,y_2,\cdots,y_n;p)=\prod_{i=1}^n{p^y_i}(1-p)^{1-y_i}$
($y_i$は既知、pは未知) -
尤度関数
$E(\boldsymbol{w})=-log L(\boldsymbol{w})$ -
勾配降下法
反復学習によりパラメータを逐次的に更新するアプローチの一つ。
解析的に求めるのが困難なパラメータを探索する。 -
確率的勾配降下法
データをひとつずつランダムに選んでパラメータを逐次的に更新していくアプローチ。
混同行列
- 真陽性(TP)
正しくpositiveと判別した個数 - 偽陰性(FP)
間違えてpositiveと判別した個数 - 偽陽性(FN)
間違えてNegativeと判別した個数 - 真陰性(TN)
正しくNegativeと判別した個数 - 正解率
正解した割合 - Recall
陽性のうち陽性と判別した割合 - Precision
陽性と判別した物のうち陽性だった物の割合 - F値
RecallとPrecisionの調和平均
ハンズオン
タイタニックの乗客の生死を分類する。
必要な設定をし、データを読み込む。
不要な列を削除する。
NaNが含まれるデータを表示する。Ageの部分がNaNになっていることが多いことがわかる。
Nanを平均値で置き換えたAgeFillという列を追加する。
乗船料金を特徴量とし、生死フラグを目的変数としたロジスティック回帰を学習させる。
料金が61の人は死亡し、62の人は生存すると予測した。
切片と回帰係数を表示
求めたシグモイド関数がどれだけデータと一致しているかプロットする。
多変数を用いて予測する。性別を01に変換し、Pclassとgenderの和であるPclass_Genderという特徴量を追加する。
Pclass_GenderとAgeFillを使って、予測可能であるか可視化する。重なっている部分はあるがうまく予測できそう。
Pclass_GenderとAgeFillを使って学習する。
年齢が10歳、Pclass_Genderが1の場合96%の確率で生存すると予測した。
求めたモデルを可視化する。
評価のため、学習データ、検証データに分割し、学習させる。
精度を求める。複数の特徴料を使った方がスコアが高い。
適合率、再現率、F値を求める。また、混合行列を求める。
混合行列を可視化する。
各項目で生存率がどのように違うか可視化する。
男女別で年齢と生存率の関係を可視化する。
第四章 主成分分析
講義
多変量データの持つ構造をより少数個の指標に圧縮する。
- 次元を削っても情報の損失が少ない。
- 4次元以上のものを2次元や3次元に圧縮することで可視化できる。
数式
-
学習データ
$\boldsymbol{x}_{i} = (x_{i1}, x_{i2}, ... , x_{im}) \in \mathbb{R}^{m}$ -
平均(ベクトル)
$\bar{\boldsymbol{x}} = \dfrac{1}{n} \sum_{i=1}^{n}\boldsymbol{x}_{i}$ -
データ行列
$\bar{\boldsymbol{X}} = (x_{1} - \bar{x}, x_{2} - \bar{x}, ... , x_{n} - \bar{x})^{T} \in \mathbb{R}^{ n \times m}$ -
分散共分散行列
$\Sigma = Var(\bar{\boldsymbol{X}}) = \dfrac{1}{n}\bar{\boldsymbol{X}^{T}}\bar{\boldsymbol{X}}$ -
線形変換後のベクトル
$\boldsymbol{s}_{j}=(s_{1j}, \cdots ,s_{nj})^{T} = \bar{\boldsymbol{X}} \boldsymbol{a}_{j}$ -
線形変換後の分散
$Var(\boldsymbol{s}_{j}) = \dfrac{1}{n}\boldsymbol{s}_{j}^{T}\boldsymbol{s}_{j} = \dfrac{1}{n}(\bar{\boldsymbol{X}}\boldsymbol{a}_{j})^{T}(\bar{\boldsymbol{X}}\boldsymbol{a}_{j}) = \dfrac{1}{n}\boldsymbol{a}_{j}^{T}\bar{\boldsymbol{X}}^{T}\bar{\boldsymbol{X}}\boldsymbol{a}_{j} = \boldsymbol{a}_{j}^{T} Var(\bar{X})\boldsymbol{a}_{j}$
無限に解がないよう$\boldsymbol{a}_{j}^T\boldsymbol{a}_{j}=1$となるように$arg\ max\ \boldsymbol{a}_{j}^TVar(\bar{\boldsymbol{X}})\boldsymbol{a}_{j}$を求める。
- 制約つき最適化問題の解き方
ラグランジュ関数を最大にする係数ベクトルを探索(微分して0になる点)
ラグランジュ関数 $\smash{ E(\boldsymbol{a}_{j}) = \boldsymbol{a}_{j}^{T} Var(\bar{X})\boldsymbol{a}_{j} - \lambda(\boldsymbol{a}_{j}^{T}\boldsymbol{a}_{j} - 1) }$
ラグランジュ関数を微分して最適解を求める
ラグランジュ関数の微分$\smash{ \dfrac{\partial E(\boldsymbol{a}_{j})}{\partial \boldsymbol{a}_{j}} = 2 Var(\bar{X})\boldsymbol{a}_{j} -2 \lambda \boldsymbol{a}_{j} = 0 }$
解 $Var(\bar{X})\boldsymbol{a}_{j} = \lambda \boldsymbol{a}_{j}$
寄与率
- 第1~元次元分の主成分の分散は、元のデータの分散と一致
- 2次元のデータを2次元の主成分で表示した時、固有値の和と元のデータの分散が一致
- 第k主成分の分散は主成分に対応する固有値
- 寄与率: 第k主成分の分散の全分散に対する割合(第k主成分が持つ情報量の割合)
- 累積寄与率: 第1-k主成分まで圧縮した際の情報損失量の割合
ハンズオン
モジュールをインポートし、データを読み込む。
不要な列を削除する
学習データ、テストデータに分割し、学習データを用いてモデルを学習させ、検証する。
学習データで98.8%、テストデータで97.2%の結果が出ている。
PCAを使ってどれだけ次元圧縮できそうか可視化する。2次元から3次元程度に設定するのが良さそう。
2次元に圧縮してプロットする。
第五章 アルゴリズム(k近傍法・k-平均法)
講義
k近傍法
- 分類問題のための機械学習手法
- 教師あり学習
- 最近傍のデータをk個グループにする。
- 最も多く所属するクラスに識別する。
- kがハイパーパラメータとなる。
k-means
- 教師なし学習
- クラスタリング手法の一つ
- 与えられたデータをk個のクラスタに分類する。
ハンズオン
k近傍法
必要なモジュールをインポートし、データを生成する。
knnを実装し、実行する。
scikit-learnのKNeighborsClassifierを使ってクラスタリングする。
k-means
必要なモジュール、データの読み込みをする。
kmeansでk=3で学習させ、予測させる。
結果を行列にして表示する。
第七章 サポートベクターマシン
講義
- 2クラス分類のための機械学習手法
- 線形モデルの正負で2値分類
- 線形判別関数ともっとも近いデータ点との距離を最大化する線形関数を求める。
目的関数 $\smash{ min_{w, b}\dfrac{1}{2}||w||^{2} }$
制約条件 $\smash{ t_{i}(\boldsymbol{w}^{T}\boldsymbol{x}_{i} + b) \geq 1} \space (i=1,2,...,n)$
この最適化問題をラグランジュ未定乗数法で解く。
ラグランジュの未定乗数法
- 制約付き最適化問題を解くための手法
制約$ g_{i}(\boldsymbol{x}) \geq 0(i = 1,2, \cdots , n) $の下で、$ f(\boldsymbol{x}) $が最小になる$ \boldsymbol{x} $は、変数$ \lambda_{i} \geq 0(i = 1,2, \cdots , n) $を用いて新たに定義したラグランジュ関数$ \smash{ L(\boldsymbol{x}, \boldsymbol{\lambda}) = f(\boldsymbol{x}) - \sum_{i=1}^{n}\lambda_{i}g(\boldsymbol{x}) } $において$ \smash{ \dfrac{\partial L}{\partial x_{j}} = 0(j = 1,2, \cdots , m) } $を満たす
KKT条件
- 制約付き最適化問題において最適解が満たす条件
制約$g_i(\boldsymbol{x})\geq 0$のもとで、$f(\boldsymbol{x})$が最小となる$\boldsymbol{x^*}$は、以下の条件を満たす
ハンズオン
必要なモジュールをインポートし、線形分離可能なデータを生成する。
線形SVMを実装し、学習させる。
マージンと決定境界を可視化する。
線形分離不可能なデータを生成する。
RBFカーネルを使って非線形SVMで決定境界を決定する。
マージンと決定境界を可視化する。
重なりがあるデータを生成する。
線形SVMを使って決定境界を決める。
マージンと決定境界を可視化する。