線形回帰モデル
回帰問題
ある入力(数値)から出力(連続値)を予測する問題
この回帰問題を解くためのモデルとして、線形回帰モデルが存在
線形回帰
入力とm次元パラメータの線形結合を出力
線形結合
入力ベクトルと未知のパラメータの各要素を掛け算し足し合わせたもの
⇒ 出力は1次元(スカラ)となる
線形回帰モデルのパラメータ
特徴量が予測値に対してどのように影響を与えるかを決定
⇒ 重みが大きければ、その特徴量は予測に大きく影響(0の場合は全く影響しない)
データの分割/学習
データの分割
モデルの学習 ⇒ 学習用データ
モデルの検証 ⇒ 検証用データ
学習データを用いてモデル検証を行った場合、一般的には誤判定が少なるなるが、
汎化性能を図ることができない
⇒ 学習用データと検証用データに分割して利用
学習
パラメータの推定は、主に平均二乗誤差を用いて探索する
(誤差が最小となるパラメータを求める)
⇒学習データの平均二乗誤差の最小化 = 勾配が0となる点を求める
ハンズオン
※線形単回帰分析の推論実行時にそのままのコードだとエラーとなった
⇒ 説明変数が1つの場合は、predictメソッドの引数は二次元配列とする必要あり
(scikit-learnはバージョン「0.20.x」を利用)
非線形回帰モデル
複雑な非線形構造に対して、モデリングを実施
基底展開法
⇒ 未知パラメータは線形回帰モデルと同様に最小二乗法や最尤法にて推定
よく使われる基底関数:多項式関数、ガウス型基底関数、スプライン関数/Bスプライン関数
正則化法
過学習を防ぐための手法(ただし、正則化しすぎると未学習に陥る)
モデルの複雑さに伴って、その値が大きくなるペナルティ項(正則化項)を貸した関数の最小化問題
⇒モデルの曲線やなめらかさを調整するため、正則化パラメータ・平滑化パラメータが存在
ペナルティ項
L2ノルム ⇒ Ridge推定量 : パラメータを0に近づけるよう推定
L1ノルム ⇒ Lasso推定量 : いくつかのパラメータを0に推定
モデルの選択
正則化パラメータはクロスバリデーションで選択
ホールドアウト法
学習用データ、テスト用データに分割し、予測精度や誤り率を推定 (大量データがある場合に利用)
クロスバリエーション法(交差検証)
データを複数グループに分割し、学習用データとテスト用データを切り替えながら性能予測を行う
⇒ すべてのデータを学習とテストに利用できるため、汎化性能が良くなる
ロジスティック回帰
分類問題を解くための機械学習モデル(出力は確率の値)
※シグモイド関数を対応
最尤推定
尤度
あるデータを得たときに、「分布のパラメータが特定の値であることがどれほどありえそうか」を表現
⇒ データを固定して、パラメータを変化
ロジスティック回帰モデルにおいては、ベルヌーイ分布を用いる
同時確率
学習データセットが同時に得られる確率を計算
⇒観測されたデータ(学習データ)を発生させる尤もらしい確率分布を求める
※尤度関数を最大化するよりも、対数尤度関数を最大化するほうが計算は楽
勾配降下法
反復学習によりパラメータを逐次的に更新する方法の一つ
「パラメータ更新がされなくなる=勾配が0」 ⇒ 探索範囲においては最適解
確率的勾配降下法
データをランダムに選んでパラメータを更新
この方法を使うと、勾配降下法でのパラメータ更新1回と同じ計算量で、パラメータをn回更新できるため効率的
エポック
n回の勾配が0に収束させるため、繰り返し学習を行うが、この反復回数をエポックと呼ぶ
ミニバッチ勾配降下法
n個のデータを複数かたまりに分けて学習
⇒メモリ不足を解消し、計算の高速化が可能
分類の評価
目的に応じて、正解率・適合率・再現率・F値を使い分けて評価する
正解率:予測に対する結果が正しいかどうか
適合率:見逃しを許容し、誤判定を許容しない
再現率:見逃しを許容せず、誤判定を許容する
F値:見逃しと誤判定の最適値を適用
ハンズオン
主成分分析
学習データの分散が最大になる方向への線形変換を求める手法
「情報の量=分散の大きさ」として、線形変換後の分散が最大となる射影軸(線形変換)を探索
※分散値=固有値
主成分
最大固有値に対応する固有ベクトルで線形変換された特徴量 ⇒ 第一主成分
k番目の固有値に対応する固有ベクトルで線形変換された特徴量 ⇒ 第k主成分
寄与率
第k主成分の分散の全分散に対する割合
K近傍法/K平均法
近傍法
分類問題のための機械学習手法
⇒ 特定範囲において、k個のクラスラベルの中で最も多いラベルを割り当てる
平均法
教師なし学習の手法
⇒各クラスタ中心の初期値を設定し、各データ点との距離が近いクラスタを割り当て、
その平均ベクトルを繰り返し計算
サポートベクターマシン
2クラス分類を行うための機械学習方法
決定境界と最も近いデータ点との距離(マージン)を最大化する
線形モデルの正負で2値分類を行
ラグランジュ未定乗数法
制約付き最適化問題を解くための手法
最適解を満たす条件を「KKT条件」という
ソフトマージンSVM
線形分離できない場合にも対応
サンプルを線形分離できないとき、誤差を許容し、誤差に対してペナルティを付与
非線形分離
線形分離できないときは、特徴空間に写像し、その空間上で線形分離する