##バイアスとバリアンスについて
学習不足→高バイアス
過学習→高バリアンス
このトレードオフを調整する方法が正則化。L2正則化が最も一般的。
##オンライン学習とバッチ学習
オンライン学習:次々と与えられるデータを用いて学習を逐次的に行う手法
バッチ学習:データ全体を一度に学習する手法
##決定木アルゴリズムの重要度について
重要度とは、その特徴量の分割がターゲットの分類にどれくらい寄与しているかを測る指標。
ジニ不純度:ノードごとにターゲットがどれくらい分類できていないかを測る指標。
例えば、ある集合[1,1,1,2,2,3,3,3,3]のジニ不純度は、
1-(3/9)**2+(2/9)**2+(4/9)**2=0.642
一番いい状態は、[1,1,1,1,1]のように全て同じラベルとなっている状態で、このとき、ジニ係数は、
1-(5/5)**2=0となる。
質問によって完全にクラス分けができている状態が最も最適な状態であり、この値を指標に決定木学習は行われる。
##アンサンブルについて
アンサンブル法とは、複数のモデルによりラベル付けを行い、最終的に多数決で分類を行う手法。
##特徴量選択と特徴量抽出
特徴量選択:無関係な特徴量を無視して、有益な特徴量を選択。
特徴量抽出:次元削減によって、より低次元の部分空間に特徴量を圧縮する。
##主成分分析(PCA)と線形判別分析(LDA)
PCA:教師なし。データセットにおいて分散が最も大きい直交成分軸を見つけ出そうとする
LDA:教師あり。クラスの分離を最適化する特徴量部分空間を見つけ出そうとする。