0
0

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?

More than 3 years have passed since last update.

##バイアスとバリアンスについて
学習不足→高バイアス
過学習→高バリアンス

このトレードオフを調整する方法が正則化。L2正則化が最も一般的。

##オンライン学習とバッチ学習
オンライン学習:次々と与えられるデータを用いて学習を逐次的に行う手法
バッチ学習:データ全体を一度に学習する手法

##決定木アルゴリズムの重要度について
重要度とは、その特徴量の分割がターゲットの分類にどれくらい寄与しているかを測る指標。
ジニ不純度:ノードごとにターゲットがどれくらい分類できていないかを測る指標。
例えば、ある集合[1,1,1,2,2,3,3,3,3]のジニ不純度は、
1-(3/9)**2+(2/9)**2+(4/9)**2=0.642

一番いい状態は、[1,1,1,1,1]のように全て同じラベルとなっている状態で、このとき、ジニ係数は、
1-(5/5)**2=0となる。
質問によって完全にクラス分けができている状態が最も最適な状態であり、この値を指標に決定木学習は行われる。

##アンサンブルについて
アンサンブル法とは、複数のモデルによりラベル付けを行い、最終的に多数決で分類を行う手法。

##特徴量選択と特徴量抽出
特徴量選択:無関係な特徴量を無視して、有益な特徴量を選択。
特徴量抽出:次元削減によって、より低次元の部分空間に特徴量を圧縮する。

##主成分分析(PCA)と線形判別分析(LDA)

PCA:教師なし。データセットにおいて分散が最も大きい直交成分軸を見つけ出そうとする
LDA:教師あり。クラスの分離を最適化する特徴量部分空間を見つけ出そうとする。

0
0
0

Register as a new user and use Qiita more conveniently

  1. You get articles that match your needs
  2. You can efficiently read back useful information
  3. You can use dark theme
What you can do with signing up
0
0

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?