#Level4.機械学習講座(理論と実践)
##4-4.主成分分析
###4-4-7.ハンズオン
●乳がん検査データを利用してロジスティック回帰モデルを作成する。
●主成分を利用して、2次元空間上に次元圧縮する。(32次元⇒2次元に次元圧縮)
ちゃんと不要なカラムは削除できています。
目的変数・説明変数を作成したり、学習用データと検証用データを分割します。
そのまま32次元で精度が97.2%です。
主成分を分析して、
第1主成分の軸が43%以上
第2主成分の軸が20%くらい
第3主成分の軸が10%程度
であるため、第1と第2の主成分で65%程度を維持できるのではないか。
⇒それを可視化してみる。
講義のとおり、2次元だと境界があいまいになっていますね。
###4-4-8.考察
なんでもかんでもデータを詰め込んで、たくさんの変数を使用できれば精度は上がる。
ただし、計算のコストを抑えて、精度を維持するのは経験と地道な検証が必要だろう。
少し採用する説明変数を変えてみて、失敗を積み上げてTryするのをやってみたい。
主成分分析は簡単であるが、強力な分析手法だと感じました。