はじめに
特徴量間の関係性を俯瞰する目的でPCAを適用しました。
本記事では寄与率と主成分負荷量,PC1×PC2可視化からデータ構造を簡単に確認していきます。
なお,欠損処理および標準化を行ったうえでPCAを適用しています。
寄与率と主成分負荷量
- 寄与率
主成分 | 固有値 | 寄与率 | 累積寄与率
PC1 | 1.297 | 0.259 | 0.259
PC2 | 1.030 | 0.206 | 0.465
PC3 | 0.974 | 0.195 | 0.660
PC4 | 0.888 | 0.178 | 0.838
PC5 | 0.812 | 0.162 | 1.000
- 主成分負荷量
第1主成分負荷量
education-num 0.565057
hours-per-week 0.531774
capital-gain 0.439483
age 0.360978
capital-loss 0.272906
第2主成分負荷量
capital-loss 0.802157
capital-gain -0.590667
age 0.079744
hours-per-week 0.034242
education-num -0.011184
累積寄与率より,PC1〜PC3で約66%の分散を説明しています。
PC1では education-num と hours-per-week の寄与が大きい軸として現れました。
PC2では capital-gain と capital-loss が対照的な寄与を示しました。
PC1×PC2 散布図
PC1×PC2空間で分布を確認しました。
クラスは広く重なっており,明確な分離傾向は見られませんでした。
感想
PCAにより特徴量構造を俯瞰できました。
分布の重なりから,線形分離の難しさも確認できました。
Github
プロジェクト全体・Notebook・コードはこちら:
