0
0

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?

Adult Incomeで特徴量構造を見てみた ― PCA編

0
Posted at

はじめに

特徴量間の関係性を俯瞰する目的でPCAを適用しました。
本記事では寄与率と主成分負荷量,PC1×PC2可視化からデータ構造を簡単に確認していきます。
なお,欠損処理および標準化を行ったうえでPCAを適用しています。

寄与率と主成分負荷量

  • 寄与率
主成分 | 固有値 | 寄与率 | 累積寄与率
PC1 | 1.297 | 0.259 | 0.259
PC2 | 1.030 | 0.206 | 0.465
PC3 | 0.974 | 0.195 | 0.660
PC4 | 0.888 | 0.178 | 0.838
PC5 | 0.812 | 0.162 | 1.000
  • 主成分負荷量
第1主成分負荷量
education-num     0.565057
hours-per-week    0.531774
capital-gain      0.439483
age               0.360978
capital-loss      0.272906

第2主成分負荷量
capital-loss      0.802157
capital-gain     -0.590667
age               0.079744
hours-per-week    0.034242
education-num    -0.011184

累積寄与率より,PC1〜PC3で約66%の分散を説明しています。
PC1では education-num と hours-per-week の寄与が大きい軸として現れました。
PC2では capital-gain と capital-loss が対照的な寄与を示しました。

PC1×PC2 散布図

PC1×PC2空間でサンプル分布を可視化しました。
pc1pc2.png

PC1×PC2空間で分布を確認しました。
クラスは広く重なっており,明確な分離傾向は見られませんでした。

感想

PCAにより特徴量構造を俯瞰できました。
分布の重なりから,線形分離の難しさも確認できました。

Github

プロジェクト全体・Notebook・コードはこちら:

0
0
0

Register as a new user and use Qiita more conveniently

  1. You get articles that match your needs
  2. You can efficiently read back useful information
  3. You can use dark theme
What you can do with signing up
0
0

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?