PCA(主成分分析)
『データをシンプルにして理解しやすくするために使われる次元削減の手法』
- データを圧縮しつつ、そのデータが持つ主要な情報を残します。
- 多次元のデータをなるべく情報を失わないように低次元のデータに落とし込みます。
これにより、データ量を節約できるので計算を高速化でき、またデータが解釈しやすくなるというメリットがあリます。
PCAを使って、りんごの特徴を分析した場合
第1主成分
- りんごの「サイズ」と「重量」に関する要素が強く反映
- りんごの大きさや重さの違いがデータの中で最も大きな分散を生む
第2主成分
- りんごの「色」
- 外見的な色の違いも、かなりのバリエーションを持つ特徴
第3主成分
- 「糖度」や「酸味」といった味の要素
- 消費者にとって重要ですが、サイズや色に比べてデータの分散に対する寄与は少ない
PCA = Primary Component Analysis