主成分分析 (PCA)とは
機械学習(教師なし学習)で,データの相関を分析することでデータの構造を掴む次元圧縮の手法の1つ.
次元圧縮とは
データの特徴量の数が多い場合に,相関を持つ多数の特徴量から,データの情報を失わない程度に次元を低くし,相関のない少量の特徴量へ圧縮すること.
ここで得られる少数の特徴量を主成分という.
次元圧縮(dimentionality redution)のメリット
- 学習にかかる時間を減らす.
- データを可視化することができる.
主成分回帰 (PCR / Principal Component Regression)
主成分分析と回帰分析を合わせた手法.主成分分析で特徴量を削減した後,回帰分析(主に最小2重回帰のような線形回帰)を行う.
しかし,コロナ下で聞かれるようになったPCR検査は,正式名称「ポリメラーゼ連鎖反応」(Polymerase Chain Reaction)の略でウイルス等の遺伝子(DNA:デオキシリボ核酸)を増幅させて検出する技術のことである.
特異値分解(Singular Value Decomposition / SVD)
ある行列を複数の行列の積で表現する行列分解の1つ.
cf ) 多次元尺度構成法 (Multi-Dimensional Scaling / MDS)
t-SNE (t-distributed Stochastic Neighbor Embedding)
可視化に用いられる次元圧縮の手法
見るべき解説動画
数式を交えた解説動画
ハンズオンもあり
ハンズオンによる説明