今日はVRアカデミアにて、主成分分析について学びました。
https://www.youtube.com/watch?v=mMmTHoZKWTI
とても分かり易かったです。いつも感謝です。
●主成分分析の目的 分析したいデータに関係するパラメータ数を減らすこと!
例えば、テストの成績についてどんな傾向があるのか8教科のテストの点(8次元)全部では説明しにくいので、合計点だけ(1次元)や、合計点と文系理系(2次元)から説明して判断しやすくする。
そして、出来るだけ分散が大きくなるパラメーターを探したい。分散が大きいほど、そのパラメーターによる説明に意味が出る。
例えば、平均点98点で分散が小さいの世界史よりも、平均点60点で分散が大きい数学に注目して評価した方が、佐藤さんと田中くんの違いが表現できるということ。
●手法:今回は概略だけ
各パラメーターに重みをかけて、足すことで分散を計算する。
Z(佐藤)=(W(国語) × X(佐藤•国語)) + (W(数学) × X(佐藤•数学)) + (W(英語) × X(佐藤•英語)) ・・・・
ここでZは分散、Wは重み、Xは実際の点数。
分散Zを100人分足して最大となる、重みW(8教科のセット)が第一主成分となる。
実際に計算し、8個の重みが大体同じくらいになったとすると、偏りはあるものの合計点数が第一主成分となる。
ここから、佐藤さんを特徴づけるには、合計点で比べるのが一番有意義ということがわかる。
2番目に分散が大きくなる重みWのセットを第二主成分という。
実際に計算すると、理系科目でマイナスのW、文系科目でプラスのWとなる。
ここから、文系度で分けることが2番目に有意義だということがわかる。
今回はざっくりでしたが、こんどは実装を真似してみたりしたいと思います。(^^)