Power BI+Pythonで主成分分析&クラスター分析

Last updated at 2021-12-22Posted at 2021-12-22

はじめに

PythonやR等のプログラミング言語では、統計解析のライブラリが豊富に存在しますが、プログラミングによる解析は面倒です。
Power BI+Pythonで主成分分析では、Power BIのクエリー処理でPythonによる分析を行い、PowerBIで可視化を行いました。今回は、アンケートのデータを例に、主成分分析で２軸に要約し、クラスター分析によるグルーピングを試みます。

サンプルデータ

以下のような、サンタ帽のカラーイメージを評価するアンケートを扱います。

アンケートの設問（一部）

ここでは、SD法という、対となる形容詞でイメージを探るアンケートでデータを収集します。

回答データ(サンプル)

アンケート結果から、以下のようなExcelデータを用意します。

回答者	カラー	親しみやすい-親しみにくい	おもしろい-つまらない	明るい-暗い	活発な-落ち着いた	重い-軽い	力強い-弱々しい
1	ブルー	5	3	4	3	5	4
1	イエロー	5	6	6	6	3	4
1	レッド	5	6	6	6	4	6
1	グリーン	4	4	5	4	4	4
1	ブラック	3	3	2	2	6	4
1	ホワイト	4	5	6	4	2	4
2	ブルー	6	4	4	3	5	4
2	イエロー	5	6	6	7	3	5
2	レッド	6	6	6	6	4	6
2	グリーン	4	4	5	4	5	5
2	ブラック	3	3	2	2	6	5
2	ホワイト	4	5	7	4	2	4

データ読み込み

データを取得より、アンケートのExcelデータを読み込みます。

クエリーの編集　

データの変換をクリックし、Power Queryエディタを起動します。
メニューの変換>Pythonスクリプトを実行するをクリック
Pythonスクリプトを記述します。（pythonライブラリのsklearn,pandasを使用しています)

import numpy as np
import pandas as pd
from sklearn.decomposition import PCA
from sklearn.cluster import KMeans

dataset2=dataset.drop(dataset.columns[[0,1]],axis=1)
X=dataset2.values
pca = PCA()
pca.fit(X)
pca_point = pca.transform(X)
dataset['PC1']=pca_point[:,0]
dataset['PC2']=pca_point[:,1]
evr=pd.DataFrame(data=pca.explained_variance_ratio_,  columns={'explained_variance_ratio'}, dtype='float')
evr['PC No.']=evr.index+1
components=pd.DataFrame(data=pca.components_,  columns=dataset2.columns, dtype='float')
components['PC No.']=components.index+1

km = KMeans(n_clusters=2,            # クラスターの個数
            init='random',           # セントロイドの初期値をランダムに設定  default: 'k-means++'
            n_init=10,               # 異なるセントロイドの初期値を用いたk-meansの実行回数 default: '10'
            max_iter=300,            # k-meansアルゴリズムの内部の最大イテレーション回数  default: '300'
            tol=1e-04,               # 収束と判定するための相対的な許容誤差 default: '1e-04'
            random_state=0)          # セントロイドの初期化に用いる乱数発生器の状態
y_km = km.fit_predict(pca_point)
dataset['Cluster']=y_km

del dataset2