Edited at

SAS Viyaでデータの相関関係を確認する

SAS ViyaはAIプラットフォームになります。Webブラウザ上で機械学習の設計、実行ができるStudioという環境も用意されていますが、開発者はプログラミングコードで開発することも可能です。プログラミング言語はJava/Python/R/SASが選べます。

機械学習を用いる際に専用のテーブル(casTable)を用いますが、今回はデータの相関関係を確認します。


データを確認する

今回は organics.sas7bdat を用います。

organics = sess.upload('organics.sas7bdat')

データは以下のようになっています。

organics.casTable.head()

Selected Rows from Table ORGANICS



CUSTID
GENDER
DOB
EDATE
AGE
AGEGRP1
AGEGRP2
TV_REG
NGROUP
NEIGHBORHOOD
LCDATE
ORGANICS
BILL
REGION
CLASS
ORGYN
AFFL
LTIME




0
0000000140
U
1921-09-16
1998-02-23
76.0
60-80
70-80
Wales & West
C
16
1994-11-07
0.0
16000.00
Midlands
Gold
0.0
10.0
4.0


1
0000000620
U
1949-02-12
1998-02-23
49.0
40-60
40-50
Wales & West
D
35
1993-06-04
0.0
6000.00
Midlands
Gold
0.0
4.0
5.0


相関関係を取り出す

相関関係はcorrelationメソッドを使います。

organics.correlation()

そうすると以下のようなデータが取得できます(うまく表示できないので一部のみとなっています)。

§ CorrSimple



Summary Statistics in Correlation Analysis for ORGANICS



Variable
N
Mean
Sum
StdDev
Minimum
Maximum




0
DOB
22223.0
-5877.324574
-1.306118e+08
4825.522949
-15266.00
7190.00


1
EDATE
22223.0
13933.000000
3.096331e+08
0.000000
13933.00
13933.00


2
AGE
20715.0
53.797152
1.114408e+06
13.206048
18.00
79.00


3
LCDATE
21942.0
11644.613937
2.555061e+08
2317.765457
-21914.00
13846.00


4
ORGANICS
22223.0
0.294740
6.550000e+03
0.562831
0.00
3.00


5
BILL
22223.0
4420.590041
9.823877e+07
7559.047522
0.01
296313.85


6
ORGYN
22223.0
0.247716
5.505000e+03
0.431696
0.00
1.00


7
AFFL
21138.0
8.711893
1.841520e+05
3.421125
0.00
34.00


8
LTIME
21942.0
6.564670
1.440420e+05
4.657113
0.00
39.00



データを絞り込む

見たいデータを絞り込む時には inputs パラメータを使います。

varlist = ['AFFL', 'AGE', 'BILL']

organics.correlation(inputs=varlist, simple=False)

§ Correlation



Pearson Correlation Coefficients for ORGANICS



Variable
AFFL
AGE
BILL
Nobs1
Nobs2
Nobs3




0
AFFL
1.000000
-0.137767
-0.019621
21138.0
19714.0
21138.0


1
AGE
-0.137767
1.000000
0.268434
19714.0
20715.0
20715.0


2
BILL
-0.019621
0.268434
1.000000
21138.0
20715.0
22223.0






elapsed 0.00924s · user 0.012s · sys 0.004s · mem 2.08MB


まとめ

データ全体の傾向を荒く確認する際に使うと便利です。ぜひご利用ください。