casTableのサマリーで確認できる各値について

SAS ViyaはAIプラットフォームになります。Webブラウザ上で機械学習の設計、実行ができるStudioという環境も用意されていますが、開発者はプログラミングコードで開発することも可能です。プログラミング言語はJava/Python/R/SASが選べます。

機械学習を用いる際に専用のテーブル(casTable)を用いますが、今回はそのテーブルのサマリーを表示した際の各値の意味を解説します。


テーブルの作り方

テーブルはCSV、HTML、他のデータベースなどから作れます。

out = sess.upload('Jupyter_Saved_Work/Data/iris.csv')

ファイルをアップロードした後、casTableとして取得します。

tbl = out.casTable


サマリーを表示する

サマリーは summary メソッドで表示できます。

Column
Min
Max
N
NMiss
Mean
Sum
Std
StdErr
Var
USS
CSS
CV
TValue
ProbT
Skewness
Kurtosis

0
DOB
-15266.00
7190.00
22223.0
0.0
-5877.324574
-1.306118e+08
4825.522949
32.370026
2.328567e+07
1.285102e+12
5.174542e+11
-82.104075
-181.566881
0.0
0.077679
-0.849240

1
EDATE
13933.00
13933.00
22223.0
0.0
13933.000000
3.096331e+08
0.000000
0.000000
0.000000e+00
4.314117e+12
0.000000e+00
0.000000
NaN
NaN
NaN
NaN

2
AGE
18.00
79.00
20715.0
1508.0
53.797152
1.114408e+06
13.206048
0.091755
1.743997e+02
6.356449e+07
3.612516e+06
24.547858
586.312118
0.0
-0.079830
-0.843893

3
LCDATE
-21914.00
13846.00
21942.0
281.0
11644.613937
2.555061e+08
2317.765457
15.647011
5.372037e+06
3.093138e+12
1.178679e+11
19.904185
744.206937
0.0
-7.631565
98.238337


各カラムの意味

この時、表示されている各カラムの意味は以下のようになります。これがカラムごとに表示されています。



  • Min

    最小値


  • Max

    最大値


  • N

    値が入力されている行数


  • NMiss

    値が入力されていない行数


  • Sum

    合計


  • Std

    標準偏差


  • StdErr

    標準誤差


  • Var



  • USS

    未訂正平方和(Uncorrected sum of squares)


  • CSS

    未訂正平方和


  • CV

    変動係数


  • TValue

    t検定値(仮説検定用)


  • ProbT

    t検定のp値


  • Skewness

    歪度


  • Kurtosis

    尖度


サマリーを見ることでデータの抜けを確認したり、誤った値の存在を確認できるでしょう。大量のデータでも即座に表示しますので、データを取り込んだら使ってみて下さい。