Posted at

casTableのサマリーでデータの傾向を見る

SAS ViyaはAIプラットフォームになります。Webブラウザ上で機械学習の設計、実行ができるStudioという環境も用意されていますが、開発者はプログラミングコードで開発することも可能です。プログラミング言語はJava/Python/R/SASが選べます。

機械学習を用いる際に専用のテーブル(casTable)を用いますが、今回はそのテーブルオブジェクト(Python版)のサマリーにおける各カラムを説明します。


テーブルの作り方

テーブルはCSV、HTML、他のデータベースなどから作れます。

out = sess.upload('Jupyter_Saved_Work/Data/iris.csv')

ファイルをアップロードした後、casTableとして取得します。

tbl = out.casTable


テーブルのサマリー

サマリーは summary メソッドで出力します。

tbl.summary()

そうすると以下のようなテーブルが出力されます。

Column
Min
Max
N
NMiss
Mean
Sum
Std
StdErr
Var
USS
CSS
CV
TValue
ProbT
Skewness
Kurtosis

0
SepalLength
4.3
7.9
150.0
0.0
5.843333
876.5
0.828066
0.067611
0.685694
5223.85
102.168333
14.171126
86.425375
3.331256e-129
0.314911
-0.552064

1
SepalWidth
2.0
4.4
150.0
0.0
3.054000
458.1
0.433594
0.035403
0.188004
1427.05
28.012600
14.197587
86.264297
4.374977e-129
0.334053
0.290781

2
PetalLength
1.0
6.9
150.0
0.0
3.758667
563.8
1.764420
0.144064
3.113179
2583.00
463.863733
46.942721
26.090198
1.994305e-57
-0.274464
-1.401921

3
PetalWidth
0.1
2.5
150.0
0.0
1.198667
179.8
0.763161
0.062312
0.582414
302.30
86.779733
63.667470
19.236588
3.209704e-42
-0.104997
-1.339754


各カラムの説明



  • Column

    テーブルのカラム名です。


  • Min

    最小値です。


  • Max

    最大値です。


  • N

    値が入っている行数です。


  • NMiss

    値が入っていない行数です。


  • Sum

    合計値です。


  • Std

    標準偏差です。


  • StdErr

    標準誤差です。


  • Var

    変数です。


  • USS

    未補正平方和です。


  • CSS

    補正平方和です。


  • CV

    変動係数です。


  • TValue

    仮説検証用のt検定値


  • ProbT

    t検定のp値


サマリーだけでもデータの傾向は見えてくるかと思います。皆さんのデータ解析に役立ててください。

SAS for Developers | SAS