SAS ViyaはAIプラットフォームになります。Webブラウザ上で機械学習の設計、実行ができるStudioという環境も用意されていますが、開発者はプログラミングコードで開発することも可能です。プログラミング言語はJava/Python/R/SASが選べます。
機械学習を用いる際に専用のテーブル(casTable)を用いますが、今回はそのテーブルのサマリーを表示した際の各値の意味を解説します。
テーブルの作り方
テーブルはCSV、HTML、他のデータベースなどから作れます。
out = sess.upload('Jupyter_Saved_Work/Data/iris.csv')
ファイルをアップロードした後、casTableとして取得します。
tbl = out.casTable
サマリーを表示する
サマリーは summary
メソッドで表示できます。
Column | Min | Max | N | NMiss | Mean | Sum | Std | StdErr | Var | USS | CSS | CV | TValue | ProbT | Skewness | Kurtosis | |
---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
0 | DOB | -15266.00 | 7190.00 | 22223.0 | 0.0 | -5877.324574 | -1.306118e+08 | 4825.522949 | 32.370026 | 2.328567e+07 | 1.285102e+12 | 5.174542e+11 | -82.104075 | -181.566881 | 0.0 | 0.077679 | -0.849240 |
1 | EDATE | 13933.00 | 13933.00 | 22223.0 | 0.0 | 13933.000000 | 3.096331e+08 | 0.000000 | 0.000000 | 0.000000e+00 | 4.314117e+12 | 0.000000e+00 | 0.000000 | NaN | NaN | NaN | NaN |
2 | AGE | 18.00 | 79.00 | 20715.0 | 1508.0 | 53.797152 | 1.114408e+06 | 13.206048 | 0.091755 | 1.743997e+02 | 6.356449e+07 | 3.612516e+06 | 24.547858 | 586.312118 | 0.0 | -0.079830 | -0.843893 |
3 | LCDATE | -21914.00 | 13846.00 | 21942.0 | 281.0 | 11644.613937 | 2.555061e+08 | 2317.765457 | 15.647011 | 5.372037e+06 | 3.093138e+12 | 1.178679e+11 | 19.904185 | 744.206937 | 0.0 | -7.631565 | 98.238337 |
各カラムの意味
この時、表示されている各カラムの意味は以下のようになります。これがカラムごとに表示されています。
-
Min
最小値 -
Max
最大値 -
N
値が入力されている行数 -
NMiss
値が入力されていない行数 -
Sum
合計 -
Std
標準偏差 -
StdErr
標準誤差 -
Var
値 -
USS
未訂正平方和(Uncorrected sum of squares) -
CSS
未訂正平方和 -
CV
変動係数 -
TValue
t検定値(仮説検定用) -
ProbT
t検定のp値 -
Skewness
歪度 -
Kurtosis
尖度
サマリーを見ることでデータの抜けを確認したり、誤った値の存在を確認できるでしょう。大量のデータでも即座に表示しますので、データを取り込んだら使ってみて下さい。