More than 3 years have passed since last update.

SPSS Modelerのデータ検査ノード（目的変数がカテゴリ型）をPythonで書き換える。

Last updated at 2022-02-16Posted at 2022-01-12

SPSS Modelerのデータ検査ノードをPythonで書き換えます。データの傾向が一覧でつかめるのでとても人気のあるノードです。目的変数がカテゴリ型が連続型かによって動きが異なるところがありますが、今回は目的変数がカテゴリ型である場合の書き換えを行います。

0．データ

目的変数
Risk：信用リスク

説明変数
Age：年齢
Income：収入ランク
Credit_cards：クレジットカード枚数
Education：学歴
Car_loans:車のローン数

年齢や収入ランクから信用リスクを判定する2値分類のモデルを評価します。

1m．①データ検査　Modeler版

まず、CSVの読み込み時にカテゴリ型のデータを文字列で読み込みます。これはデータに意図的に欠損値や空白データを混入させているためです。Car_loans、Credit_cards、Education、Income、Riskは文字列に上書きしています。

プレビューすると以下のように連続型の欠損値は$null$で表され、カテゴリ型の欠損値は空文字や空白文字で表示されます。

次に、データ型ノードで説明変数、目的変数の定義を行います。
「値の読み込み」ボタンをクリックします。その後、Riskのロールを「対象」（目的変数の意味）を設定します。

後はデータ検査ノードを実行するだけです。

サンプルグラフでは連続型のデータはヒストグラム、カテゴリ型のデータは度数の棒グラフを目的変数のRiskの値を元に色分けしてくれます。このグラフで各変数の分布と目的変数と各説明変数の関係性がぱっと見で把握できるのがとても良いところです。

また、連続型については最小、最大、平均値、標準偏差、歪度が集計されます。
そして、カテゴリ型についてはカテゴリ数が集計されます。
「有効」はNULLや空白値を除いた有効なデータ件数です。

次に欠損値検査タブを見てみます。

ここでは、連続型については外れ値（3シグマ以上）、極値（5シグマ以上）の件数、ヌル値の件数が出ます。
また、カテゴリ型では、空文字（’’）、空白文字（’　’）の件数が出ます。なお、空白を別途定義している場合はその件数も出ます。
そして、ヌル値、空文字（’’）、空白文字（’　’）を除いたレコード数の「有効なレコ―ド」数と「非欠損値の割合」（有効レコード数/全体の件数）が表示されます。
やはり欠損値の状況が一覧で分かりやすく理解できます。

なおこのタブには、今回は取り上げませんが、外れ値や欠損値を補完することもできる機能もついています。

1p．①データ検査　pandas版

設定

まず、カテゴリ型のデータをCategory型でCSVを読み込みます。

df = pd.read_csv('credit_risk_missing.csv',dtype = {'CustID':'int', 'Age':'float', 'Car_loans':'category','Credit_cards':'category',
                                                    'Education':'category','Income':'category','Risk':'category'}

pandasではカテゴリ型もNaNで表示されました。空白文字（9行目のEducation）は空白で表示されます。

参考：pandasでデータを読み込むときに気を付けること(dtypeの指定) - Qiita

グラフ表示

まず、複数のグラフを表示するためにnotebookの出力域を拡大します。

%%javascript
IPython.OutputArea.auto_scroll_threshold = 9999;

参考:ipython-notebook — ipythonノートブック出力ウィンドウのサイズを変更します

連続型のデータはヒストグラム、カテゴリ型のデータは度数の棒グラフを目的変数のRiskの値を元に色分けして表示します。
df[col].dtype.nameでCatagory型や連続型を判定しています。
連続型はたくさんの型がありうるので正規表現re.sub(r'[0-9]+', '', df[col].dtype.name) in ['int','float']をつかって判定しています。

棒グラフとヒストグラムの書き方は以下の記事も参考にしてください。

グラフ表示

import re
targetcol='Risk'
for col in df.columns:
    
    if df[col].dtype.name=='category':
        dfcross=pd.crosstab(df[col],df[targetcol])
        dfcross=dfcross.reindex(['1','0'],axis="columns")
        dfcross.plot.bar(stacked=True,title=col)
    elif re.sub(r'[0-9]+', '', df[col].dtype.name) in ['int','float']:
        nums=[]
        targets=df[targetcol].cat.categories.sort_values (ascending=False)
        for i,target in enumerate(targets):
            nums.append(df.query(targetcol+'==\'{0}\''.format(target))[col])
        plt.title(col)
        plt.hist(nums,bins=25, stacked=True,label=targets.astype('str'))
        plt.legend()
        plt.figure()

参考：python - Check if dataframe column is Categorical - Stack Overflow

参考：Python で文字列から数字を削除する | Delft スタック

列の要約

連続型変数については最小、最大、平均値、標準偏差はdescribe()で計算できます。

連続型の要約

df.describe()

Modelerと違って4分位のパーセンタイル値がでるのは便利です。ただし、歪度は別途計算する必要があります。
歪度はskew()で計算します。カテゴリ型の列についても、値としてはほとんど参考にはなりませんが、計算されています。

歪度

df.skew()

カテゴリ型変数についてカテゴリ数を計算してみます。連続型の変数についてもカウントされています。Modelerは空文字をカテゴリとしてカウントしていますが、nunique()は空文字はNullとして無視していますので、Modelerのカテゴリ数とは異なります。後程欠損値のところで詳しく解説します。

カテゴリ数

df.nunique()

参考：pandasで歪度(Skewness)と尖度(Kurtosis)を計算 - Qiita

外れ値、極値

Modelerでは外れ値を3シグマ以上、極値を5シグマ以上で計算しているので同様に計算します。数値列だけが対象になるのでre.sub(r'[0-9]+', '', df[col].dtype.name) in ['int','float']で判定しています。

件数は式.sum()で計算しています。

数値列だけが対象になるので、データフレームの件数は可変です。そのため、Seriesオブジェクトをつくってからappendしています。

外れ値、極値

df1 = pd.DataFrame(index=[], columns=['外れ値','極値'])
for col in df.columns:
    if re.sub(r'[0-9]+', '', df[col].dtype.name) in ['int','float']:
        limit_low3=df[col].mean()-df[col].std()*3
        limit_high3=df[col].mean()+df[col].std()*3
        limit_low5=df[col].mean()-df[col].std()*5
        limit_high5=df[col].mean()+df[col].std()*5
        hazurechi=((df[col] <limit_low3)|(df[col] >limit_high3)).sum()
        kyokuchi=((df[col] <limit_low5)|(df[col] >limit_high5)).sum()
        df1=df1.append(pd.Series([hazurechi-kyokuchi,kyokuchi],index=df1.columns,name=col))

参考：Python初心者向け：四分位数/標準偏差を用いた外れ値の除外 | happy analysis

参考：Pandasにて条件にあったカウント（count）を行う方法【value_countsの使い方など】 | ウルトラフリーダム

参考：Pythonで、空のDataFrameにindexとセットで1行追加する | ITを使っていこう

欠損値

欠損値はisnull().sum()で数えることができます。

欠損値1

df.isnull().sum()

しかしながら、Modelerとは欠損値の考え方が違っているのでカウント数が異なります。

Modelerはデータが存在しない場合、連続値についてはNULL値としてカウントし、カテゴリ型については空文字としてカウントします。pandas（というかnumpy）は空文字もNULLとして扱います。
Modelerは’　’のような空白文字は欠損値として扱います。pandasはデータとして扱います。

上のModelerの仕様と同じようにpandasで欠損値を計算するには以下のようになります。
空白文字はdf[col].str.match(r'^ +$'))).sum()というように正規表現でカウントしています。

欠損値2

# 欠損値2
colnames=['非欠損値の割合','有効なレコード','ヌル値','空文字','空白文字']
dfcol=pd.DataFrame(index=df.columns,columns=colnames)


# ヌル
for i,col in enumerate(dfcol.index):
    if df[col].dtype.name=='category':
        dfcol.iloc[i,colnames.index('ヌル値')]=0
    elif re.sub(r'[0-9]+', '', df[col].dtype.name) in ['int','float']:
        dfcol.iloc[i,colnames.index('ヌル値')]=df[col].isnull().sum()
# 空文字列
for i,col in enumerate(dfcol.index):
    if df[col].dtype.name=='category':
        dfcol.iloc[i,colnames.index('空文字')]=df[col].isnull().sum()
    elif re.sub(r'[0-9]+', '', df[col].dtype.name) in ['int','float']:
        dfcol.iloc[i,colnames.index('空文字')]=0
# 空白文字
for i,col in enumerate(dfcol.index):
    if df[col].dtype.name=='category':
        dfcol.iloc[i,colnames.index('空白文字')]=((df[col].str.match(r'^ +$'))).sum()+dfcol.iloc[i,colnames.index('空文字')]
    elif re.sub(r'[0-9]+', '', df[col].dtype.name) in ['int','float']:
        dfcol.iloc[i,colnames.index('空白文字')]=0
# 有効なレコード
dfcol['有効なレコード']=len(df)-(dfcol['ヌル値']+dfcol['空白文字'])
dfcol['非欠損値の割合']=dfcol['有効なレコード']/len(df)*100```

5. サンプル

サンプルは以下に置きました。

ストリーム
https://github.com/hkwd/200611Modeler2Python/blob/master/dataaudit/dataaudit.str?raw=true
notebook
https://github.com/hkwd/200611Modeler2Python/tree/master/dataaudit/dataaudit.ipynb
データ
https://raw.githubusercontent.com/hkwd/200611Modeler2Python/master/data/credit_risk_missing.csv

■テスト環境
Modeler 18.3
Windows 10 64bit
Python 3.8.10
pandas 1.0.5

6. 参考情報

データ検査ノード

You get articles that match your needs
You can efficiently read back useful information
You can use dark theme

What you can do with signing up

SPSS Modelerのデータ検査ノード（目的変数がカテゴリ型）をPythonで書き換える。

0．データ

1m．①データ検査 Modeler版

1p．①データ検査 pandas版

設定

グラフ表示

列の要約

外れ値、極値

欠損値

5. サンプル

6. 参考情報

1m．①データ検査　Modeler版

1p．①データ検査　pandas版