More than 3 years have passed since last update.

SPSS Modelerで数値データの標準化、正規化

Last updated at 2022-02-21Posted at 2020-08-06

数値データを比較するために行う標準化や正規化をSPSS Modelerのデータの準備ノードで行います。

1. 元データ

Modelerのサンプルデータとして提供されているbankloan.savを使います。プレビューで確認すると以下のようなデータになっています。

例えば１番目の人は年齢41歳で176の収入、11.35のクレジット負債がありますが、年齢と比較して収入やクレジット負債が高いか低いかはこれだけではよく分かりません。

データ検査ノードで確認すると平均、標準偏差や最小、最大がわかりますので、各データの関係がわかってきます。

標準化や正規化は平均、標準偏差や最小、最大をつかってデータを比較可能にする変換です。

2. 標準化

標準化とは平均を0、標準偏差を1にする変換です。zスコア化とも言います。
データの準備ノードをつかっておこないます。データの準備ノードは数値データだけではなく様々な特徴量変換を行ってくれるノードですが、今回はその標準化の機能のみ使います。

「設定」タブの「日付／時間を準備」のなかで、「モデル作成用の日付と時間を準備」のチェックを外します。

「入力フィールドを除外」の中で、「低品質の入力フィールドを除外する」のチェックを外します。

「入力と対象を準備」の中で、「データ型を調整してデータ品質を改善」の中の入力と対象のチェックをすべて外します。「共通スケールにすべての入力フィールドを投入する」にチェックがついていることと、スケール方法が「zスコア変換」になっていることを確認します。これが標準化の設定になっています。

分かりやすくするために、「フィールド名」の中で「変換された入力フィールドの名前の拡張子」を_standardにしておきます。

変換結果を見てみます。
1行目の人の年齢は平均よりはやや高く、収入は3.3シグマ、クレジット負債は4.6シグマであり、お金の使い方が派手そうなことがうかがえます。

データ検査ノードで変換が正しくできているかも確認しておきます。

平均が0で標準偏差が1になっています。
なお、「教育」や「不履行」の列は変換の対象になっていませんが、これは数値データではないためです。

ちなみに上では収入は3.3シグマ、クレジット負債は4.6シグマといいましたが、分布をみてみると年齢以外はかなり歪んでいて、正規分布とは言えませんので、シグマの値は正規分布のようには解釈することはできません。
ただし、クレジット負債のヒストグラムをみてみると4.6はかなり大きな値であることは確かでした。