数値データを比較するために行う標準化や正規化をSPSS Modelerのデータの準備ノードで行います。
1. 元データ
Modelerのサンプルデータとして提供されているbankloan.savを使います。プレビューで確認すると以下のようなデータになっています。
例えば1番目の人は年齢41歳で176の収入、11.35のクレジット負債がありますが、年齢と比較して収入やクレジット負債が高いか低いかはこれだけではよく分かりません。
データ検査ノードで確認すると平均、標準偏差や最小、最大がわかりますので、各データの関係がわかってきます。
標準化や正規化は平均、標準偏差や最小、最大をつかってデータを比較可能にする変換です。
2. 標準化
標準化とは平均を0、標準偏差を1にする変換です。zスコア化とも言います。
データの準備ノードをつかっておこないます。データの準備ノードは数値データだけではなく様々な特徴量変換を行ってくれるノードですが、今回はその標準化の機能のみ使います。
「設定」タブの「日付/時間を準備」のなかで、「モデル作成用の日付と時間を準備」のチェックを外します。
「入力フィールドを除外」の中で、「低品質の入力フィールドを除外する」のチェックを外します。
「入力と対象を準備」の中で、「データ型を調整してデータ品質を改善」の中の入力と対象のチェックをすべて外します。「共通スケールにすべての入力フィールドを投入する」にチェックがついていることと、スケール方法が「zスコア変換」になっていることを確認します。これが標準化の設定になっています。
分かりやすくするために、「フィールド名」の中で「変換された入力フィールドの名前の拡張子」を_standardにしておきます。
変換結果を見てみます。
1行目の人の年齢は平均よりはやや高く、収入は3.3シグマ、クレジット負債は4.6シグマであり、お金の使い方が派手そうなことがうかがえます。
データ検査ノードで変換が正しくできているかも確認しておきます。
平均が0で標準偏差が1になっています。
なお、「教育」や「不履行」の列は変換の対象になっていませんが、これは数値データではないためです。
ちなみに上では収入は3.3シグマ、クレジット負債は4.6シグマといいましたが、分布をみてみると年齢以外はかなり歪んでいて、正規分布とは言えませんので、シグマの値は正規分布のようには解釈することはできません。
ただし、クレジット負債のヒストグラムをみてみると4.6はかなり大きな値であることは確かでした。
3. 正規化
正規化は最小値を0、最大値を1にする変換です。全てのデータが0-1の範囲になります。
標準化同様に「データの自動準備」ノードで行います。ほとんど設定方法は同じですので、違いだけ説明します。
「入力と対象を準備」の中で、「データ型を調整してデータ品質を改善」の中の入力と対象のチェックをすべて外します。「共通スケールにすべての入力フィールドを投入する」にチェックがついていることを確認し、スケール方法を「最小最大値の変換」にします。そして最小値を0、最大値を1.0にします。
分かりやすくするために、「フィールド名」の中で「変換された入力フィールドの名前の拡張子」を_normにしておきます。
変換結果を見てみます。
1行目の人の年齢は0.5 よりやや大きいですが、収入は0.5を下回り、クレジット負債も0.5よりやや大きい程度でした。収入やクレジットも最大では2倍程度大きい人がいるということになります。
データ検査ノードで変換が正しくできているかも確認しておきます。
最小値を0、最大値を1になっていることが確認できます。また年齢以外は右に歪んでいるので平均値は0.5を大きく下回っていることがわかります。
クレジット負債のヒストグラムをみてみると0.5は確かに半分くらいの位置で、倍くらいの人がいることがわかります。
4. 注意点
ちなみにデータの準備ノードの設定を変えた場合は「分析のクリア」ボタンを押さないと変更が反映されないので注意してください。
5. 参考
マニュアル:入力フィールドおよび目標フィールドの準備
https://www.ibm.com/support/knowledgecenter/ja/SS3RA7_18.2.1/modeler_mainhelp_client_ddita/components/automated_data_preparation/dataprep_node_settings_inputs.html
■テスト環境
Modeler 18.2.1
Windows 10 64bit