相関係数を求める(統計量の2次利用)
相関行列と散布図行列はこちらの記事で詳しく取り上げています。
1.想定される利用目的
・予測モデル構築のための入力フィールドの精査
・相関の重みを利用した2次モデル作成のためのデータ加工
・実装後のモデル監視(MLOps)、異常検知を目的とした相関くずれ等の監視
2.サンプルストリームのダウンロード
3.サンプルストリームの説明
[データ検査]ノードを利用した相関係数
b.[データ検査]ノードを編集します。[オーバーレイ]に[C1]を選択します。

[実行]します。C1と各フィールドの相関係数が求められています。

[記述統計]ノードを利用した相関係数
[実行]します。C1とそれ以外のフィールドの相関係数が求められています。

相関行列の作成
d.[記述統計]ノードを編集します。検証と相関に同じフィールドを選択すると相関行列を作成します。

相関係数は[データ表示]からも求めることができます。aのノードで右クリックして[データ表示]を選択します。

左のサンドバー[データ検査]からピアソンの相関係数タブを選択すると表示されます。

相関係数を後続ストリームで利用するためにノードを組み合わせて計算する
[実行]をします。4つのフィールドの平均値がメモリにキャッシュされました。関数を利用してこのグローバル値を呼び出すことが可能になりました。

f.[フィールド作成]ノードを編集します。@GLOBAL_MEAN(フィールド)で先ほどキャッシュした平均値を呼び出して利用します。@FIELDはワイルドカードです。C1からC4まで対応するフィールドが入れ替わって計算されます。

g.[レコード集計]ノードを編集します。キーをブランクにして1レコードに要約します。4つのフィールドの標準偏差とgで求めたC1との差の積の合計を求めます。また「フィールドにレコード度数を含める」にチェックしてレコード数を残します。

h.[フィールド作成]ノードを編集します。共分散を計算します。相関係数の式では分子になります。

i.[フィールド作成]ノードを編集します。相関係数の式では分母に該当します。

j.[フィールド作成]ノードを編集します。C1とC2の相関係数を求めます。

kとl はjと同様です。
注意点
グローバル値は関数で呼び出されるまに事前に計算される必要があるため、バッチ運用の際にはストリームの冒頭で処理される必要があります。
4.参考情報
相関行列と散布図行列
SPSS Modeler ノードリファレンス目次
SPSS Modeler 逆引きストリーム集(データ加工)







