2
0

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?

相関係数を求める(SPSS Modeler データ加工逆引き3-8)

Last updated at Posted at 2022-08-02

相関係数を求める(統計量の2次利用)

スクリーンショット 2022-07-25 10.58.55.png

相関行列と散布図行列はこちらの記事で詳しく取り上げています。

1.想定される利用目的

・予測モデル構築のための入力フィールドの精査
・相関の重みを利用した2次モデル作成のためのデータ加工
・実装後のモデル監視(MLOps)、異常検知を目的とした相関くずれ等の監視

2.サンプルストリームのダウンロード

3.サンプルストリームの説明

スクリーンショット 2022-07-25 13.01.21.png

a.入力するデータは以下の通りです。
スクリーンショット 2022-07-25 13.05.36.png

[データ検査]ノードを利用した相関係数

b.[データ検査]ノードを編集します。[オーバーレイ]に[C1]を選択します。
スクリーンショット 2022-07-25 13.06.02.png

[実行]します。C1と各フィールドの相関係数が求められています。
スクリーンショット 2022-07-25 13.06.35.png

[記述統計]ノードを利用した相関係数

c.[記述統計]ノードを編集します。
スクリーンショット 2022-07-25 13.07.04.png

[実行]します。C1とそれ以外のフィールドの相関係数が求められています。
スクリーンショット 2022-01-12 10.02.12.png

相関行列の作成

d.[記述統計]ノードを編集します。検証と相関に同じフィールドを選択すると相関行列を作成します。
スクリーンショット 2022-07-25 13.07.36.png

[実行]します。
スクリーンショット 2022-01-12 10.02.12.png

相関係数は[データ表示]からも求めることができます。aのノードで右クリックして[データ表示]を選択します。
スクリーンショット 2022-07-25 13.43.25.png

左のサンドバー[データ検査]からピアソンの相関係数タブを選択すると表示されます。
スクリーンショット 2022-07-25 13.08.40.png

相関係数を後続ストリームで利用するためにノードを組み合わせて計算する

e.[グローバルの設定]ノードを編集します。
スクリーンショット 2022-07-25 13.09.52.png

[実行]をします。4つのフィールドの平均値がメモリにキャッシュされました。関数を利用してこのグローバル値を呼び出すことが可能になりました。
スクリーンショット 2022-07-25 13.10.29.png

f.[フィールド作成]ノードを編集します。@￰GLOBAL_MEAN(フィールド)で先ほどキャッシュした平均値を呼び出して利用します。@￰FIELDはワイルドカードです。C1からC4まで対応するフィールドが入れ替わって計算されます。
スクリーンショット 2022-07-25 13.11.54.png

g.[レコード集計]ノードを編集します。キーをブランクにして1レコードに要約します。4つのフィールドの標準偏差とgで求めたC1との差の積の合計を求めます。また「フィールドにレコード度数を含める」にチェックしてレコード数を残します。
スクリーンショット 2022-07-25 13.12.16.png

h.[フィールド作成]ノードを編集します。共分散を計算します。相関係数の式では分子になります。
スクリーンショット 2022-07-25 13.12.37.png

i.[フィールド作成]ノードを編集します。相関係数の式では分母に該当します。
スクリーンショット 2022-07-25 13.12.55.png

j.[フィールド作成]ノードを編集します。C1とC2の相関係数を求めます。
スクリーンショット 2022-07-25 13.13.10.png

kとl はjと同様です。

m.計算に利用したフィールドはすべてフィルターします。
スクリーンショット 2022-07-25 13.13.31.png

[テーブル]を実行します。
スクリーンショット 2022-07-25 13.13.52.png

注意点

グローバル値は関数で呼び出されるまに事前に計算される必要があるため、バッチ運用の際にはストリームの冒頭で処理される必要があります。

4.参考情報

相関行列と散布図行列

SPSS Modeler ノードリファレンス目次

SPSS Modeler 逆引きストリーム集(データ加工)

2
0
0

Register as a new user and use Qiita more conveniently

  1. You get articles that match your needs
  2. You can efficiently read back useful information
  3. You can use dark theme
What you can do with signing up
2
0

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?