2
1

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?

基準となる平均と標準偏差を元に複数列のZスコアを計算する(SPSS Modeler データ加工逆引き3-29)

Last updated at Posted at 2024-09-06

基準となる平均と標準偏差を元に複数列のZスコアを計算する

zスコアの計算例は過去の記事にもありますが、
zスコアを計算する際に基準となる平均と標準偏差を、異常値による影響を避けるために、例えば前日の値に固定したいようなことがあります。

image.png

1.想定される利用目的

  • 異なる尺度をもつフィールド(列)間の比較
  • 特徴量への変換(予測アルゴリズムに応じて)
  • 異常値の監視

2.サンプルストリームとデータのダウンロード

ストリーム

データ

3.サンプルストリームの説明

image.png

a.入力するデータは以下の通りです。
タイムスタンプと温度1温度2の列があります。
2023-04-01の平均値と標準偏差を基に温度1温度2のzスコアを計算したいと思います。
image.png

2023-04-01の平均値と標準偏差をグローバル値として計算します

b.[条件抽出]ノードを編集します。

以下の式で「2023-04-01」のデータに絞り込みます。

datetime_date(TS)= "2023-04-01"

image.png

c.[グローバルの設定]ノードで温度1温度2を選択し、「平均」と「標準偏差」を選びます。
値を上書きしないように念のために「実行前にすべてのグローバル値を消去」のチェックは外しておき、実行します。
image.png

ストリームのプロパティの「グローバル」タブを見ると平均値と標準偏差が計算されています。
image.png

Zスコアに変換する

d.[フィールド作成]ノードを編集します。
「モード」を「複数」にします。
「フィールドリスト」に温度1温度2を選択します。
「フィールド名拡張子」には「_zscore」を入れました。
そしてCLEM式に以下を入れます。@FIELDでグローバル値を参照しているので、複数列の計算が一度に行えます。

(@FIELD-@GLOBAL_MEAN(@FIELD))/@GLOBAL_SDEV(@FIELD)

image.png

e.[テーブル]ノードで結果を見ます。
2023-04-01の平均値と標準偏差を基に温度1温度2のzスコアが計算できています。
image.png

4.参考情報

値をZスコアに標準化する(SPSS Modeler データ加工逆引き3-11) #SPSS_Modeler - Qiita

SPSS ModelerでZスコアを扱った記事

SPSS Modeler ノードリファレンス目次

SPSS Modeler 逆引きストリーム集(データ加工)

2
1
0

Register as a new user and use Qiita more conveniently

  1. You get articles that match your needs
  2. You can efficiently read back useful information
  3. You can use dark theme
What you can do with signing up
2
1

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?