LoginSignup
1
0

SPSS Modeler ノードリファレンス 6-2 データ検査ノード

Last updated at Posted at 2022-02-16

6-2 データ検査ノード[出力タブ]

107_89データ検査.png

1.ノードの目的

データを検査します。基本統計量やグラフでデータの概要を表示し、欠損値や外れ値の処理を行います。

2.解説動画(60秒)

3.クイックスタート

[可変長ファイル]に[データ検査]を接続します。
*入力データは[5.参考情報]からダウンロードできます。
スクリーンショット 2022-01-28 13.38.11.png

何も設定もせずに[データ検査]を実行します。
全てのフィールドのグラフと基本統計量が表示されます。
スクリーンショット 2022-01-28 13.36.59.png

[性別]でオーバーレイしてみます。
スクリーンショット 2022-01-26 9.27.04.png

予測対象をオーバーレイすると、関係性の高いフィールドを探索するのに便利です。グラフをクリックすると、以下のように独立したグラフとして表示されます。
スクリーンショット 2022-01-26 9.28.08.png

欠損値検査のタブを開くと[外れ値]や[ヌル]、[空白文字]の該当数が表示され、対処方法を決めることができます。
スクリーンショット 2022-01-28 13.41.27.png

4.Tips

オーバーレイで連続値を選ぶと相関が表示

連続値年齢をオーバーレイします。
スクリーンショット 2022-01-28 13.44.59.png

グラフが散布図になることに加え、相関係数が表示されます。
スクリーンショット 2022-01-28 13.45.21.png

外れ値と極値の対処(スーパーノード)

[データ検査]ノードで外れ値と極値の対処を行うスーパーノードを自動生成させられます。
スクリーンショット 2022-01-28 14.11.54.png

外れ値と極値の定義は[データ検査]ノードの欠損値検査のタブで行います。
スクリーンショット 2022-01-28 14.04.04.png
正規分布3σ(シグマ)に99.7%のレコードが含まれます。
image (3).png

例えば年齢の外れ値(3標準偏差より外側)に対して[アクション]を[破棄]と選択し[生成]>[外れ値および極値スーパーノード]を選択します。該当するレコードごと破棄するスーパーノードが作られます。[無効]を選択すると外れ値がヌルに置換されます。
スクリーンショット 2022-01-28 14.14.27.png

欠損値の対処①(フィルター)

欠損値が占める比率を指定してフィールドとして対象から除外できます。[欠損値検査タブ]で[生成]>[欠損値フィルターノード]を選択します。
スクリーンショット 2022-01-28 15.12.47.png
除外する欠損率を指定します。
スクリーンショット 2022-01-28 15.15.12.png
該当する品質のみを含める(ここでは95%以上が有効)フィールドのみを通過させるフィルターを自動生成します。
スクリーンショット 2022-01-28 15.15.36.png

欠損値の対処②(条件抽出)

欠損値のあるレコードを条件抽出で破棄できます。[欠損値検査タブ]で[生成]>[欠損値選択ノード]を選択します。
スクリーンショット 2022-01-28 15.24.46.png
欠損値の含まれるレコードは破棄する例です。
スクリーンショット 2022-01-28 15.27.47.png
自動生成された条件抽出ノードです。レコードを破棄する条件が自動記述されています。
スクリーンショット 2022-01-28 15.29.14.png

欠損値の対処③(スーパーノード)

[データ検査]ノードで欠損値の対処を行うスーパーノードを自動生成させられます。
スクリーンショット 2022-01-28 17.12.24.png

aでヌルや空白の対象を確定し、bで方法を選択。cのメニューからスーパーノードを生成します。
スクリーンショット 2022-01-28 17.10.38.png

bでは平均値の代入や、アルゴリズム(CART)による代入などを選択できます。
スクリーンショット 2022-01-28 17.09.44.png
スクリーンショット 2022-01-28 17.10.18.png

[データを表示]でデータ検査を確認(Ver18.2以降)

Ver18.2以降で[データを表示]機能が備わりました。全てのノードから[データを表示]が選択できます。
スクリーンショット 2022-01-25 10.16.37.png
左のタブから[データ検査]を選びます。
スクリーンショット 2022-01-28 13.54.53.png
欠損値もレガシーグラフ同様存在します。
スクリーンショット 2022-01-28 13.55.08.png
基本統計量は次のように表示します。
スクリーンショット 2022-01-28 13.55.48.png
SPSS Modelerではこれまでなかった相関行列を求められます。
スクリーンショット 2022-01-28 13.56.07.png

5.参考情報

利用データ

右クリックでリンク先を保存してください。
https://raw.githubusercontent.com/yoichiro0903n/blue/main/attitudewithMV.csv

データ検査ノードを解説した推しノードブログ

SPSS Modelerのデータ検査ノード(目的変数がカテゴリ型)をPythonで書き換える。

ノードのヘルプ

SPSS Modeler 逆引きストリーム集(データ加工)

SPSS Modeler ノードリファレンス目次

1
0
0

Register as a new user and use Qiita more conveniently

  1. You get articles that match your needs
  2. You can efficiently read back useful information
  3. You can use dark theme
What you can do with signing up
1
0