6-2 データ検査ノード[出力タブ]
1.ノードの目的
データを検査します。基本統計量やグラフでデータの概要を表示し、欠損値や外れ値の処理を行います。
2.解説動画(60秒)
3.クイックスタート
[可変長ファイル]に[データ検査]を接続します。
*入力データは[5.参考情報]からダウンロードできます。
何も設定もせずに[データ検査]を実行します。
全てのフィールドのグラフと基本統計量が表示されます。
予測対象をオーバーレイすると、関係性の高いフィールドを探索するのに便利です。グラフをクリックすると、以下のように独立したグラフとして表示されます。
欠損値検査のタブを開くと[外れ値]や[ヌル]、[空白文字]の該当数が表示され、対処方法を決めることができます。
4.Tips
オーバーレイで連続値を選ぶと相関が表示
外れ値と極値の対処(スーパーノード)
[データ検査]ノードで外れ値と極値の対処を行うスーパーノードを自動生成させられます。
外れ値と極値の定義は[データ検査]ノードの欠損値検査のタブで行います。
正規分布3σ(シグマ)に99.7%のレコードが含まれます。
例えば年齢の外れ値(3標準偏差より外側)に対して[アクション]を[破棄]と選択し[生成]>[外れ値および極値スーパーノード]を選択します。該当するレコードごと破棄するスーパーノードが作られます。[無効]を選択すると外れ値がヌルに置換されます。
欠損値の対処①(フィルター)
欠損値が占める比率を指定してフィールドとして対象から除外できます。[欠損値検査タブ]で[生成]>[欠損値フィルターノード]を選択します。
除外する欠損率を指定します。
該当する品質のみを含める(ここでは95%以上が有効)フィールドのみを通過させるフィルターを自動生成します。
欠損値の対処②(条件抽出)
欠損値のあるレコードを条件抽出で破棄できます。[欠損値検査タブ]で[生成]>[欠損値選択ノード]を選択します。
欠損値の含まれるレコードは破棄する例です。
自動生成された条件抽出ノードです。レコードを破棄する条件が自動記述されています。
欠損値の対処③(スーパーノード)
[データ検査]ノードで欠損値の対処を行うスーパーノードを自動生成させられます。
aでヌルや空白の対象を確定し、bで方法を選択。cのメニューからスーパーノードを生成します。
bでは平均値の代入や、アルゴリズム(CART)による代入などを選択できます。
[データを表示]でデータ検査を確認(Ver18.2以降)
Ver18.2以降で[データを表示]機能が備わりました。全てのノードから[データを表示]が選択できます。
左のタブから[データ検査]を選びます。
欠損値もレガシーグラフ同様存在します。
基本統計量は次のように表示します。
SPSS Modelerではこれまでなかった相関行列を求められます。
5.参考情報
利用データ
右クリックでリンク先を保存してください。
https://raw.githubusercontent.com/yoichiro0903n/blue/main/attitudewithMV.csv
データ検査ノードを解説した推しノードブログ
SPSS Modelerのデータ検査ノード(目的変数がカテゴリ型)をPythonで書き換える。
ノードのヘルプ
SPSS Modeler 逆引きストリーム集(データ加工)
SPSS Modeler ノードリファレンス目次