LoginSignup
2
0

More than 1 year has passed since last update.

SPSS Modeler ノードリファレンス 2-4 重複レコード

Last updated at Posted at 2022-02-16

2-3 重複レコードノード[レコード設定タブ]

107_89重複レコード.png

1.ノードの目的

重複するレコードを排除します。

2.解説動画(60秒)

3.クイックスタート

Webログデータから[顧客データ]の重複を排除します。
*データは[5.参考情報]からダウンロードできます。
スクリーンショット 2022-02-08 9.39.12.png
[可変長ファイル]ノードに[重複レコード]ノードと[テーブル]ノードを順番に接続します。
スクリーンショット 2022-02-08 10.17.55.png

[重複レコード]ノードをダブルクリックして編集します。[グループ化のキーフィールド]に[顧客番号]を選択し、それ以外は初期設定にします。
スクリーンショット 2022-02-08 10.20.11.png

[テーブル]ノードを実行します。重複が排除され、顧客ごとの最初のレコードのみが残され1499レコードになりました。
スクリーンショット 2022-02-08 9.40.12.png
[顧客番号]と[page]の重複を排除してみます。 [DATE]で昇順ソートします。
スクリーンショット 2022-02-08 9.59.00.png
[複合]タブでは残されるレコードの値の指定ができます。
スクリーンショット 2022-02-08 9.59.57.png
顧客が視聴したページがユニークなレコードになりました。
スクリーンショット 2022-02-08 10.00.35.png

レコード集計ノードとの比較

重複レコード(Distinct)とレコード集計(Aggregate)は結果的に同じような処理が可能です。レコード集計で以下のように設定します。
スクリーンショット 2022-02-08 9.55.06.png
顧客の重複が排除され、日付の最小値を計算していますので冒頭の処理と同等です。
スクリーンショット 2022-02-08 9.55.39.png
数値フィールドの要約やレコード数のカウントなどはどちらもできますが、重複レコードは最初や最後のレコードや最頻値の保持などが出来るようになっています。

4.Tips

休眠直前の行動の特定

IoTセンサーデータの最大値や最小値の抽出

5.参考情報

利用データ

右クリックでリンク先を保存してください。

SPSS Modelerの重複レコード・ノードをPythonで書き換える。

ノードのヘルプ

SPSS Modeler 逆引きストリーム集(データ加工)

SPSS Modeler ノードリファレンス目次

2
0
0

Register as a new user and use Qiita more conveniently

  1. You get articles that match your needs
  2. You can efficiently read back useful information
  3. You can use dark theme
What you can do with signing up
2
0