2-3 重複レコードノード[レコード設定タブ]
1.ノードの目的
重複するレコードを排除します。
2.解説動画(60秒)
3.クイックスタート
Webログデータから[顧客データ]の重複を排除します。
*データは[5.参考情報]からダウンロードできます。

[可変長ファイル]ノードに[重複レコード]ノードと[テーブル]ノードを順番に接続します。

[重複レコード]ノードをダブルクリックして編集します。[グループ化のキーフィールド]に[顧客番号]を選択し、それ以外は初期設定にします。

[テーブル]ノードを実行します。重複が排除され、顧客ごとの最初のレコードのみが残され1499レコードになりました。

[顧客番号]と[page]の重複を排除してみます。 [DATE]で昇順ソートします。

[複合]タブでは残されるレコードの値の指定ができます。

顧客が視聴したページがユニークなレコードになりました。

レコード集計ノードとの比較
重複レコード(Distinct)とレコード集計(Aggregate)は結果的に同じような処理が可能です。レコード集計で以下のように設定します。

顧客の重複が排除され、日付の最小値を計算していますので冒頭の処理と同等です。

数値フィールドの要約やレコード数のカウントなどはどちらもできますが、重複レコードは最初や最後のレコードや最頻値の保持などが出来るようになっています。
4.Tips
休眠直前の行動の特定
IoTセンサーデータの最大値や最小値の抽出
5.参考情報
利用データ
右クリックでリンク先を保存してください。
SPSS Modelerの重複レコード・ノードをPythonで書き換える。
ノードのヘルプ
SPSS Modeler 逆引きストリーム集(データ加工)
SPSS Modeler ノードリファレンス目次