2-3 重複レコードノード[レコード設定タブ]
1.ノードの目的
重複するレコードを排除します。
2.解説動画(60秒)
3.クイックスタート
Webログデータから[顧客データ]の重複を排除します。
*データは[5.参考情報]からダウンロードできます。
[可変長ファイル]ノードに[重複レコード]ノードと[テーブル]ノードを順番に接続します。
[重複レコード]ノードをダブルクリックして編集します。[グループ化のキーフィールド]に[顧客番号]を選択し、それ以外は初期設定にします。
[テーブル]ノードを実行します。重複が排除され、顧客ごとの最初のレコードのみが残され1499レコードになりました。
[顧客番号]と[page]の重複を排除してみます。 [DATE]で昇順ソートします。
[複合]タブでは残されるレコードの値の指定ができます。
顧客が視聴したページがユニークなレコードになりました。
レコード集計ノードとの比較
重複レコード(Distinct)とレコード集計(Aggregate)は結果的に同じような処理が可能です。レコード集計で以下のように設定します。
顧客の重複が排除され、日付の最小値を計算していますので冒頭の処理と同等です。
数値フィールドの要約やレコード数のカウントなどはどちらもできますが、重複レコードは最初や最後のレコードや最頻値の保持などが出来るようになっています。
4.Tips
休眠直前の行動の特定
IoTセンサーデータの最大値や最小値の抽出
5.参考情報
利用データ
右クリックでリンク先を保存してください。
SPSS Modelerの重複レコード・ノードをPythonで書き換える。
ノードのヘルプ
SPSS Modeler 逆引きストリーム集(データ加工)
SPSS Modeler ノードリファレンス目次