SPSS Modeler ノードリファレンス 2-4 重複レコード

Last updated at 2025-04-30Posted at 2022-02-16

2-3 重複レコードノード[レコード設定タブ]

1.ノードの目的

重複するレコードを排除します。

2.解説動画（60秒）

3.クイックスタート

Webログデータから[顧客データ]の重複を排除します。
＊データは[5.参考情報]からダウンロードできます。

[可変長ファイル]ノードに[重複レコード]ノードと[テーブル]ノードを順番に接続します。

[重複レコード]ノードをダブルクリックして編集します。[グループ化のキーフィールド]に[顧客番号]を選択し、それ以外は初期設定にします。

[テーブル]ノードを実行します。重複が排除され、顧客ごとの最初のレコードのみが残され1499レコードになりました。

[顧客番号]と[page]の重複を排除してみます。 [DATE]で昇順ソートします。

[複合]タブでは残されるレコードの値の指定ができます。

顧客が視聴したページがユニークなレコードになりました。

レコード集計ノードとの比較

重複レコード（Distinct）とレコード集計（Aggregate）は結果的に同じような処理が可能です。レコード集計で以下のように設定します。

顧客の重複が排除され、日付の最小値を計算していますので冒頭の処理と同等です。

数値フィールドの要約やレコード数のカウントなどはどちらもできますが、重複レコードは最初や最後のレコードや最頻値の保持などが出来るようになっています。

4.Tips

休眠直前の行動の特定

IoTセンサーデータの最大値や最小値の抽出

5.参考情報

利用データ

右クリックでリンク先を保存してください。

SPSS Modelerの重複レコード・ノードをPythonで書き換える。

ノードのヘルプ

SPSS Modeler 逆引きストリーム集（データ加工）

SPSS Modeler ノードリファレンス目次

You get articles that match your needs
You can efficiently read back useful information
You can use dark theme

What you can do with signing up