2-2 レコード集計ノード[レコード設定タブ]
1.ノードの目的
データの集計を行います。
2.解説動画(60秒)
3.クイックスタート
Webログデータを対象にします。視聴者が閲覧した複数Webページが記録されるトランザクション形式です。*データは[5.参考情報]からダウンロードできます。
[可変長ファイル]ノードに[レコード集計]ノードと[テーブル]ノードを順番に接続します。
[レコード集計]ノードをダブルクリックして編集します。[キーフィールド]をブランクのまま[集計フィールド]を以下のように設定します。赤枠ボタンで集計するフィールドを選択し、統計量を確定します。
[テーブル]ノードを実行します。このWebログデータの記録された期間と視聴時間の合計が計算されました。
視聴者毎の集計を行います。[キーフィールド]に[顧客番号]を入れ、それ以外の設定は変更しません。
[テーブル]ノードを実行します。Webサイトの1499名の視聴者の行動が要約されています。1視聴者1レコードで集計されRecord_Countはレコード数(視聴ページ数)を示しています。
大規模データを利用する場合の注意点
中央値の計算は他の計算よりコンピュータリソースを使います。特別必要がなければ外してください。特に[データベース]を入力にしている場合には、中央値の演算でSQLプッシュバックが効かなくなり極端に処理速度が低下することがあります。
4.Tips
大規模データでのレコード数の確認
[プレビュー]を実行するとレコード数が表示されます。データが大規模な場合に素早くレコード数だけ確認するのに便利な方法です。
大規模データでのキャッシュの利用
レコード数が削減される[レコード集計]でキャッシュを利用すると都度大きな元データを読み込まずキャッシュを起点に処理するため、作業の効率化が期待できます。
##5.参考情報
利用データ
右クリックでリンク先を保存してください。
ノードのヘルプ
SPSS Modeler 逆引きストリーム集(データ加工)
SPSS Modeler ノードリファレンス目次