カテゴリ値を列に展開してIDで集約(縦持ちを横持ちへ)
1.想定される利用目的
・顧客の商品購買履歴から特徴量を作成
・設備ログから異常や故障に関連する特徴量の作成
2.サンプルストリームのダウンロード
3.サンプルストリームの説明
[再構成]ノードを利用する方法
b.[再構成]ノードを編集します。商品を列に展開して金額を埋め込みます。
[プレビュー]します。3列追加されて該当セルに金額が入りました。
c.[レコード集計]ノードを編集します。[顧客ID]を[キー]にして列に展開した各商品の金額を合計します。
[プレビュー]します。購入履歴がないと欠損値Nullが入ります。
d.[置換]ノードを編集します。後続処理を想定してNullはゼロに置換します。商品金額の比率を求めるなどの場合に計算を成立させるためです。
[行列入替]ノードを利用する方法
e.[行列入替]ノードを編集します。[行列入替方法]は[レコードからフィールドへ]を選択します。
f.関数to_integer(フィールド)で整数化するために[置換]ノードを利用します。@FIELDはワイルドカードです。3つのフィールドを同時に処理することが可能です。
g.dと同じ設定です。
注意事項
サンプルストリームでは入力ノードで[商品]のデータの型を確定してあります。新たなデータを適用する際に[再構成]の[利用可能なセット値]がリストされない場合には[データ型]ノードで[値の読み込み]ボタンを押してカテゴリメンバーを確定してください。
[行列入替]ノードを利用する方法はSQLプッシュバックが効きません。SQLプッシュバックについて以下の記事が詳しく解説しています。
4.参考情報
[再構成]の解説記事
[行列入替]の解説記事
SPSS Modeler ノードリファレンス目次
SPSS Modeler 逆引きストリーム集(データ加工)