1
0

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?

More than 1 year has passed since last update.

複数のフラグ変数を比較して類似スコアを算出する(SPSS Modeler データ加工逆引き3-26)

Last updated at Posted at 2024-02-21

複数のフラグ変数を比較して類似スコアを算出する

スクリーンショット 2024-02-21 9.21.04.png

この記事は以下のブログを題材にしています

1.想定される利用目的

先頭レコードと比較して同じフィールド(列)にフラグが立った数をカウントする
・形態素に分解した文章/特許/コンタクトログの類似度を判定する
・アンケートの複数回答や購買記録から類似する被験者や顧客を特定する

2.サンプルストリームのダウンロード

3.サンプルストリームの説明

スクリーンショット 2024-02-21 9.23.58.png

a.入力するデータのひとつ目は以下の通りです。類似度を求める対象レコードです。

スクリーンショット 2024-02-21 9.27.05.png

b.入力するデータのふたつ目は以下の通りです。

スクリーンショット 2024-02-21 9.27.27.png

c.[レコード追加]ノードを配置します。フィールドの構造と型が一致しているのでデフォルト設定にします。

d.[フィールド作成]ノードを編集します。@￰INDEXでレコードに連番を振ります。この時比較対象をゼロにして2行目から1を割り当てるため@￰INDEX−1とします。

スクリーンショット 2024-02-21 9.27.47.png

[プレビュー]します。INDEXの1から10を先頭0と比較していきます。

スクリーンショット 2024-02-21 9.28.22.png

e.[フィールド作成]ノードを編集します。[モード]を[複数]に選択して[フィールドリスト]にAからGを投入します。新しいフィールド(列)がもう1セットできるので拡張子を[_一致]として識別します。
INDEXが0の場合にはヌル(undef)を割り当てそれ以外は各フィールドの先頭行と掛け算を行います。
@￰FIELDはワイルドカードです。@￰OFFSET(列,N)は N行上のレコードを参照します。

スクリーンショット 2024-02-21 9.29.13.png

[プレビュー]します。例えば赤枠の箇所を例にとると5行上の対象セル(青枠)を参照し
A ✖︎ @￰OFFSET(A,5)が計算され[A_一致](緑)に1が記述されます。

スクリーンショット 2024-02-21 9.30.23.png

f.[フィールド作成]ノードを編集します。

スクリーンショット 2024-02-21 9.33.25.png

[プレビュー]します。
スクリーンショット 2024-02-21 9.33.57.png

注意点

@￰OFFSET関数はSQLプッシュバックが効かないため、大規模データセットでは別途工夫が必要です。

4. 参考情報

1行上/先頭行との値の差を求める

SPSS Modeler ノードリファレンス目次

SPSS Modeler 逆引きストリーム集(データ加工)

1
0
0

Register as a new user and use Qiita more conveniently

  1. You get articles that match your needs
  2. You can efficiently read back useful information
  3. You can use dark theme
What you can do with signing up
1
0

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?