コメント欄にリストのキーワードがあればフラグ化
1.想定される利用目的
・コールセンターログやアンケートのFA(自由回答)から、特定ワード有無を特徴量として予測に活用する。
・保守記録や設備ログから注目するべき特定ワード有無を特徴量として予測に活用する。
*この記事では簡易的な方法を紹介します。
2024年12月に更新されたSPSS Modeler Premiumでは日本語テキストマイニング機能が復活していますので以下の記事(逆引き13章)も併せてお読みください。
2.サンプルストリームのダウンロード
3.サンプルストリームの説明
a.入力するデータの1つ目はコンタクトセンターの入電記録です。

b.2つ目の入力データは注目するべきキーワードのリストです。Excelなどで表記揺れの辞書とともに管理すると便利です。

c.[レコード結合]ノードで条件結合を行います。部分外部結合にして①を主テーブルにします(赤枠)。さらに[結合方法]には[条件]を選択して[重複したフィールド名〜]をチェックします。記述する条件式は以下の通りでです。何文字目にキーワードの文字列が登場するか整数で返す関数で、キーワードを見つけないと0を返すルールを利用しています。

[プレビュー]します。ID番号2のレコードにはキーワードが含まれないので欠損値Nullになっています。

注意事項
キーワードが250を超えるときはストリームのプロパティの制限を変更してください。
今回は②で[値の読み込み]をしていますが、ご自分で作成されるときには入力時が[データ型]ノードで[値の読み込み]をしないと[フラグ設定]のメンバーにキーワードがリストされないので注意してください。
4.参考情報
拡張ノードでPythonのライブラリを呼び出してテキスト処理する
キーワードの有無で類似文章を検索する
SPSS Modeler ノードリファレンス目次
SPSS Modeler 逆引きストリーム集(データ加工)



