3
0

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?

コメント欄にリストのキーワードがあればフラグ化する(SPSS Modeler データ加工逆引き2-6)

3
Last updated at Posted at 2022-07-01

コメント欄にリストのキーワードがあればフラグ化

スクリーンショット 2022-06-24 13.44.34.png

1.想定される利用目的

・コールセンターログやアンケートのFA(自由回答)から、特定ワード有無を特徴量として予測に活用する。
・保守記録や設備ログから注目するべき特定ワード有無を特徴量として予測に活用する。

*この記事では簡易的な方法を紹介します。

2024年12月に更新されたSPSS Modeler Premiumでは日本語テキストマイニング機能が復活していますので以下の記事(逆引き13章)も併せてお読みください。

2.サンプルストリームのダウンロード

3.サンプルストリームの説明

スクリーンショット 2022-06-28 10.12.28.png

a.入力するデータの1つ目はコンタクトセンターの入電記録です。
スクリーンショット 2022-06-24 13.46.56.png

b.2つ目の入力データは注目するべきキーワードのリストです。Excelなどで表記揺れの辞書とともに管理すると便利です。
スクリーンショット 2022-06-24 13.47.14.png

c.[レコード結合]ノードで条件結合を行います。部分外部結合にして①を主テーブルにします(赤枠)。さらに[結合方法]には[条件]を選択して[重複したフィールド名〜]をチェックします。記述する条件式は以下の通りでです。何文字目にキーワードの文字列が登場するか整数で返す関数で、キーワードを見つけないと0を返すルールを利用しています。
スクリーンショット 2022-06-28 10.14.59.png

[プレビュー]します。ID番号2のレコードにはキーワードが含まれないので欠損値Nullになっています。
スクリーンショット 2022-06-28 10.16.51.png

d.[フラグ設定]ノードを編集します。
スクリーンショット 2022-06-28 10.24.37.png

[テーブル]を実行します。
スクリーンショット 2022-06-28 10.25.55.png

注意事項

キーワードが250を超えるときはストリームのプロパティの制限を変更してください。
今回は②で[値の読み込み]をしていますが、ご自分で作成されるときには入力時が[データ型]ノードで[値の読み込み]をしないと[フラグ設定]のメンバーにキーワードがリストされないので注意してください。

4.参考情報

拡張ノードでPythonのライブラリを呼び出してテキスト処理する

キーワードの有無で類似文章を検索する

SPSS Modeler ノードリファレンス目次

SPSS Modeler 逆引きストリーム集(データ加工)

3
0
0

Register as a new user and use Qiita more conveniently

  1. You get articles that match your needs
  2. You can efficiently read back useful information
  3. You can use dark theme
What you can do with signing up
3
0

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?