１列内にある、区切り文字(改行やカンマなど)を含む文字列を列展開にする(SPSS Modeler データ加工逆引き7-18)

Last updated at 2023-12-22Posted at 2023-12-22

１列内にある区切り文字(改行やカンマなど)を含む文字列を列展開にする

・履歴やタグのようなリスト構造を持つフィールドの利用

「改行」が区切り文字で複数のデータが一つのフィールドに記録されています。データ数は行によって異なっていてもかまいません。

まず、「HISTORY」列に何件のデータがあるかを数えて、何列用意すればいいかを調べます。

count_substring(HISTORY,'\n')+1

で区切り文字の数をカウントします。「\n」は改行コードを意味しています。区切り文字の数＋１がデータ数になります。

[プレビュー]を実行します。

[履歴数]列の「最大」を集計します。

結果は3件でしたので、３列用意する必要があります。

[HISTORY]列を区切り文字（改行コード）で一つずつ取り出していきます。
3列分の[フィールド作成]ノードを作ります。

textsplit(HISTORY,1,'\n')
textsplit(HISTORY,2,'\n')
textsplit(HISTORY,3,'\n')

[テーブル]を実行します。3列に分割できました。

カンマ区切りの場合は区切り文字を変える必要があります。

textsplit(HISTORY,1,',')

当記事では横持で展開しましたが、こちらは縦持ち展開する記事です。

当記事では展開データは不明という想定でしたが、中身がわかっている場合にはこちらの記事のようにフラグ化するようなことも可能です。