SPSS Modeler18.2.2で使用できるCLEM式の文字列関数についてまとめました。
文字列関数の分類と表記ルールについて
■ 分類
CLEM式の文字列関数は、関数の実行結果から3つに分類できます。
文字列関数の実行結果が
1.文字列:String
2.文字の位置(何文字目):Integer
3.真(1),偽(0):Boolean
※SPSS Modelerにおける文字数のカウントは、全角半角を区別しません。
たとえば、全角の「アイウエオ」と半角の「アイウエオ」の全角の「ウ」と半角の「ウ」は、どちらも文字の位置は3文字目です。全角半角の文字が混在していても文字単位でカウントします。
■ 表記方法と説明
■ ルール
CHAR:Character(文字)は、バッククォートで囲む
STRING:Strings(文字列)は、ダブルクォートで囲む
1.結果を文字列で返す関数
○ 文字列の最初や最後の空白文字を削除したい場合
空白文字には、全角スペース、半角スペース、タブが該当します。文字列の最初や最後にある複数の全角や半角スペース、全角スペース、半角スペースの混在なども一括で削除できます。
なお、一部の入力ノードには、フィールド内の文字列の前後のスペースを削除する機能があるのでそこで対応しておくと関数を使わずにすみます。
・trimstart(STRING):文字列フィールド(STRING)の最初の空白文字を削除
・trimend(STRING):文字列フィールド(STRING)の最後の空白文字を削除
・trim(STRING):文字列フィールド(STRING)の最初と最後の空白文字を削除
文字列の最初や最後、その両方の空白文字が削除されました。
ただ文字列中内の空白文字は削除されないので次のような方法で対処します。
○ 文字列を置換えたい場合
・replace(SUBSTRING, NEWSUBSTRING, STRING):文字列フィールド(STRING)の一部(SUBSTRING)を新しい文字列(NEWSUBSTRING)に置換
文字の置き換えでは、下の図のように全角・半角スペースを空に置き換えることで、文字列の前後、文字列中のスペースを削除することができます。ただし、タブは対象外です。
また、関数を入れ子にすればフィールド作成ノード1つで加工ができます。入れ子の表現は次の通りです。
replace(" ","",(replace(" ","",コメント)))
○ 文字列内の文字を削除したい場合
・stripchar(CHAR,STRING):文字列フィールド(STRING)から、指定した文字を削除
たとえば、これまでの例のように全角・半角スペースを削除するには、バッククォートで、それらを囲みます。
・allbutfirst(N, STRING):文字列フィールド(STRING)の最初のN文字分を削除
コメントフィールドの最初の3文字を削除しました。
・allbutlast(N, STRING):文字列フィールド(STRING)の最後のN文字分を削除
コメントフィールドの最後の1文字を削除しました。
○ 文字列の一部を抜粋したい場合
・substring(N, LEN, STRING):文字列フィールド(STRING)のN文字目から指定した文字数(LEN)を抜粋
コメントフィールドの2文字目から3文字を抜粋しました。
・substring_between(N1, N2, STRING):文字列フィールド(STRING)のN1文字目からN2文字目までを抜粋
コメントフィールドの4文字目から7文字目までを抜粋しました。
・startstring(LENGTH, STRING):文字列フィールド(STRING)の1文字目から指定した文字数(LENGTH)を抜粋
コメントフィールドの最初の3文字を抜粋しました。
・endstring(LENGTH, STRING):文字列フィールド(STRING)の最後の文字から指定した文字数(LENGTH)を抜粋
コメントフィールドの最後の7文字を抜粋しました。
・last(STRING):文字列フィールド(STRING)の最後の文字を抜粋
コメントフィールドの最後の文字を抜粋しました。
・subscrs(N,STRING):文字列フィールド(STRING)のN文字目を抜粋
コメントフィールドの3文字目を抜粋しました。
・STRING(N):文字列フィールド(STRING)のN文字目を抜粋
先程と同様にコメントフィールドの3文字目を抜粋しました。
○ アルファベットの大文字小文字を変換したい場合
・uppertolower (STRING):文字列フィールド(STRING)のアルファベットの大文字を全角の小文字に変換
・lowertoupper (STRING):文字列フィールド(STRING)のアルファベットの小文字を全角の大文字に変換
コメントフィールドのアルファベットを全て小文字、全て大文字に変換しました。
○ フィールドの連結(結合)をしたい場合
・FIELD1 >< FIELD2:フィールド1とフィールド2の連結(結合)
コメント1フィールドとコメント2フィールドを連結しました。
○ フィールド内の文字列を繰返したい場合
・replicate(COUNT, STRING):指定した回数分(COUNT)、文字列(STRING)を繰り返す
コメントフィールドの内容を3回繰返した結果を返しました。
2.結果を文字の位置(数値)で返す関数
○ 文字数を知りたい場合
・length(STRING):文字列フィールド(STRING)の文字数
○ 検索文字列の登場頻度を知りたい場合
・count_substring(STRING, SUBSTRING):文字列フィールド(STRING)に指定した文字もしくは、文字列(SUBSTRING)の登場頻度
【関連】
https://www.ibm.com/support/pages/clem%E5%BC%8F%E3%81%A7%E7%89%B9%E5%AE%9A%E3%81%AE%E3%82%AD%E3%83%BC%E3%83%AF%E3%83%BC%E3%83%89%E3%82%92%E5%AF%BE%E8%B1%A1%E3%83%95%E3%82%A3%E3%83%BC%E3%83%AB%E3%83%89%E3%81%8B%E3%82%89%E8%A6%8B%E3%81%A4%E3%81%91%E3%82%8B%E6%96%B9%E6%B3%95
○ 検索文字や文字列の位置(何文字目)を知りたい場合
・issubstring(SUBSTRING, STRING):指定した文字もしくは、文字列(SUBSTRING)を文字列フィールド(STRING)の1文字目から検索し、見つかった位置(何文字目)
見つからない場合には、偽(0)
コメントフィールドに該当する文字が何文字目にあるか返しました。該当する文字がない場合は0を返します。
【関連】
https://www.ibm.com/support/pages/spss-modeler%E3%82%84text-analytics%E3%81%A7%E3%80%81%E6%96%87%E5%AD%97%E5%88%97%E3%82%92%E6%A4%9C%E7%B4%A2%E3%81%97%E3%81%A6%E6%8A%BD%E5%87%BA%E3%81%99%E3%82%8B%E6%96%B9%E6%B3%95%E3%81%AB%E3%81%A4%E3%81%84%E3%81%A6
・issubstring(SUBSTRING, N, STRING):指定した文字もしくは、文字列(SUBSTRING)を文字列フィールド(STRING)のN文字目から検索し、見つかった位置(何文字目)
・isstartstring(SUBSTRING, STRING):指定した文字もしくは、文字列(SUBSTRING)を文字列フィールド(STRING)の最初から検索し、見つかった位置(何文字目)
・isendstring(SUBSTRING, STRING):指定した文字もしくは、文字列(SUBSTRING)を文字列フィールド(STRING)の最後から検索し、見つかった位置(何文字目)
・ismidstring(SUBSTRING, STRING):指定した文字もしくは、文字列(SUBSTRING)が文字列フィールド(STRING)の最初もしくは、最後でない場合のレコードで見つかった位置
○ 検索文字の位置(何文字目)を知りたい場合
・locchar(CHAR, N, STRING):指定した文字(CHAR)を文字列フィールド(STRING)のN文字目から検索し、見つかった位置(何文字目)
見つからない場合には、偽(0)
・locchar_back(CHAR, N, STRING):指定した文字(CHAR)を文字列フィールド(STRING)のN文字目から前に検索し、見つかった位置(何文字目)
・strmember(CHAR, STRING):locchar(CHAR, 1, STRING) と同じ。
3.結果を真(1)か偽(0)で返す関数
○ 一致する文字列を検索したい場合
・matches:文字列が指定したパターンに一致する場合に真を返す
【関連】
https://www.ibm.com/support/pages/%E6%9D%A1%E4%BB%B6%E6%8A%BD%E5%87%BA%E3%83%8E%E3%83%BC%E3%83%89%EF%BC%9A%E7%89%B9%E5%AE%9A%E3%81%AE%E6%96%87%E5%AD%97%E5%88%97%E3%81%8C%E5%85%A5%E5%8A%9B%E3%81%95%E3%82%8C%E3%81%A6%E3%81%84%E3%82%8B%E3%83%AC%E3%82%B3%E3%83%BC%E3%83%89%E3%82%92%E6%8A%BD%E5%87%BA%E3%81%99%E3%82%8B%E6%96%B9%E6%B3%95
◯ 文字列に該当する文字種が含まれるかを判定したい場合
・isuppercode(CHAR):文字(CHAR)が大文字の場合に真(1)の値を返す
product_idフィールドの3文字目が大文字のレコードに1を返しました。
・islowercode(CHAR):文字(CHAR)が小文字の場合に真(1)の値を返す
・isnumbercode(CHAR):文字(CHAR)の文字コードが数字の場合に真(1)の値を返す
・isalphacode(CHAR):文字(CHAR)の文字コードが文字の場合に真(1)の値を返す
たとえば、islowercode(product_id(2))やisnumbercode(product_id(3))やisalphacode(product_id(3))も同じように使えます。
まとめ
便利な関数はたくさんありますが、使っていないと忘れてしまいがちなのでまとめました。