はじめに
SPSS Modeler Premium 18.6では日本語テキスト分析が可能になっています。
テキスト分析についてはModelerFlowのチュートリアルと@TTS22 さんの日本語解説記事がありますので、この内容をオンプレ版のModelerで実行してみます。
3つの記事からなっています。
①インタラクティブ・ワークベンチ
②カテゴリーのフラグ化
③テキストリンク分析(←この記事)
■テスト環境
- Modeler Premium 18.6
- Windows 11 64bit
テストデータ
@TTS22 さんが翻訳してくれたホテルの満足度調査のデータを使います。
Comments列にテキストデータが入っています。820件あります。
テキストリンク分析
「IBM SPSS Text Analytics」のパレットから「テキストリンク分析」のノードを接続します。
まず、フィールドのタブで以下を選択します。
IDフィールド:id
テキストフィールド:Comments
「リソーステンプレート」で「読み込み」をクリックし、「HotelSatisfaction (Japanese)」を選んで「OK」します。
こんな結果が返ります。「HotelSatisfaction (Japanese)」のリソーステンプレートの中で定義されている「条件規則」に基づいて、「コンセプト」とその「タイプ」抜き出します。「条件規則」がテキストの中のどこにマッチしたかは「マッチテキスト」にあらわされています。
テキストリンク分析の結果は、ちょっと読みにくい点があるので少し加工します。
まずidが文字列型になってしまうので、to_integer(id)で整数にし、順番をそろえるためにソートします。
次にデータ型ノードで値を読み込んでいます。
これによって「コンセプト5-6」、「タイプ5-6」にはNULLしか入っていないことがわかります。
そのためフィルターノードで、「コンセプト5-6」、「タイプ5-6」は除去します。
テキストリンク分析ではオリジナルのテキストの列がなくなってしまうので、ソースファイルを「レコード結合」ノードで結合していきます。
「フィールド順序」ノードで、フィールド順を整えます。
あらためて分析結果をみてみると、「Comments」から「条件規則名」でマッチした結果が「マッチテキスト」にあり、各「コンセプト」「タイプ」が抜き出されています。なお、マッチした条件規則毎に行がありますので、同じコメントに対して複数の行が返っています。なお、コンセプトの定義がないものもUncertainタイプに割り当てられるので全ての行が戻されています。
センチメント分析
このテキストリンク分析ではPositiveかNegativeかの「タイプ」分類ができているので、センチメント分析をしてみます。
まず置換ノードで「タイプ1-2」の列に「Positive」があったら「1」を立て、
「Negative」「NO」「Contextual」「Suggestion」があったら「-1]を立て、
いずれにも該当しなければ「0」を入れていきます。
if @FIELD matches 'Positive*' then 1
elseif @FIELD matches 'Negative*' or
@FIELD = 'NO' or @FIELD = 'Contextual' or @FIELD = 'Suggestion' then -1
else 0
endif
なお、本来は「タイプ3-4」にも「Positive」などのセンチメントをあらわす「タイプ」が入りうるのですが、今回はデータ型ノードで「Positive」などがはいっていないことが確認できているので、省略しています。
プレビューすると以下のように「タイプ1-2」がセンチメントの「1」か「0」の値に置き換えられています。
この「タイプ1-2」を足し算して、合計が正の値になるとPos_Count「1」、負の値になった場合にNeg_count「1」を立てています。
「レコード集計」でコメント毎にポジティブとネガティブの合計件数を出しています。
結果は以下のようになりました。各コメントに対してポジティブ/ネガティブなコンセプトが何個あったかが算出できました。
まとめ
テキストリンク分析はちょっと癖のある出力で、カテゴリ出力するモデルを作った方が使い勝手はよさそうだと思いますが、「コンセプト」や「タイプ」を値として取り出すことができ、この例のようにセンチメント分析なども可能です。
サンプル
サンプルストリーム
サンプルデータ
参考
ホテル満足度のテキスト分析 - Docs | IBM Cloud Pak for Data as a Service
【CP4DaaS】SPSS ModelerのText Analyticsで日本語テキストデータを分析する (テキスト・リンク分析) #ibmcloud - Qiita