SPSS Modeler v18.6でテキストマイニング日本語サポートが復活
みなさん。こんにちわ。なんとうれしいニュースが飛び込んできました。
SPSS Modeler v18.6(2024/12月リリース)において、TextAnalyticsの日本語サポートが復活しました。
さっそく、IBM西牧さんがノードリファレンスも公開してくれています。
主な使い方などは、西牧さんの記事を参考にしていただくとして、私も少し触ってみてv18.0の時との違いを確認してみました。
SPSS Modeler TextAnalyticsを利用するための準備
SPSS ModelerのGUIを使って日本語のテキストマイニングをするために必要なものを紹介します。
※.コメントでご質問いただいたので、バージョンもv18.6以降であることを追記しました。
1. ライセンス
日本語テキストマイニングするためには、Premiumライセンスが必要になります。
①.SPSS Modeler Premium (v18.6以降)
英語やドイツ語なども含めテキストマイニングをするために必要なライセンスです。
※.v18.0からの変更点
Text Analytics Japanese Extractorは不要になりました。
v18.0までは日本語分析アルゴリズムの権利関係で上記ライセンスも必要でした。
ちなみに、ライセンスキーセンターで以下のチェックを入れずにライセンスを発行し適用すると、クライアントからライセンスを確認した際に、
"IBM SPSS TextAnalytics Japanese Extractor"のライセンスが表示されません。
ですが、日本語の辞書は使えますので安心してください。
ちなみにチェックを入れたライセンスを適用すると、
"IBM SPSS TextAnalytics Japanese Extractor"のライセンスが表示されます。
どちらでもOKとのことです。
2. ソフトウェア
①. SPSS Modeler Professional (v18.6以降)
基本のModeler Clientですね。
②. SPSS Modeler Premium (v18.6以降)
追加でこのソフトウェアをインストールする必要があります。
日本語用の追加モジュールなどは必要ありません。
※.Modeler Serverを利用している場合は、Modeler Server Premiumもインストールが必要になります。
さっそく触ってみる
1. ストリーム全体
データは、Python編で使った日本語の感情分析の研究用データセットのWRIMEv1.0の"wrime-ver1.tsv"を使います。
2. データの入力
前回と同じです。
区切り文字は"タブ"、単一引用符は"破棄"にしてください。
3.レコードサンプリング
今回は5000件にしました。私の非力なPCでは、40000件以上となるとちょっと時間がかかるので。。
4. テキストマイニング!!
おまちかねのテキストマイニングです。
①. ノードの場所
Premiumライセンスを適用するとパレットに"IBM SPSS Text Analytics"タブが追加され、そこに各種ノードが配置されています。
基本、テキストマイニングノードがあれば十分だと思います。
ちなみに"Webフィード"ノードは、URLを指定するとWEBからデータを取得してくれます。
例で、Yahoo JapanのRSSフィードを指定してプレビューでみてみました。
下記のとおりRSSの内容が取得できました。これを入力にしてテキストマイニングもできそうですね。
②. テキストマイニングノード設定
a. フィールド設定タブ
左がv18.0、右がv18.6になります。
多少設定内容も増えていますが、そこまで変わっていません。使い方もテキストフィールドを指定すれば簡単に分析できます。
b. モデルタブ
モデルタブもほとんど変わっていません。
ただ、リソーステンプレートの部分は、日本語分析アルゴリズムが変わっているので注意が必要です。
v18.0ではデフォルトで"Opinion(Japanese) - 感性意見"となっていますが、
v18.6では、"Basic Resources(Japanese)"となっています。
今回はこの"Basic Resources(Japanese)"ですと、ん?という結果になったので、画面右下にある読み込みボタンより、テキスト分析パッケージを"Sentiments(Japanese)"に変更しました。
インタラクティブによるモデル作成については、西牧さんの記事でカテゴリー作成が詳しく紹介されています。
なので、ここではテキストリンク分析を選択して実行してみます。
c. エキスパートタブ
こちらは、結構変わっていますね。v18.6では、抽出条件を細かく設定できるようになっていますね。
③. インタラクティブワークベンチの内容
インタラクティブで分析を実行すると、ユーザー自身で分析内容を確認できます。カテゴリ作成をワークベンチでする場合であればモデルナゲットまで作成が可能です。
今回は、テキストリンク分析ですのでモデルナゲットの生成はできませんが、ワークベンチ内で分析結果を確認できます。
画面左上には、どのようなリンクがあるのかをサマリーで表示してくれます。
例えば、全体で15個の結びつきが発見された、Unknown + Negative + RefTimeの組み合わせは、
病気の関係 + 仕事できない + 日
ハイバー + 忙しい + 明日
選挙 + 残念 + 今回
などのような組み合わせがあり、画面左下に表示されています。
画面右上にはそれらを視覚的にとらえられるように、ネットワーク図が表示されます。
v18.0では以下のようになりました。画面構成や表示される内容は同じですが、v18.6と同じ15個の組み合わせが見つかったものでも、結果が異なりますね。これは日本語分析アルゴリズムの違いでしょう。
※.2024/12/26 テキストリンク分析ノードについて追記しました。
テキストリング分析用のモデルナゲットは生成できません、テキストリンクの確認はこのワークベンチ画面で行ってみてください。
ある程度傾向がつかめた場合は、テキストリンク分析ノードを使うと関係のあるコンセプトを出力できます。
5. まとめ
いかがでしたでしょうか。v18.0の時と画面構成や分析できる内容はほぼ同じという印象です。
日本語分析のアルゴリズム自体は変更されているので、日本語のテキストマイニングをした場合の結果はv18.0の時とは異なっています。
また、Pythonを活用した場合とも、少しできることが違うと思います。テキストマイニングをする1つの手段と理解いただき、様々な手法と組み合わせて分析をすすめてみてください。
参考
SPSS Modeler ノードリファレンス目次
SPSS Modeler 逆引きストリーム集
SPSS funさん記事集
SPSS連載ブログバックナンバー
SPSSヒモトクブログ