感情分析、形態素解析データを使って分析してみる
こんにちは。前々回、前回の2回でModelerにおける日本語のテキストマイニングについて説明しました。
今回はその結果を使って、簡単なデータ加工や分析をしてみようと思います。但し、サンプルデータなので、結果は期待せずに活用方法に着目してください。m(_ _)m
分析内容
- ワードクラウド
- アソシエーション分析
- コレスポンデンス分析
上記の3つをやってみようと思います。
1. 準備
扱うデータは前回までに作成した分析結果のデータを活用します。サンプル数を50件に絞り込んだ状態で説明していましたが、ここでは、感情分析500件、形態素解析500件とした結果データを使います。単純にサンプリングノードの件数を500件にして、タブ区切りのデータでエクスポートしました。
それぞれのデータを新しいストリームで読み込み、IDで結合します。
Sentenceフィールドはフィルタータブで除外しておきましょう。
ここまでが、基本的な準備となります。
1. ワードクラウド
①. 条件抽出
ワードクラウドは、v18.2から実装されたModelerの標準機能「データ表示」で簡単に行えます。
単語数が多いので品詞を"名詞-一般"に絞りこんで実施してみます。
②. データ表示機能の呼び出し
条件抽出ノードの上で右クリックして、メニューから「データ表示」を選択します。
③. ワードクラウドの設定
データ表示機能画面が開いたら、「視覚化する列」に"原形"を選択して、画面上部にある「ワードクラウド」をクリックします。
③. ワードクラウドの確認
はい、一瞬でワードクラウドが表示されます。
さらに、条件抽出ノードを使って、label(感情)を"POSITIVE"に絞ると下記のようなワードクラウドになります。
"NEGATIVE"の場合等、いろいろな切り口で条件を絞って内容を比較することも簡単です。
レビューの内容などでも活用できると思います。
2. アソシエーション分析
共起ネットワークをイメージして関連の強い単語の組み合わせをアソシエーションモデルで発見してみます。
以下が、ストリーム全体です。レコード結合部分までは準備部分と一緒です。
①. 品詞、感情選択
まずは、単語数が多いので品詞を"名詞"、"動詞"、"形容詞"の3つに絞ります。
条件抽出ノードの条件文では、"startstring"関数を使っていて、品詞フィールドの値の先頭2文字が"動詞"、"名詞"、"形容"であったらという意味になります。あと、"名詞-サ変接続"を除外しています。
つづいて、感情は"POSITIVE"のみにします。
②. フラグノード設定
フラグ設定ノードでフィールド値を利用するために、データ型ノードで"値を読み込み"を行います。
フラグ設定ノードでは、"原形"フィールドの値をフラグ型フィールドに展開します。
利用環境なセット値では、数値のみの要素は除外しました。
フラグは、真:1、偽:0とし、IDで集計しました。
プレビューで確認した結果は、下記画面の通り、ID別に各要素のフラグ型のフィールドができています。
③. アソシエーションモデル作成
では、アソシエーションモデルを作っていきます。
データ型ノードで、ID以外の全フラグ型フィールドの「ロール」を"両方"に設定します。
アソシエーションモデルは、「Apriori」を使います。設定は、「最低サポート(%)」を"2"%、「最小ルール確信度」は"50"%として、実行します。
※. 閾値は状況によって変えてください。今回は上記設定くらいまで下げないと、ルールが発見できませんでした。
作成されたモデルナゲットを確認しましょう。"POSITIVE"な内容では、"映画"と"人"や、"オヤスミナサイ"と”する"などの関係が確認できます。(日々の何気ないつぶやきみたいなデータなので、こんな感じでしょうね。)
誰かと映画を見たりして、楽しんでいるみたいですね。
商品レビューなどでも、関連の強いワードを探して分析に役立ててください。
④. 補足
WEBグラフノードで描画も可能ですが、対象となるフィールド数も多いため、今回は、WEBグラフノードは使用しておりません。(パフォーマンスに難があります。)
3. コレスポンデンス分析
最後にコレスポンデンス分析をしてみましょう。GUIでやる場合はModelerとSPSS Statisticsと連携させることで実現可能ですが、今回のデータの場合ちょっと加工が大変になります。
※. SPSS Statisticsでコレスポンデンス分析するためには、カテゴリデータを数値データに置き換え、ラベルにも値を設定する必要があります。1(男性),2(女性),3(不明)のように。
以下のような形でデータを加工してから、Statisticsノードにデータを渡すのですが、ちょっと大変です。
⇒の右側で日本語になっているのは、ラベル値を設定しているからです。
今回も拡張ノードを使います。シンタックスはRを使ってやってみます。ここまでPythonで書いてきたのになんで、と思われますが、Rの方がシンプルなんですよね。
そのため以下のようなクロス集計のような形にデータを加工してからコレスポンデンス分析をしようと思います。
以下が、ストリームの全体です。ちょっとノード数が多くみえますが簡単に実装できます。
10/17 追記
RではなくてPythonを使いたいユーザーさん向けの記事も書きました。
※.拡張ノードの部分のみです。データ加工までは一緒です。
①. 準備
拡張ノードでRを使うためには、Modelerがサポートするバージョンの「R」と「Essential for R」というRと連携させるアプリケーションの導入が必要になります。
Modelerがv18.5のため、以下の構成で実施しています。
※.当初、Rのバージョンを4.2.3としておりましたが、Rのサポート対象が変更になったため、
v4.4.1で動作確認し、変更しました。
項目 | バージョン |
---|---|
R | 4.4.1(windows版) |
Esseintial for R | 18.5 |
RのWindows版は以下のURLからR-4.4.1-win.exeをダウンロードしてインストールしてください。
Essential for Rは以下のURLを参考にIBM Passport AdvantageのサイトからModelerのバージョンにあったものをダウンロードしてください。
インストールはGUIで簡単に行えます。
以下の記事は、v18.2の時のものですが、基本はバージョンが異なるだけで手順は一緒のため、参考にして準備をお願いします。
②. 要素の絞り込み
まずは、コレスポンデンス分析で使用する単語(要素)を絞り込みます。ここでは、品詞を"名詞-一般"に絞り込み、そのあと頻出要素TOP25のみにしています。
a. 品詞の絞り込み
品詞をワードクラウドを作成した場合と同様に"名詞-一般"に絞ります。
b. 単語の出現数をカウント
原形のフィールド値別にレコード数を算出します。
c. ソートして、サンプリング
多い順にソートしてから、25個のみを抽出
d. 元データと内部結合してTOP25が含まれるレコードを抽出
TOP25の"原形"フィールド値を元データと内部結合することで、TOP25の原形フィールド値を含むレコードのみに絞ることができます。
ここまでのデータ加工の結果はこんな感じです。
③. コレスポンデンス分析用にデータを整形
仕上げに再構成ノードで原形フィールドの値をフィールドに展開して感情(label)毎に集計します。
a. データ型で値の読み込み
再構成ノードで"原形"フィールドの値を読み込むために、データ型ノードで「値の読み込み」を実施します。
b. 原形フィールド値をフィールド展開して横持ちに
再構成ノードで原形の値を使って新規フィールドを作成します。
フィールドには、数値フラグをセットしておき、後で集計できるようにしておきます。
フィールド展開して横持ちにすると以下のようになります。
c. 感情別の合計を計算して準備完了
感情別にフラグ値の合計を算出します。
すると、クロス集計のような形にデータを加工できたことが確認できます。
ここまでくれば、あとはコレスポンデンス分析をするだけです。
④. コレスポンデンスの実施
拡張の出力ノードでコレスポンデンス分析を実施します。使うシンタックスはRです。
10/17 追記
RではなくてPythonを使いたいユーザーさん向けの記事も書きました。
a. 拡張の出力ノード設定
拡張の出力ノードで、シンタックスの種類に"R"を選択します。
そして、Rシンタックスをテキストボックスに記述します。
b. コレスポンデンス分析シンタックス
Rのシンタックスの全体を以下に示します。
#MASSを利用
library(MASS)
#Modelerからデータを入力
mdDf <- modelerData
#感情列(label)をラベルに設定
rownames(mdDf) <- mdDf$"label"
#感情列(label)を削除
mdDf <- mdDf[, -1]
#コレスポンデンス分析実施 2次元
corresp_result<-corresp(mdDf,nf=2)
# プロットエリアのサイズを指定して描画
par(mai = c(0, 0, 0, 0)) # 余白を設定 (下, 左, 上, 右) の順でインチ単位
#par(pin = c(10, 8)) # プロットエリアのサイズ (横 10 インチ、縦 8 インチ)
# 結果の表示
print(corresp_result)
# 図のプロット
plot(corresp_result, main = "Correspondence Analysis using MASS")
b-1. ライブラリ読み込み
詳細をみていきましょう。
まずは、MASSライブラリを読み込みます。
導入していない方は、事前にRの環境に導入しておいてください。
#MASSを利用
library(MASS)
b-2. データ読み込み
Modelerからのデータはデータフレームで読み込みます。
modelerDataと書けばModelerから読み込みができます。
#Modelerからデータを入力
mdDf <- modelerData
b-3. 行ラベルの設定
今回は、感情(label)フィールドの値を行に設定します。
#感情列(label)をラベルに設定
rownames(mdDf) <- mdDf$"label"
b-4. 不要データの削除
感情(label)フィールドは行に設定したので、列データとしては不要なため
削除します。
1列目のフィールドを削除します。
#感情列(label)を削除
mdDf <- mdDf[, -1]
b-5. コレスポンデンス分析の実行
corresp関数を使用してコレスポンデンス分析を実行します。
nfの値は因子軸の数を指定。今回は2です。
#コレスポンデンス分析実施 2次元
corresp_result<-corresp(mdDf,nf=2)
b-6. 結果の表示
最後に結果を表示します。
parを使って描画サイズなどを変更しようとしましたが、余白のみできて、他はできませんでした。。
最後にplotで図を描画しています。
# プロットエリアのサイズを指定して描画
par(mai = c(0, 0, 0, 0)) # 余白を設定 (下, 左, 上, 右) の順でインチ単位
#par(pin = c(10, 8)) # プロットエリアのサイズ (横 10 インチ、縦 8 インチ)
# 結果の表示
print(corresp_result)
# 図のプロット
plot(corresp_result, main = "Correspondence Analysis using MASS")
⑤. コレスポンデンスの結果確認
拡張の出力結果を確認します。
テキスト出力タブでは、Printで出力した結果が確認できます。
各要素の座標が分かりますね。
グラフ出力タブでは、Plotで出力した結果が確認できます。
フィールド名が長いのでごちゃごちゃしてしますが、
・POSITIVEの周りには、"カラオケ"や"友達"など楽しそうな単語があります。
・NEGATIVEの周りには、"顔"、"ほんま"など。つかれていたのでしょうか。。
・NEUTRALの周りには、あまりないですが、"ひと"など、ポジティブ、ネガティブどちらの感情でも使われそうな単語ですね。
4. まとめ
いかがでしたでしょうか。全4回にわたり"SPSS Modeler"での日本語テキストマイニングの実装方法を説明させていただきました。
英語やドイツ語などの外国語であれば"SPSS Modeler Premium"の"Text Analytics"が使用できますが、日本語に関しては残念ながらサポート外となります。
今回ご紹介した拡張ノードを利用した方法をチャレンジしてもらえば、日本語のテキストマイニングも可能ですので、ぜひチャレンジしてみてください。
参考
SPSS Modeler ノードリファレンス目次
SPSS Modeler 逆引きストリーム集
SPSS funさん記事集
SPSS連載ブログバックナンバー
SPSSヒモトクブログ