- 日本語の感情値辞書に関する試行の第2弾となります。
- 前回の「単語感情極性値対応表」に引き続き、本稿では**「日本語評価極性辞書(名詞編)」**を利用させて頂くこととして、そのパフォーマンスを確認するとともに実用性を検討します。
- 当該の辞書は全 13,314 語を収録し、極性値はポジティブ (+1) とネガティブ (-1) の 2 値分類をベースとして、ポジネガの判定がつかないもの (0) を加えた 3 カテゴリとなっています。
#⑴ 「日本語評価極性辞書(名詞編)」の取得
####1. 辞書データを Colab 上にアップロード
- 当該の公式サイトからあらかじめローカルPCにダウンロードしておいた辞書ファイルを Colaboratory 上にアップロードします。
from google.colab import files
uploaded = files.upload()
####2. 辞書データをデータフレームに読み込む
- 「日本語評価極性辞書(名詞編)」は 1 行ずつ次の形式で登録されています。
語
\t感情値[p,n,e]
\t動詞句(事実/感情の属性)[客観, 主観]
import pandas as pd
# カラム名と値の位置ずれを制御
pd.set_option('display.unicode.east_asian_width', True)
pndic_1 = pd.read_csv('pn.csv.m3.120408.trim', names=['word_pn_oth'])
print(pndic_1)
####3. データフレームを区切り文字で展開
-
'\t'
を区切り文字として複数列に分割し、引数にexpand=True
を指定することで結果をデータフレームとして取得します。
pndic_2 = pndic_1['word_pn_oth'].str.split('\t', expand=True)
print(pndic_2)
####4. 感情極性値のノイズを削除
- 感情極性値は原則として p(ポジティブ), n(ネガティブ), e(ニュートラル) のいずれかをとりますが、(2 値分類の難しさでしょう)要素ごとの出現数をカウントすると実際には次のようなデータの入り方をしています。
senti_score = pd.Series(pndic_2[1])
senti_score.value_counts()
- そこで p, n, e の 3 カテゴリだけを残し、それ以外はノイズとして削除します。
pndic_3 = pndic_2[(pndic_2[1] == 'p') | (pndic_2[1] == 'e') | (pndic_2[1] == 'n')]
print(pndic_3)
####5. 感情極性値を数値に置換
- 不要な 3 列目のカラムを削除し、感情極性値を p, n, e から数値 [p : +1, n : -1, e : 0] に置き換えます。
# 不要カラムの削除
pndic_4 = pndic_3.drop(pndic_3.columns[2], axis=1)
pndic_4[1] = pndic_4[1].replace({'p':1, 'e':0, 'n':-1})
print(pndic_4)
####6. データフレームを dict 型に変換
-
dict()
で列 0 をキー、列 1 を値とする辞書型に変換し、感情値を取得する参照元とします。
keys = pndic_4[0].tolist()
values = pndic_4[1].tolist()
dic = dict(zip(keys, values))
print(dic)
#⑵ 分析対象となるテキストの前処理
- 分析対象となるテキストをはじめとして、以降の処理は前回の「単語感情極性値対応表」を踏襲して比較対照したいと思います。
####1. テキストを指定
text = 'スパゲッティの全国の輸入量が、ことし10月までに過去最多となり、税関は新型コロナウイルスの感染拡大の影響で増えた、いわゆる『巣ごもり需要』が背景にあるでのはないかとしています。横浜税関によりますと、全国の港や空港から輸入されたスパゲッティの量はことし10月末の時点でおよそ14万2000トンでした。これは、3年前の1年間の輸入量を4000トンほど上回り、過去最多となりました。また、マカロニもことし10月までの輸入量が1万1000トン余りに上り、過去最多だった4年前の1年間の輸入量とほぼ並んでいるということです。'
lines = text.split("。")
####2. 形態素解析のインスタンスを生成
- MeCab をインストールします。
!apt install aptitude
!aptitude install mecab libmecab-dev mecab-ipadic-utf8 git make curl xz-utils file -y
!pip install mecab-python3==0.7
- MeCab をインポートし、出力モードを "-Ochasen" としてインスタンスを生成します。
- 一連の処理には関係しませんが、例として 1 行目の形態素解析結果を示します。
import MeCab
mecab = MeCab.Tagger("-Ochasen")
# 1行目の形態素解析結果を例示
print(mecab.parse(lines[0]))
####3. 形態素解析に基づいて文章単位にリスト化
- 当該の辞書は「名詞編」ですので、それ以外の単語に感情値はつきませんが、その辺りも観察することとして「単語感情極性値対応表」と同様に名詞・形容詞・動詞・副詞の4カテゴリを抽出します。
word_list = []
for l in lines:
temp = []
for v in mecab.parse(l).splitlines():
if len(v.split()) >= 3:
if v.split()[3][:2] in ['名詞','形容詞','動詞','副詞']:
temp.append(v.split()[2])
word_list.append(temp)
# 空の要素を削除
word_list = [x for x in word_list if x != []]
#⑶ 感情極性値による文章のポジネガ判定
####1. 感情極性値の取得
- 文章ごとに属する単語とその感情極性値を取得してデータフレームに出力してみます。
result = []
# 文単位の処理
for sentence in word_list:
temp = []
# 語単位の処理
for word in sentence:
word_score = []
score = dic.get(word)
word_score = (word, score)
temp.append(word_score)
result.append(temp)
# 文毎にデータフレーム化して表示
for i in range(len(result)):
print(lines[i], '\n', pd.DataFrame(result[i], columns=["word", "score"]), '\n')
-
NaN は登録されていない単語で、前述のとおり名詞を収録した辞書なので当然の結果です。こうした未登録の問題は、いかに収録語数の多い辞書でも往々にして生じるものです。
-
感情極性値をもつ単語をみると、まず 1 行目の「ウイルス」「感染」がネガティブというのは頷けます。一方「量」「需要」は文脈によってネガティブとなる可能性も否めませんが、スパゲッティの特需を伝えるこのニュース記事においてはポジティブでマッチしています。なお、「過去」がネガティブというのは、後ろ向きとか後退的なイメージが伴うからでしょうか。
-
さて、文章ごとのポジネガを判定するという目的において、名詞に限定された寡少な要素でどのような結果が求められるか見ていきます。
####2. 文章ごとの感情極性値の平均値
# 文単位の平均値を計算
mean_list = []
for i in result:
temp = []
for j in i:
if not j[1] == None:
temp.append(float(j[1]))
mean = (sum(temp) / len(temp))
mean_list.append(mean)
# データフレーム化して表示
print(pd.DataFrame(mean_list, columns=["mean"], index=lines[0:4]))
- まず **1 行目(感情極性値 : -0.142857)**は、文章の前半で「需要の増加」というポジティブな事象が語られ、それには「ウイルスの感染拡大」というネガティブな背景があるという文脈になっています。つまり文章の後半で感情が反転し、判定もややネガティブの判定となっています。
- 次いで **2 行目(同 : 1.000000)**は「輸入量が14万2000トン」という需要増加の具体的な説明です。経済という視点からスパゲッティ単体を考えたとき、確かに好材料なのであって、判定も全くのポジティブとなっています。
- さらに **3 行目(同 : 0.000000)**は「輸入量は過去最多」という客観的事実ですからポジティブでもなくネガティブでもないということで、判定も全くのニュートラルとなっています。
- そして **4 行目(同 : 0.250000)**で話題はマカロニに転じまして、こちらも「輸入量がスパゲッティに次ぐ好調ぶり」ということで、判定もまたスパゲッティには及ばないもののポジティブとなっています。
- 意外なほど各々の文脈とマッチしている印象を受けます。しかし、なにぶん名詞のみで要素数が少なく、しかもポジネガは +1 か -1 の 2 値しかとりませんので、場合によっては文脈から大きく外れてしまう可能性もありましょう。
#⑷ 「日本語評価極性辞書(名詞編)」の検証
####1. ポジネガの構成比を確認する
- 「日本語評価極性辞書(名詞編)」から作成した dict 型データについて、ポジティブ/ネガティブ 及びニュートラルの割合を確認します。
# ポジティブの語数
keys_pos = [k for k, v in dic.items() if v == 1]
cnt_pos = len(keys_pos)
# ネガティブの語数
keys_neg = [k for k, v in dic.items() if v == -1]
cnt_neg = len(keys_neg)
# ニュートラルの語数
keys_neu = [k for k, v in dic.items() if v == 0]
cnt_neu = len(keys_neu)
print("ポジティブ の割合:", ('{:.3f}'.format(cnt_pos / len(dic))), "(", cnt_pos, "語)")
print("ネガティブ の割合:", ('{:.3f}'.format(cnt_neg / len(dic))), "(", cnt_neg, "語)")
print("ニュートラル の割合:", ('{:.3f}'.format(cnt_neu / len(dic))), "(", cnt_neu, "語)")
- ポジティブの感情極性値を持つ語は全体の 25.3% となっており、かたやネガティブは 37.4% とやはりネガティブ比率が高めになっていますが、前回「単語感情極性値対応表」ほどの極端な偏りはありません。
- また「単語感情極性値対応表」ではほとんど見られなかったニュートラル(52,671語中13語)の割合が、こちら「日本語評価極性辞書(名詞編)」ではネガティブと同率の 37.4% で共に全体の 1/3 強を占めています。もっとも「単語感情極性値対応表」は配点が -1 から +1 の実数値をとりますので、限りなくニュートラルに近いポジティブ/ネガティブに弁別されている為とも考えられます。
####2. 重複している語を確認する
- 辞書のデータをデータフレームから dict 型に変換する前後の要素数を比較します。
print("dict型に変換前の要素数 :", len(pndic_4))
print("dict型に変換後の要素数 :", len(dic), "\n")
- dict 型に変換した時点で 3 語少なくなっていますが、これは次のとおり変換前の一意な要素数に一致し、すなわち重複していた語数に当たります。
pndic_list = pndic_4[0].tolist()
print("dict型に変換前の一意な要素数 :", len(set(pndic_list)))
- 重複していた 3 語の内容を見てみます。Pythonの標準ライブラリ
collections
のCounter()
クラスをつかって出現回数が多い順に要素を取得します。
import collections
print(collections.Counter(pndic_list))
- 「規律」「信用」「帳消し」の 3 語ですが、元の「日本語評価極性辞書(名詞編)」には次のように登録されています。
- 「規律」はニュートラル/ポジティブの別があるとして 2 項目の登録となっています。穿った見方をすると「規律が乱れる」とか「規律が厳しい」といった場合はネガティブな文脈ともなり得ます。
- また「信用」「帳消し」はいずれもポジティブで、大まかに言えば行為としてのそれか、あるいは状態・存在としてのそれかという分類になっているようです。しかし、感情分析に用いる観点からすれば、どれもポジティブならば 1 項目で代表している方が望ましいといえます。
- 3. Pythonによる自然言語処理 5-5. 日本語文の感情値分析[日本語評価極性辞書(用言編)]