LINEのトークスクリプトから、ネガティブ・ポジティブ感情を判定する

Last updated at 2021-12-08Posted at 2021-12-08

はじめに

LINEのトークスクリプト分析記事の続きです！
今回は、単語感情極性対応表を利用して、トークのネガポジ判定をしていきたいと思います。

いつもの注意

分析対象のデータは、パーソナルデータとなっております。
利用する際は、相手に必ず確認を取ること。また、その取り扱いには十分注意するようお願いいたします。

本記事は単なるHowTo記事であり、個人情報流出等のいかなる責任であっても負いかねます。

利用辞書

ここでは、単語感情極性対応表から日本語版を使用させていただきたいと思います。

こちらからダウンロードできます！

ダウンロードしたファイルをデータフレームにして確認するとこんな感じです。

pn_dfを作成するコードはこちら。

pn_df = pandas.read_csv('{{downloadした辞書のpath}}/pn_ja.dic',\
                   sep=':',
                   encoding='shift-jis',
                   names=('Word','Reading','POS', 'PN')
                  )

注意事項としては、encodingで日本語を読み取れるようにしておくことくらいでしょうか。

分析対象データフレーム

前回のLINE分析記事を参考にしてください。

こちらを参考にしていただくと、このようなデータフレームが取得できます。

これに対して、トークスクリプトのネガポジを数値化していきたいと思います。

作戦

ネット記事には色々ありましたが、僕の数値化作戦は以下でいきたいと思います。

分析対象のDFを行ごとに形態素解析する
各形態素と極性辞書から一致をかけて、極性値を取得
文章の極性値平均を取り、新しいカラムに保存する

1.行ごとに形態素解析

形態素解析にはmecabを使用します。
また、業界の標準っぽい、neologdというシステム辞書を使うことにします。

mecabの使い方等の説明は一旦省きたいと思います。

今回は分かち書きされた単語のみを分析したいので、mecabのparceToNodeを利用して、文章を分かち書きします。

for text in temp_df['talk'].head(30):
    node = tagger.parseToNode(text)
    while node:
        print(node.surface)
        node = node.next

余談ですが、僕はここで久しぶりに、whileの無限ループにハマってしまい凹みました。笑

また、お気づきかとは思いますが、形態素解析は実行に時間がかかります。
過去のテキスト全てに対して解析をかけるとなると、分散処理をかましてあげないとやってられないくらいには実行時間くが長いです。

一旦動かしてみたいので、ここの分散処理はまた記事を書きます。
[執筆中 : 形態素解析の処理を、マルチスレッド化させるpythonの分散処理で時短する]

2.辞書を使って極性値を取得

node.surfaceで分かち書きした単語を取得することに成功したので、pn_dfから極性値を引っ張ってきたいと思います。

pn_value = []
tagger = MeCab.Tagger("{{neologdのpath}}/mecab-ipadic-neologd")
text = "並行分散処理かけてあげないと終わらないわ。"
node = tagger.parseToNode(text)
while node:
    print(node.surface)
    word_value = pn_df[pn_df['Word']==node.surface]['PN'].values
    pn_value.append(word_value[0]) if len(word_value)>0 else pn_value.append(0)
    node = node.next