More than 3 years have passed since last update.

アンケート結果をSplunk DLTK を使って自然言語分析してみました

Last updated at 2021-02-28Posted at 2021-02-28

はじめに

昨年、Splunk のGojasというユーザー会で話させて頂く機会がありまして、そこで DLTKにある spacyというライブラリーを使った自然言語処理をアンケート結果に対して利用し分析してみたという発表をさせていただきました。ここではそちらの内容をシェアさせていただきたいと思います。

当時利用したスライドはこちらからご覧いただけます。slideshare

サマリー

Splunkのワークショップ後のアンケートコメントを使って以下のような分析をしてみました。

Token化 (形態素解析) / 品詞タグ付け　＋　ワードクラウドによる可視化
TFIDFによる重み付けによる、重要コメントの抽出
類似度判定 + クラスタリングによるコメント傾向分析

1. Token化 (形態素解析) / 品詞タグ付け　＋　ワードクラウドによる可視化

これは、ワークショップ毎にどのようなキーワードがコメントで発せられているかがわかります。日本語は形態素解析するだけでも一苦労なのですが、spacy(ginza)を使うと簡単にトークン化してくれて、品詞タグまで付けてくれるので、必要なワードを洗い出すことができます。ストップワードも入力できるのでワードクラウドと組み合わせると相性抜群です。