More than 3 years have passed since last update.

Excelに整理した「アンケート自由記述」を分析しよう！（その1）　～様々な可視化を自動に～

Last updated at 2021-12-27Posted at 2021-11-29

20211130：Word-cloud記述に誤りあり、修正。

はじめに

過去の記事で、テキスト（自然言語）の分析や可視化を紹介しました。分析の手順としてはザっと以下のような内容です。

自由記述であれ何であれ、テキスト（自然言語）をガサっとtxtテキストファイルに放り込む。

「。」でセンテンスに分割。
形態素分析。
WordCloud、出現語カウントグラフ、共起ネットワーク…等を描画

　　
アンケート等で得た結果を全般として把握したい場合は、上記の方法でいいですが、User単位で表形式でまとめられた形式は崩さず、満足度等の情報があればそれらも活かして分析を進めたいですね。
　
自然言語処理は様々なサイトで紹介されていますが、なぜか不思議とテキストデータを取り込んで…というものばかり。
表形式のデータを取り込み、データフレーム化して自然言語処理を進めたいということで、やってみましたという記事です。
所定の表形式データを取り込むだけで、ザっと記事の上に貼付したようなキャプチャのような可視化ができます。

実行条件など

・Google colabで実行
・**手元の表形式データ（アンケート自由記述結果）**で実行
※使用したデータは開示できませんが、データ形式は以下です。カラムはUserID、comment、csの3つ。commentは自由記述回答、csは満足度（1～6）です。

userID	comment	cs
U001	総合的には満足してますが、○○が細かく調整できたらもっと使いやすいと思います。	4
U002	○○ボタンが押しにくいです。	2
U003	特にありません。	3
U004	既存品と取付位置が合わないことがつらいです。	1

備忘

実行内容は『以前の記事：自然言語を可視化･分析できるライブラリ「nlplot」はすごいよ』をベースとしています。
コード操作を不要にするため、ファイル指定やフォームなど、GoogleColabの機能を活用した。
満足度（CS）High/Low設定は、コード操作なく、数値設定フォームで変更できるようにした。
取り込んだデータをデータフレームに格納、形態素の結果もデータフレームに結合した。
品詞は一般名詞・動詞・形容詞（動詞と形容詞は基礎型）を抽出対象とした。
分かち書きは、スペース区切り（語A 語B 語C）とカンマ区切り [語A,語B,語C] の2パターン。TF-IDF計算はスペース区切り、Word Cloudはカンマ区切り、nlplotはどちらでもいけたと思います。1パターンだけで対応したかったが…私の修行が足りないのだと思います。
満足度（1-6）を、3以下：不満足／4以上：満足とし、TF-IDFによるWord Cloudは、全データ/満足高データ/満足低データで描画した。（word2vecでベクトル化した語の可視化も同様）
word2vecでベクトル化した語の可視化（PCA）では、抽出語数が少ないと描画できないとはじかれることがありました。このような場合は「Word2Vecモジュール（語の最小出現数やベクトル生成手法等の設定）」のmin_count数を調整してください。（これはコード操作必要）

ライブラリのインストール

nlplotをインストール

pip install nlplot

日本語フォント

# 日本語フォントをインストール
!apt-get -y install fonts-ipafont-gothic

MeCabのインストール

# Mecabのインストール
!pip install mecab-python3==0.996.5

matplotlib日本語化

# matplotlib日本語化
!pip install japanize-matplotlib

ライブラリインポート

from pathlib import Path
import pandas as pd
import re
import MeCab
import matplotlib.pyplot as plt
import warnings
warnings.filterwarnings('ignore')

ファイル & CS_High/Low_Level & ストップワード指定

※CSは顧客満足度です。

# @title csvファイル（UTF-8）を指定してください
from google.colab import files
# print('csvファイル(UTF-8）を指定してください')
uploaded = files.upload()

# @title CS_High/Low設定（上：設定以上をCS高/下：設定以下をCS低） { run: "auto" }
CS_High_level_x_or_More = 4 #@param {type:"number"}
CS_Low__level_x_or_Less = 3 #@param {type:"number"}

# @title ストップワード設定
stop_words = ["し", "い", "ある", "おる", "せる", "ない", "いる", "する", "の", "よう", "なる", "それ", "そこ", "これ", "こう", "ため", "そう", "れる", "られる"]

※GoogleColabのフォームを使うと表示は以下のようになります。

モジュール構築

# @title データフレーム格納＆欠損値削除
if len(uploaded.keys()) != 1:
    print("アップロードは１ファイルにのみ限ります")
else:
    target = list(uploaded.keys())[0]

df = pd.read_csv(target)

df.dropna(subset=['comment'], inplace=True)
df.head()

# @title 形態素解析（一般名詞・動詞:基礎型・形容詞:基礎型）＆カンマ･スペース区切りをデータフレームに格納
# 形態素解析（一般名詞・動詞・形容詞（動詞と形容詞は基礎型）を抽出対象とした）
# スペース区切り分かち書き
def mecab_analysis(text):

    t = MeCab.Tagger('-Ochasen')

    node = t.parseToNode(text)

    words = []
     
    while node:
        if node.surface != "":  # ヘッダとフッタを除外

            word_type = node.feature.split(',')[0]
            sub_type = node.feature.split(',')[1]
            features_ = node.feature.split(',')

            #品詞を選択
            if word_type in ["名詞"]: 
                if sub_type in ['一般']:
                    word = node.surface
                    words.append(word)

            #動詞、形容詞[基礎型]を抽出（名詞のみを抽出したい場合は以下コードを除く）
            elif word_type in ['動詞','形容詞'] and not (features_[6] in stop_words):
                words.append(features_[6])

        node = node.next

        if node is None:
            break

    return " ".join(words)

# カンマ区切り分かち書き
def mecab_analysis2(text):

    t = MeCab.Tagger('-Ochasen')

    node = t.parseToNode(text)

    words2 = []

    while(node):

        if node.surface != "":  # ヘッダとフッタを除外
            word_type = node.feature.split(',')[0]
            sub_type = node.feature.split(',')[1]
            features_ = node.feature.split(',')

            if word_type in ['名詞']:  # 名詞をリストに追加する
                if sub_type in ['一般']:
                    words2.append(node.surface)

            #動詞、形容詞[基礎型]を抽出（名詞のみを抽出したい場合は以下コードを除く）
            elif word_type in ['動詞','形容詞'] and not (features_[6] in stop_words):
                    words2.append(features_[6])

        node = node.next
        if node is None:
            break
    return words2

# 形態素結果をリスト化し、データフレームdf1に結果を列追加する
df['words'] = df['comment'].apply(mecab_analysis)
df['words2'] = df['comment'].apply(mecab_analysis2)

# 表示
df

※表示の一部抜粋

# @title 形態素結果を層別しデータフレームに格納
# 全データをデータフレームに格納
all_words=' '.join(df['words'])
df_all = pd.Series(all_words)

# CSが高いuserの声（words）をデータフレームに格納
drop_index = df.index[df['cs'] <=CS_Low__level_x_or_Less]
# 条件にマッチしたIndexを削除
df_high = df.drop(drop_index)
all_high_words=' '.join(df_high['words'])
df_all_high_words = pd.Series(all_high_words)

# CSが低いuserの声（words）をデータフレームに格納
drop_index2 = df.index[df['cs'] >=CS_High_level_x_or_More]
# 条件にマッチしたIndexを削除
df_low = df.drop(drop_index2)
all_low_words=' '.join(df_low['words'])
df_all_low_words = pd.Series(all_low_words)

print('CS高ユーザーの声(Words）：')
print(df_all_high_words)
print('CS低ユーザーの声(Words）：')
print(df_all_low_words)

# @title ワード出現回数カウント（表示する場合は#外す）
# カンマ区切り分かち書きしたワードをリスト化
words_list = df.words2.tolist()
words_list = sum(words_list,[])

from collections import Counter

# 出現回数を集計し、最頻順にソートし、resultに格納
words_count = Counter(words_list)
result = words_count.most_common()

# 出現回数結果を画面に出力
# for word, cnt in result:
#    print(word, cnt)

nlpot

# @title uni-gram表示
import nlplot

npt = nlplot.NLPlot(df, target_col='words')

# top_nで頻出上位単語, min_freqで頻出下位単語を指定できる
# stopwords = npt.get_stopword(top_n=0, min_freq=0)

npt.bar_ngram(
    title='uni-gram',
    xaxis_label='word_count',
    yaxis_label='word',
    ngram=1,
    top_n=50,
#    stopwords=stopwords,
)

# @title tree map表示
npt.treemap(
    title='Tree of Most Common Words',
    ngram=1,
    top_n=30,
#    stopwords=stopwords,
)

# @title Word Cloud表示（nlpot）
npt.wordcloud(
    max_words=100,
    max_font_size=100,
    colormap='tab20_r',
#    stopwords=stopwords,
)

# @title Word Distribution表示（単語数の分布）
# 単語数の分布
npt.word_distribution(
    title='number of words distribution',
    xaxis_label='count',
)

# @title Build Graph（共起ネットワーク）表示
# ビルド（データ件数によっては処理に時間を要します）※ノードの数のみ変更
npt.build_graph(min_edge_frequency=1,
                #stopwords=stopwords,
                )

display(
    npt.node_df.head(), npt.node_df.shape,
    npt.edge_df.head(), npt.edge_df.shape
)

npt.co_network(
    title='Co-occurrence network',
)

# @title Sunburst表示
npt.sunburst(
    title='All sentiment sunburst chart',
    colorscale=True,
    color_continuous_scale='Oryel',
    width=800,
    height=600,
    #save=True
)

Word Cloud

# @title TF-IDFマトリクス作成＆データフレーム格納
# ライブラリインポート
from sklearn.feature_extraction.text import TfidfVectorizer

# TF-IDFのベクトル処理
vectorizer = TfidfVectorizer(use_idf=True)
tfidf = vectorizer.fit_transform(df['words'] )

# TF-IDF値を「センテンス×ワード」マトリクスをデータフレーム化
df_tfidf = pd.DataFrame(tfidf.toarray(), columns=vectorizer.get_feature_names(), index=df['words'])
# display(df_tfidf)

# @title Word Cloud by word_count（All Data）：🔲型 → #maskの#外すと🍩型に

# wordcloud取込用にresultを辞書型ヘ変換
dic_result = dict(result)

# Word Cloudで画像生成（#max_words, width, heightは任意設定）
from wordcloud import WordCloud

# 画像データダウンロード（biwakoの画像リンクもあり。変更する場合は#調整）
import requests

url = "https://github.com/hima2b4/Word-Cloud/raw/main/donuts.png"
# url = "https://github.com/hima2b4/Word-Cloud/raw/main/biwa.png"

file_name = "donuts.png"
# file_name = "biwa.png"

response = requests.get(url)
image = response.content

with open(file_name, "wb") as f:
    f.write(image)

# ライブラリインポート
from PIL import Image
import numpy as np

# Word Cloudで画像生成（#max_words, width, heightは任意設定）
custom_mask = np.array(Image.open('donuts.png'))
wordcloud = WordCloud(background_color='white',
                      max_words=125,
                      #mask=custom_mask,
                      font_path='/usr/share/fonts/truetype/fonts-japanese-gothic.ttf',
                      width=1000,
                      height=600,
                      ).fit_words(dic_result)

# 生成した画像の表示
plt.figure(figsize=(15,10))
plt.imshow(wordcloud)
plt.axis("off")
plt.show()

# @title Word Cloud with TF-IDF（All DATA)：🔲型 → #maskの#外すと🍩型に
# TF-IDF計算
tfidf_vec2 = vectorizer.fit_transform(df_all).toarray()[0]
# TF-IDFを辞書化
tfidf_dict2 = dict(zip(vectorizer.get_feature_names(), tfidf_vec2))
# 値が正のkeyだけ残す
tfidf_dict2 = {k: v for k, v in tfidf_dict2.items() if v > 0}

# Word Cloudで画像生成（#max_words, width, heightは任意設定）
wordcloud = WordCloud(background_color='white',
                      max_words=125,
                      #mask=custom_mask,
                      font_path='/usr/share/fonts/truetype/fonts-japanese-gothic.ttf',
                      width=1000,
                      height=600,
                      ).generate_from_frequencies(tfidf_dict2)

# 生成した画像の表示
plt.figure(figsize=(15,10))
plt.imshow(wordcloud)
plt.axis("off")
plt.show()

# @title Word Cloud with High CS Data (TF-IDF)：🔲型 → #maskの#外すと🍩型に
tfidf_vec = vectorizer.fit_transform(df_all_high_words).toarray()[0]
# TF-IDFを辞書化
tfidf_dict = dict(zip(vectorizer.get_feature_names(), tfidf_vec))
# 値が正のkeyだけ残す
tfidf_dict = {k: v for k, v in tfidf_dict.items() if v > 0}

# Word Cloudで画像生成（#max_words, width, heightは任意設定）
wordcloud = WordCloud(background_color='white',
                      max_words=125,
                      #mask=custom_mask,
                      font_path='/usr/share/fonts/truetype/fonts-japanese-gothic.ttf',
                      width=1000,
                      height=600,
                      ).generate_from_frequencies(tfidf_dict)

# 生成した画像の表示
plt.figure(figsize=(15,10))
plt.imshow(wordcloud)
plt.axis("off")
plt.show()

# @title Word Cloud with Low CS Data (TF-IDF)：🔲型 → #maskの#外すと🍩型に
tfidf_vec = vectorizer.fit_transform(df_all_low_words).toarray()[0]
# TF-IDFを辞書化
tfidf_dict = dict(zip(vectorizer.get_feature_names(), tfidf_vec))
# 値が正のkeyだけ残す
tfidf_dict = {k: v for k, v in tfidf_dict.items() if v > 0}

# Word Cloudで画像生成（#max_words, width, heightは任意設定）
wordcloud = WordCloud(background_color='white',
                      max_words=125,
                      #mask=custom_mask,
                      font_path='/usr/share/fonts/truetype/fonts-japanese-gothic.ttf',
                      width=1000,
                      height=600,
                      ).generate_from_frequencies(tfidf_dict)

# 生成した画像の表示
plt.figure(figsize=(15,10))
plt.imshow(wordcloud)
plt.axis("off")
plt.show()

Visualization of word2vec

# @title Word2Vecモジュール（語の最小出現数やベクトル生成手法等の設定）
from gensim.models import word2vec

# size : 中間層のニューロン数・数値に応じて配列の大きさが変わる。数値が多いほど精度が良くなりやすいが、処理が重くなる。
# min_count : この値以下の出現回数の単語を無視
# window : 対象単語を中心とした前後の単語数
# iter : epochs数
# sg : skip-gramを使うかどうか 0:CBOW 1:skip-gram

model = word2vec.Word2Vec(df['words2'],
                          size=200,
                          min_count=5,
                          window=5,
                          iter=20,
                          sg = 1)    # sg=1:skip-gram使用

model2 = word2vec.Word2Vec(df_high['words2'],
                          size=200,
                          min_count=5,
                          window=5,
                          iter=20,
                          sg = 1)    # sg=1:skip-gram使用

model3 = word2vec.Word2Vec(df_low['words2'],
                          size=200,
                          min_count=2,
                          window=5,
                          iter=20,
                          sg = 1)    # sg=1:skip-gram使用

# @title ベクトル化した各語彙確認
# ベクトル化したテキストの各語彙確認
model.wv.index2word

# @title PCA表示（ALL Data)
# PCA実行
from sklearn.decomposition import PCA

pca = PCA(n_components=2)
values = pca.fit_transform(model.wv.vectors)
# print(values.shape)
# print(values)

# PCA可視化
import matplotlib.pyplot as plt
import japanize_matplotlib
import seaborn as sns

sns.set(font="IPAexGothic")
plt.rcParams["font.size"] = 16
plt.tight_layout()
fig = plt.figure(figsize=(12,6))
for value, word in zip(values, model.wv.index2word):
    plt.plot(value[0], value[1], marker='')
    plt.annotate(word, (value[0], value[1]))
    plt.title('PCA on word2vec embeddings（All_Data）', fontsize=25)
    #plt.xlim(-0.02,0.04)
    #plt.ylim(-0.02,0.04)
    plt.xticks(fontsize= 14)
    plt.yticks(fontsize= 14)
plt.show()

# @title PCA表示（CS_High Data)
pca = PCA(n_components=2)
values2 = pca.fit_transform(model2.wv.vectors)

# PCA可視化
import matplotlib.pyplot as plt
import japanize_matplotlib
import seaborn as sns

sns.set(font="IPAexGothic")
plt.rcParams["font.size"] = 16
plt.tight_layout()
fig = plt.figure(figsize=(12,6))
for value, word in zip(values, model2.wv.index2word):
    plt.plot(value[0], value[1], marker='')
    plt.annotate(word, (value[0], value[1]))
    plt.title('PCA on word2vec embeddings（CS_High_Data）', fontsize=25)
    #plt.xlim(-0.02,0.04)
    #plt.ylim(-0.02,0.04)
    plt.xticks(fontsize= 14)
    plt.yticks(fontsize= 14)
plt.show()

# @title PCA表示（CS_Low Data)
pca = PCA(n_components=2)
values3 = pca.fit_transform(model3.wv.vectors)

# PCA可視化
import matplotlib.pyplot as plt
import japanize_matplotlib
import seaborn as sns

sns.set(font="IPAexGothic")
plt.rcParams["font.size"] = 16
plt.tight_layout()
fig = plt.figure(figsize=(12,6))
for value, word in zip(values, model3.wv.index2word):
    plt.plot(value[0], value[1], marker='')
    plt.annotate(word, (value[0], value[1]))
    plt.title('PCA on word2vec embeddings（CS_Low_Data）', fontsize=25)
    #plt.xlim(-0.02,0.04)
    #plt.ylim(-0.02,0.04)
    plt.xticks(fontsize= 14)
    plt.yticks(fontsize= 14)
plt.show()

※全データ／CS高データ／CS低データ、それぞれで可視化

# @title t-SNE表示（All Data)
# t-SNE実行
from sklearn.manifold import TSNE
tsne = TSNE(n_components=2, random_state=0)
np.set_printoptions(suppress=True)
values4 = tsne.fit_transform(model.wv.vectors)

# t-SNE可視化
import matplotlib.pyplot as plt
import japanize_matplotlib
import seaborn as sns

sns.set(font="IPAexGothic")
plt.rcParams["font.size"] = 16
plt.tight_layout()
fig = plt.figure(figsize=(12,6))
for value, word in zip(values4, model.wv.index2word):
    plt.plot(value[0], value[1], marker='')
    plt.annotate(word, (value[0], value[1]))
    plt.title('t-SNE on word2vec embeddings（All_Data）', fontsize=25)
    #plt.xlim(-0.02,0.04)
    #plt.ylim(-0.02,0.04)
    plt.xticks(fontsize= 14)
    plt.yticks(fontsize= 14)
plt.show()

# @title t-SNE表示（CS_High Data)
# t-SNE実行
from sklearn.manifold import TSNE
tsne = TSNE(n_components=2, random_state=0)
np.set_printoptions(suppress=True)
values5 = tsne.fit_transform(model2.wv.vectors)

# t-SNE可視化
import matplotlib.pyplot as plt
import japanize_matplotlib
import seaborn as sns

sns.set(font="IPAexGothic")
plt.rcParams["font.size"] = 16
plt.tight_layout()
fig = plt.figure(figsize=(12,6))
for value, word in zip(values5, model2.wv.index2word):
    plt.plot(value[0], value[1], marker='')
    plt.annotate(word, (value[0], value[1]))
    plt.title('t-SNE on word2vec embeddings（CS_High_Data）', fontsize=25)
    #plt.xlim(-0.02,0.04)
    #plt.ylim(-0.02,0.04)
    plt.xticks(fontsize= 14)
    plt.yticks(fontsize= 14)
plt.show()

# @title t-SNE表示（CS_Low Data)
# t-SNE実行
from sklearn.manifold import TSNE
tsne = TSNE(n_components=2, random_state=0)
np.set_printoptions(suppress=True)
values6 = tsne.fit_transform(model3.wv.vectors)

# t-SNE可視化
import matplotlib.pyplot as plt
import japanize_matplotlib
import seaborn as sns

sns.set(font="IPAexGothic")
plt.rcParams["font.size"] = 16
plt.tight_layout()
fig = plt.figure(figsize=(12,6))
for value, word in zip(values6, model3.wv.index2word):
    plt.plot(value[0], value[1], marker='')
    plt.annotate(word, (value[0], value[1]))
    plt.title('t-SNE on word2vec embeddings（CS_Low_Data）', fontsize=25)
    #plt.xlim(-0.02,0.04)
    #plt.ylim(-0.02,0.04)
    plt.xticks(fontsize= 14)
    plt.yticks(fontsize= 14)
plt.show()

最後に

コードは冗長的と思いますが、なんとかやりたいことはできました。
表形式に整理された自由記述回答で分析を行いたいケースは多いと思います。
表形式を崩さなければ、満足度など他の属性との関係もみられますし、元データに戻ることも容易ですね。

今回はGoogleColabのフォームを多用しました。コードが全くみえない状態にもできます。
これらを使われる方にとっては、コードが見えただけで引く方もおられるかもしれませんので、これはいいです。
あらかじめ、取込むデータの形式には従わないといけませんが、基本的にはランタイムでセルを実行するだけで勝手に可視化してくれるので便利です。

今回のコードは、満足度数値があることを前提に処理を進めていますので、（あたりまえですが）満足度数値がない場合は該当セルの処理は進みませんが、該当セルは飛ばして上のセルから順番に実行すれば他のセルは進められると思います。

最後まで読んでいただき、ありがとうございました。

参考サイト

You get articles that match your needs
You can efficiently read back useful information
You can use dark theme

What you can do with signing up

Excelに整理した「アンケート自由記述」を分析しよう！（その1） ～様々な可視化を自動に～