Gensimを用いたトピックモデルの学習

夏目漱石の"坊ちゃん"を題材に、トピックモデルの学習に挑戦してみます。

参考URL

難しいトピックモデルを簡単に！PythonライブラリGensimの使い方
https://www.sejuku.net/blog/67863

準備

実装概要は、下記の通りです。

1.文章の分かち書き
2.単語リストの作成
3.コーパス作成
4.トピックモデルの学習・可視化

実装

実装準備

まず、gensimをインストールしておきます。

!pip install gensim

1.文章の分かち書き

ローカルに保存してあった坊ちゃんのデータを分かち書きします。
分かち書きにはjanomeを利用しました。

import janome
import numpy as np

FILE_PATH = "./bocchan.txt"
text=""
a = Tokenizer(wakati=True)
with open(FILE_PATH, 'r',encoding="Shift-JIS") as f:
    for line in f:
        lines = a.tokenize(line)
        text += " ".join(lines)
text[0:500]

'坊っちゃん夏目漱石+ 目次一親譲おやゆずりの無鉄砲むてっぽうで小供の時から損ばかりしている。小学校に居る時分学校の二階から飛び降りて一週間ほど腰こしを抜ぬかした事がある。なぜそんな無闇むやみをしたと聞く人があるかも知れぬ。別段深い理由でもない。新築の二階から首を出していたら、同級生の一人が冗談じょうだんに、いくら威張いばっても、そこから飛び降りる事は出来まい。弱虫やーい。と囃はやしたからである。小使こづかいに負ぶさって帰って来た時、おやじが大きな眼めをして二階ぐらいから飛び降りて腰を抜かす奴やつがあるかと云いったから、この次は抜かさずに飛んで見せますと答えた。親類のものから西洋製のナイフを貰もらって奇麗きれいな刃はを日 '

2.単語リストの作成

"。"を区切り文字として小説を区切り、一文にします。
一文をさらに半角で区切り単語を配列に格納していきます。

なお、不要な単語を取り除くため、ストップワードを適当に選択しています。

#リスト = str.split(‘区切り文字’)
text_list = text.split("。")

stop_words =  set('た する ない を に の ん は で が てる と ぜ だ て いる から 「 」'.split())

#ストップワードの除去
texts = [[word for word in document.split(" ") if word not in stop_words ] for document in text_list]

3.コーパス作成

辞書とコーパスを作成していきます。
前処理として、filter_extremesメソッドを用いて、
頻度が多すぎる・少なすぎる単語は辞書から削除してしまいます。
なお、コーパスとは、文章毎に「単語ID,単語IDの文章内の出現頻度」のタプルを持つデータのことです。

from gensim import models
from gensim import corpora

dictionary = corpora.Dictionary(texts)

# no_below：頻度がno_below回以下の単語は無視
# no_above： 頻出単語も無視
# keep_n ： 使用単語数に上限設定

dictionary.filter_extremes(no_below=100, no_above=0.5, keep_n=100000)

corpus = [dictionary.doc2bow(text) for text in texts]
corpus

文章毎に、[(単語ID,単語IDの文章内の出現頻度)]の下記情報が手に入ります。
これがコーパスです。

[[(0, 1), (1, 1), (2, 1), (3, 1), (4, 1)],
[(5, 1),
(6, 1),
(7, 1),
(8, 1),
(9, 1),
(10, 1),
(11, 1),
(12, 1),
(13, 1),
(14, 1),
(15, 1),
(16, 1)],
...(中略)

4.トピックモデルの学習・可視化

トピックモデルを学習します。
トピック数は所与として与え、トピック毎に特徴的な文言を表示してみます。

num_topics = 6

lda = models.ldamodel.LdaModel(
    corpus=corpus,
    num_topics=num_topics,
    id2word=dictionary
)

トピックを可視化してみます。

import matplotlib.pyplot as plt

plt.figure(figsize=(30,30))
for t in range(lda.num_topics):
    plt.subplot(3,2,t+1)
    x = dict(lda.show_topic(t,200))
    im = WordCloud(background_color="white",font_path='C:\Windows\Fonts\meiryo.ttc').generate_from_frequencies(x)
    plt.imshow(im)
    plt.axis("off")
    plt.title("Topic #" + str(t))

今回は、チューニングもしていないですが、
色々触ってみると面白そうです。

次回は、坊ちゃんの文章要約に取り組みます。