源氏物語をワードクラウドで表現してみた

Last updated at 2024-06-18Posted at 2024-06-18

はじめに

前回一週間前に投稿した
PythonでMeCabを試した
の発展形です。

お題は「源氏物語」

今年の大河ドラマ、「光る君へ」見てますか？
源氏物語の内容はほぼ知らない、「光GENJIの名前の元になったヤリ〇ン光源氏の物語を書いた紫式部のベストセラー小説」くらいの前提知識で毎週楽しみに見ています。

前回MeCabで分かち書きを試したので、次は青空文庫の本のデータを使って本をマルっとワードクラウドを試してみたい。
せっかくなので今マイブームのまひろ＝紫式部の源氏物語でやってみよう。
というわけです。

準備

mecab_testフォルダに以下を配置。
・Pythonのソース
・日本語フォントファイル
　サブディレクトリ「Aozora_data」に青空文庫からダウンロードしたテキストファイル
（なお、青空文庫からダウンロードした源氏物語のテキストファイルは56ファイルに分かれています。）
・サブディレクトリ「WordCloudImage」を準備

ソース

青空文庫のテキストファイルに対する正規表現での整形は以下のサイトをパク参考にさせてもらいました。
https://www.gis-py.com/entry/mecab-text
GIS奮闘記

サブディレクトリ「Aozora_data」に存在するファイルを舐めて、サブディレクトリ「WordCloudImage」にワードクラウドの画像ファイルを書き出すというプログラムになってます。

aozora_wordcloud.ipynb

import MeCab
import re
import os
from collections import Counter
from wordcloud import WordCloud
FONT_FILE = 'ipaexg.ttf' #このpyファイルと同じフォルダに配置したフォントファイル（これがないと日本語出力できない）

for pathname, dirnames, filenames in os.walk(r'Aozora_data'):
    for filename in filenames:
        file = r'Aozora_data' + r'/' + filename
        with open(file) as f:
            text = f.read()
            #正規表現を使ってクリーニング
            # ヘッダの除去
            text = re.split('\-{5,}',text)[2]
            
            # フッタの除去
            text = re.split('底本：',text)[0]

            # 最初の一の除去
            #text = re.sub('一', '', text,1)

            # ふりがなの削除
            text = re.sub('《.+?》', '', text)

            # 入力注の削除
            text = re.sub('［＃.+?］', '',text)

            # 空行の削除
            text = re.sub('\n\n', '\n', text)

            # 単語の記録用リスト
            words = []

            tagger = MeCab.Tagger()
            r = tagger.parse(text)

            # 改行で分割
            lines = r.splitlines()

            # 最後の行(EOS)を除いてループ処理
            for line in lines[0:-1]:
              # タブ文字で分割
              fields = line.split('\t')
              # 名詞を判別(startswith()で文字列の最初が'名詞'か判別)
              if fields[4].startswith('名詞'):
                # リストに単語を追加
                words.append(fields[0])

            # Counterでカウント + (key, value) でカウント数が多い順に出力
            #Counter(words).most_common()
            wc = WordCloud(font_path=FONT_FILE, width=1280, height=720)
            wc.fit_words(dict(Counter(words).most_common()))
            wc.to_file(r'WordCloudImage/' + filename.replace('.txt', '.png'))