More than 5 years have passed since last update.

小説からRNNを用いて文章自動生成(勉強メモ)

Posted at 2019-07-15

小説からRNNを用いて文章自動生成

文豪の小説を学習させ、文章の自動生成に取り組んでみた勉強メモ。
(先に、勉強メモと断っておきます。)

夏目漱石の"坊ちゃん"をリカレントニューラルネットワークで学習させ、
坊ちゃんのような軽快な文章の自動生成に挑戦する。

参考URL

準備

ニューラルネットワークはkerasでモデル作成する。
文章の解析にはjanomeを利用した。

from keras.layers import Dense, Activation, SimpleRNN
from keras.models import Sequential
from keras.preprocessing.text import Tokenizer
from keras.preprocessing.sequence import pad_sequences
import janome
import numpy as np

試しに、簡単な文章を分かち書きする。

# テスト
from janome.tokenizer import Tokenizer
t = Tokenizer(wakati=True)
s = 'スピードワゴンはクールに去るぜ'

t.tokenize(s)

下記のように、表示される。
['スピード', 'ワゴン', 'は', 'クール', 'に', '去る', 'ぜ']

...スピードワゴンが分かれてしまいましたがスルー。。

ちなみに、janomeはインストールが非常に簡単です。
下記コマンドでインストール完了です。
有名なMeCabですが、Windowsでインストールするのはやっかいで、
janomeにしました。

>pip install janome

続いて、坊ちゃんを分かち書きします。
ローカルにダウンロードしていた坊ちゃんの情報を読み込みます。

FILE_PATH = "./bocchan.txt"
text=""
with open(FILE_PATH, 'r',encoding="Shift-JIS") as f:
    for line in f:
        t = Tokenizer(wakati=True)
        lines = t.tokenize(line)
        text += " ".join(lines)
text[0:500]

'坊っちゃん夏目漱石+ 目次一親譲おやゆずりの無鉄砲むてっぽうで小供の時から損ばかりしている。小学校に居る時分学校の二階から飛び降りて一週間ほど腰こしを抜ぬかした事がある。なぜそんな無闇むやみをしたと聞く人があるかも知れぬ。別段深い理由でもない。新築の二階から首を出していたら、同級生の一人が冗談じょうだんに、いくら威張いばっても、そこから飛び降りる事は出来まい。弱虫やーい。と囃はやしたからである。小使こづかいに負ぶさって帰って来た時、おやじが大きな眼めをして二階ぐらいから飛び降りて腰を抜かす奴やつがあるかと云いったから、この次は抜かさずに飛んで見せますと答えた。親類のものから西洋製のナイフを貰もらって奇麗きれいな刃はを日 '

strをリスト型に変換します。
区切り文字は半角の空白です。

# リスト = str.split(‘区切り文字’)
text_list = text.split(" ")
# リスト型になっているか確認
text_list[8]#'無鉄砲'

分かち書きした単語数を算出します。
坊ちゃんは6832単語使われている様。

# 分かち書きした単語数を算出
text_uniqlist= list(set(text_list))
len(text_uniqlist) #6832

続いて、単語をIDに変換し、学習データを作成します。

# 坊ちゃんに含まれる単語をID化する
ID2word = dict((i,c) for i, c in enumerate(text_uniqlist))
word2ID = dict((c,i) for i, c in enumerate(text_uniqlist))


# 学習データの作成
SEQLEN = 5

xtrain_chars = []
ytrain_chars = []

for i in range( 0,len(text_list) - SEQLEN):
    xtrain_chars.append(text_list[i:i+SEQLEN])  #学習対象のデータ一覧。
    ytrain_chars.append(text_list[i+SEQLEN])  #予測対象のこと。

# ONE-HOT化
num_word = len(text_uniqlist)#6832単語
Xtrain = np.zeros((len(xtrain_chars),SEQLEN,num_word),dtype=np.bool) # len(xtrain_chars):60906 SEQLEN:5, num_word:6832
Ytrain = np.zeros((len(xtrain_chars),num_word),dtype=np.bool) # len(xtrain_chars):60906,  num_word:6832

for i , train_char in enumerate(xtrain_chars):
    for j , ch in enumerate(train_char):
        Xtrain[i,j,word2ID[ch]] = 1
        Ytrain[i,word2ID[ytrain_chars[i]]] = 1

len(xtrain_chars)(=60906
) * SEQLEN(=5) * len(text_uniqlist) (=6832)の大きさでかつ非常に疎な行列となるが、
このままRNNで学習させてみる。

EPISODE = 10
HIDDEN_SIZE = 128

# 学習モデルの構築
model = Sequential()
model.add (SimpleRNN( HIDDEN_SIZE , return_sequences = False , input_shape = ( SEQLEN , num_word ),unroll = True ))
model.add ( Dense(num_word) )
model.add ( Activation("softmax"))
model.compile( loss = "categorical_crossentropy" , optimizer = "rmsprop" )

for epoch in range(EPISODE):
    model.fit(Xtrain,Ytrain)

学習済モデルで予測します。

# 予測
PREDS_EPISODE = 60

TESTLEN = 5
x_test = np.zeros((1, TESTLEN, num_word),dtype=np.bool)
# print(x_test)
test_index = np.random.randint(len(xtrain_chars))
test_chars = text_list[test_index:test_index+TESTLEN] 
print(test_chars)


for i in range (PREDS_EPISODE):
    for i ,ch in enumerate(test_chars):        
        x_test[0, i , word2ID[ch]]=1
        #print(x_test)
    pred = model.predict(x_test,verbose=0)[0]
    predword = ID2word[np.argmax(pred)]
    del test_chars[0]
    print(predword,end="")
    test_chars.append(predword)

['う', 'と', '論断', 'し', 'た']
。。がおれはははははははははははははははははははははははははははははははははははははははははははははははははははははははは

すごい文章ができてしまった。
同じ語句が常に選択されている。

まずは、さわりでざっと作ってしまったので、
何が原因なのか究明をしていきます。
後、単語の分散表現やRNN以外の手法を試してみる予定。

You get articles that match your needs
You can efficiently read back useful information
You can use dark theme

What you can do with signing up