Twitter
自然言語処理
機械学習
python3
マルコフ連鎖

落合陽一っぽいツイートを自動生成してツイートさせてみた

はじめに

今回は、多忙でお疲れのような落合陽一さんの代わりに、
「Twitterくらいなら代行できるんじゃね?」
と思い、落合陽一っぽいツイートを自動生成してツイートをするbotを作りました。

-> 元ネタはこちら
-> 完成品はこちら

文章の自動生成自体は昔からある技術で、既に(特に2016年に)多くの記事が書かれているのですが、そのまま使おうと思うとほとんどの場合現在ではエラーが発生しまくり使いものにならないため、今回バージョンアップしたものを残そうと思いました。

-> GitHubはこちら

文章生成には大きくLSTMを使ったものと、マルコフ連鎖を使ったものがありますが、
LSTMだと毎回文頭を指定する必要があり、めんどくさいため今回はマルコフ連鎖を使いました。

-> LSTMバージョンもやるかも(未定)

学習データ

データ集め

まずは、ひたすら落合陽一のツイートを集めまくる必要があります。
しかし、ここで問題がありました。
落合陽一のツイート、ほとんど写真付きかリツイートだったのです。

うーん。。これは結構編集が大変そうだなあと思っていましたが、
親切なことに落合陽一ワードbotという落合陽一のツイートのうち文字だけを抽出してくれているアカウントがあったので、そちらのデータを使わせていただきました。

-> Twitterの他人のツイートの過去ログを一括ダウンロードする方法

ツイートデータの前処理

おかげで、かなり手間は省けましたが、日時などのデータも一緒に付いてきてしまうため、
ツイート本文のみをゴリ押しで抽出します。

text_editor.py
text = open("ochyai.txt","r").read().split()

import string

for line in text:
    for word in line:
        if word in string.ascii_letters or word in string.digits:
            if line in text:
                text.remove(line)

f = open('new_ochyai.txt', 'w')
for x in text:
    f.write(str(x) + "\n")
f.close()

実装

辞書の作成

テキストを形態素解析して辞書を作ります。
形態素解析にちょっと時間がかかり毎回やるのはめんどくさいので、
ここで作った辞書をずっと使えるようjsonファイルに保存しておきます。

make_dict.py
from janome.tokenizer import Tokenizer
import json

# テキストファイルを読み込む
sjis = open('new_ochyai.txt', 'rb').read()
text = sjis.decode('utf_8')

# テキストを形態素解析読み込みます

t = Tokenizer()
words = t.tokenize(text)

# 辞書を生成
def make_dic(words):
    tmp = ["@"]
    dic = {}
    for i in words:
        word = i.surface
        if word == "" or word == "\r\n" or word == "\n": continue
        tmp.append(word)
        if len(tmp) < 3: continue
        if len(tmp) > 3: tmp = tmp[1:]
        set_word3(dic, tmp)
        if word == "。":
            tmp = ["@"]
            continue
    return dic

# 三要素のリストを辞書として登録
def set_word3(dic, s3):
    w1, w2, w3 = s3
    if not w1 in dic: dic[w1] = {}
    if not w2 in dic[w1]: dic[w1][w2] = {}
    if not w3 in dic[w1][w2]: dic[w1][w2][w3] = 0
    dic[w1][w2][w3] += 1

dic = make_dic(words)
json.dump(dic, open("markov-blog.json", "w", encoding="utf-8"))

文章の生成

今回は"."を印に、1文ずつ取り出しました。

tweet.py
# -*- coding: utf-8 -*-
#辞書の読み込み
import json
dic = open("markov-blog.json" , "r")#crontabを使う場合は、絶対パスに書き換える
dic = json.load(dic)

#文章を生成
tweets_list = []
import random
def word_choice(sel):
    keys = sel.keys()
    ran = random.choice(list(keys))
    return ran

def make_sentence(dic):
    ret = []
    if not "@" in dic: return "no dic"
    top = dic["@"]
    w1 = word_choice(top)
    w2 = word_choice(top[w1])
    ret.append(w1)
    ret.append(w2)
    while True:
        w3 = word_choice(dic[w1][w2])
        ret.append(w3)
        if w3 == ".": break
        w1, w2 = w2, w3
    tweets_list.append(ret)
    return "".join(ret)

for i in range(1):
    s = make_sentence(dic)

生成した文章をツイートする

生成した文をいよいよツイートさせていきます。
プロフラムからツイートをさせるためには、ツイートさせたいアカウントでAPIを所得する必要があるので、まずは取得するようにしましょう。

-> TwitterAPIの取得の仕方

APIのkeyをそれぞれ取得したら、いよいよツイートプログラムを実装します。
-> ここを参考にしました。

#文章をツイートする
import twitter

auth = twitter.OAuth(consumer_key="",
consumer_secret="",
token="",
token_secret="")

t = twitter.Twitter(auth=auth)

#テキストのみツイート
status = s  #投稿するツイート
t.statuses.update(status=status) #Twitterに投稿

bot化

crontabを使って、定期的に上のプログラムを実行させてbotを作成しようとしたのですが、
以下のエラーが解決できず詰みました。

誰かわかる方いましたらコメントかTwitterの方で教えてください。お願いします。

スクリーンショット 2018-06-08 22.07.39.png

結果

今の所いちいち手動でプログラム実行するしかないけど、ツイート自体はこんな感じ

スクリーンショット 2018-06-08 22.31.15.png

   

なんかそれっぽいこと言ってますね!
(内は全く頭に入ってこないが)

終わりに

元ネタからアイデアを思いついた時は、サクッとできるんじゃね?と思っていたのですが、
そのまま使える文献がなくかなり実は時間がかかりました。。

最後の自動bot化するところは(crontabを使ったことがなかったせいか)どんなに頑張ってもうまくいかず残念でした。
うーん。。

Twitterでは、エンジニア向けの面白そうな情報など発信しているのでフォローしてもらえると嬉しいです。
よろしくお願いします。
DMを頂ければ、個別で何か協力したり質問に答えたりなどもするので何なりと連絡してください。

それでは!