コムドットのヤマト風のTwitterつぶやきを自動生成してみようと思った

Last updated at 2022-12-10Posted at 2022-12-06

初めに

myjlab advent calendar 2022　7日目を担当する3年の浦です。

GPT-3について書こうとしたのですが、昨日yoshiki495にChatGPTについて書かれ絶望の淵にいました、、、

何についてやるか考えたところ、機械学習演習で自然言語処理をしていこうと思います。

下記の動画を参考にしTwitter APIを使用したマルコフ連鎖に挑戦し、コムドットのヤマトになろうと思います。

マルコフ連鎖とは

マルコフ連鎖（マルコフれんさ、英: Markov chain）とは、確率過程の一種であるマルコフ過程のうち、とりうる状態が離散的（有限または可算）なもの（離散状態マルコフ過程）をいう。また特に、時間が離散的なもの（時刻は添え字で表される）を指すことが多い（他に連続時間マルコフ過程というものもあり、これは時刻が連続である）。マルコフ連鎖は、未来の挙動が現在の値だけで決定され、過去の挙動と無関係である（マルコフ性）。各時刻において起こる状態変化（遷移または推移）に関して、マルコフ連鎖は遷移確率が過去の状態によらず、現在の状態のみによる系列である。特に重要な確率過程として、様々な分野に応用される。
参照元：Wikipedia

難しくてよくわからない、、、
そこで「マルコフ連鎖　わかりやすくわかりやすく」と検索すると以下の動画を発見！

環境開発

GoogleColaboratory

Twitter APIの取得

Twitterのツイートを取得するためにはTwitter API利用申請が必要になります。
申請方法については以下のリンクにわかりやすく書いてあるので参考にしてください。

必要なもの

Python
Twitter api
Janome
markovify

! pip install markovify
! pip install requests requests_oauthlib
! pip install janome

コード

Twitterの情報取得

最近のヤマトさんのTwitterの情報100件取得していこうと思います。

import tweepy

# API情報を記入
BEARER_TOKEN = "xxxxxxxxxxxxxxxx"
API_KEY = "xxxxxxxxxxxxxxxx"
API_SECRET_KEY = "xxxxxxxxxxxxxxxx"
ACCESS_TOKEN = "xxxxxxxxxxxxxxxx"
ACCESS_TOKEN_SECRET = "xxxxxxxxxxxxxxxx"

def twitter_api() -> tweepy.API:
    auth = tweepy.OAuthHandler(API_KEY, API_SECRET_KEY)
    auth.set_access_token(ACCESS_TOKEN, ACCESS_TOKEN_SECRET)
    return tweepy.API(auth)


def get_user_twitter(user_id):
    api = twitter_api()
    tweets = api.user_timeline(id=user_id, count=1)
    yamato_list=[]
    for tweet in tweets:
        yamato_list.append(tweet.text)
    yamato_text = "".join(yamato_list)
    return yamato_text


yamato_text = get_user_twitter('comyamato0515')

実行結果は無事に最近のtwitter100件の情報をもってくることができました。

Janome処理

Janome前の正規化としてURLや半角記号、全角記号などを消していこうと思います。

from janome.tokenizer import Tokenizer
import re

def format_text(text):
    '''
    MeCabに入れる前のツイートの整形方法例
    '''
    for i in range(10):
        text=re.sub(r'https ://[\w/:%#\$&\?\(\)~\.=\+\-…]+', "", text)
        text=re.sub('RT', "", text)
        text=re.sub(r'[!-~]', "", text)#半角記号,数字,英字
        text=re.sub(r'[︰-＠]', "", text)#全角記号
        text=re.sub(r'[\uFF01-\uFF0F\uFF1A-\uFF20\uFF3B-\uFF40\uFF5B-\uFF65\u3000-\u303F]', r'', text)
        text=re.sub(r'[▲\▼\”\“]', r'', text)

    return text


yamato_text2=format_text(yamato_text)

いらない情報を削除することができすっきりしました。

正規化した文章を分かち書きしていこうと思います。

def text_split(text):
    
    str_table = str.maketrans({
        
        '。': '',   
        '\n': '。',
        '\r': '',
        '(': '（',
        ')': '）',
        '[': '［',
        ']': '］',
        '"':'”',
        "'":"’",
    })
    text = text.translate(str_table)

    t = Tokenizer()
    tokens = t.tokenize(text, wakati=True)

    splitted_text_list = []

    for i in tokens:
        if i != '。' and i != '！' and i != '？':
            i += ' '
        elif i == '。' or i == '！' or i == '？':
            i = '\n'
        splitted_text_list.append(i)
        splitted_text_str = "".join(splitted_text_list)

    return splitted_text_str


splitted_text_str = text_split(yamato_text)

少し変ですが、分かち書きできました。

マルコフ連鎖で文章生成

最後にマルコフ連鎖で文章の生成を行います。

import markovify

text_model = markovify.NewlineText(splitted_text_str, state_size=2,  well_formed=False)

for _ in range(10):
    sentence = text_model.make_short_sentence(100, 20, tries=100).replace(' ', '')
    print(sentence)

実行結果は文章を自動生成することができましたが、ヤマトさん風の文章にはなりませんでした。

おわり

ヤマトさんはリツイートの内容が多いため、ヤマトさんらしい文章にならなかったと推測しました。

ギリギリ間に合いましたが、実力のない私は、半日で記事の題材決めから作成までやるもんではないことがわかりました。
今後は余裕をもって取り掛かろうと思います。

You get articles that match your needs
You can efficiently read back useful information
You can use dark theme

What you can do with signing up