More than 1 year has passed since last update.

python初心者が、ゲームキャラの口調でパクツイするbotを作ってみた　後編

Last updated at 2022-10-16Posted at 2021-05-07

前回までのあらすじ

本記事は以下の続きになります。

前回はTwitterAPIの動作を確認しました。ここからはパクツイしたツイートをこずえちゃんっぽく変換していく機能を実装していきます。

botの機能を決める（こずえちゃんっぽく文字列を変換）

TLからパクツイするだけならめんどくさいことはしなくていいと思います。しかし遊佐こずえちゃんらしいセリフをしゃべらせるには、以下の要件を満たす必要があります。
　・基本的に平仮名でしゃべる（媒体によっては「ママ」だけは片仮名）
　・演技をしているときなどはちゃんと漢字でしゃべる（漢字でしゃべるって何？）
　・文節の区切りに読点や三点リーダー、長音記号（以下、これらを「区切り文字」とします）が入ることがある
　・敬語は使わない
　・「○○してー？○○しろー……。」みたいな言い回しがある

下2つは対応がめんどくさそうなので今回はやらないことにしましたが、上の3つは必須かなあという感じがします。
自分が今までメインで扱ってきた言語では、3要件ですら実装がめんどくさそうな気がしたので、ここでPythonとやらを触ってみることにしました。
私はこの言語を仕事で扱っていない（そもそもろくに仕事してないのでろくにプログラミングをしていない）のですが、以前少々触ってみたところクソ便利だったと記憶しています。漢字を平仮名に変換したり、文節ごとに区切ったりするモジュールもありそうです。

機能の実装

確率

遊佐こずえは演技をしている間は漢字交じりでしゃべっていますが、全てのツイートで漢字を使用しているとこずえちゃんらしさが失われてしまいます。「まねをする（=演技をする）bot」とはいえ、さすがにこれは解釈違いです。
よって、わずかな確率で漢字を使用する程度に留めておくことにしました。
また、長音記号を入れるか三点リーダーを入れるか読点を入れるかも確率で決めるのがいいでしょう。

とりあえず、numpyで以下のように確率を設定し、区切り文字を選択するようにしました。（この記事を読んでいる方はほとんど知っている気もしますが、自分の忘備録用として記述しておきます）
このページを参考にしました。

dictionary.py

import numpy as np

# converting_type = 0の時は変換しない。1の時は変換する。
# 以下のように書くと[0]から[n-1]の値が返ってくる
# np.random.choice(n,p=[確率1, 確率2, ... , 確率n])
converting_type = np.random.choice(2, p=[0.03, 0.97])

# 以下のように書くとリストに入った文字列のうちの一つが返ってくる
# np.random.choice(n個の文字列が入ったリスト,p=[確率1, 確率2, ... , 確率n])
delimiter_dic = ['', '…', 'ー', '、', '……', 'ー…', '…………', 'ー……']
delimiter_type = np.random.choice(delimiter_dic, p=[0.2, 0.1, 0.1, 0.2, 0.05, 0.15, 0.05, 0.15])

文節と文節の間に区切り文字を挿入

漢字を平仮名に変換した後では、文節区切りが困難になることが予想されます。
平仮名に変換を行う前に区切り文字の挿入を行おうと思います。
ざっと調べてみた感じでは、文節ごとに区切ってくれそうなライブラリはなさそうです。
しかし、単語ごとに区切ってくれそうなライブラリは以下のようにいくつか見つけることができました。

単語ごとに区切る（いわゆる形態素解析）

MeCab
Janome
sudachipy

ほかにもいくつかあるようですが、今回はSudachipyを使用することにしました。理由はなんとなくです。
なお、今回は単語ごとではなく文節ごと区切られるのが理想です。今回のようなケースでは、以下の要件を満たすものであればSudachipy以外の何を使用しても問題ありません。

単語ごとに区切ってくれる
単語ごとに品詞を判定してくれる
用言の活用（五段活用、サ行変格活用など）を判定してくれる
用言/助動詞が何活用かを判定してくれる

Sudachipyをインストール ~~&辞書をリンク~~ します。多彩な語彙力が欲しかったので、私はフルバージョンの辞書をインストールしました。
そんなに語彙力いらんわ！！って人は公式のGithubを参考に、語彙力を低下させた辞書をインストールしてください。

$ pip3 install sudachipy
$ pip3 install sudachidict_full
# 以下のコマンドは、SudachiPy v0.5.2 以降から利用できなくなりました
$ sudachipy link -t full

【2022年10月16日追記】
現時点では、linkコマンドは使用できないようです。 {sudachipy導入ディレクトリ}/resources/sudachi.json のSudachi辞書（systemDict）の設定を変える（後述）か、プログラム実行時に使用する辞書を指定する方法を取りましょう。

一旦Sudachipyなどのライブラリを使用して単語ごとに区切ったら、以下の法則のもと区切り文字を入れないように工夫し、疑似的に文節ごとに区切ります。

・助詞・助動詞・接尾辞の前には区切り文字は入れない: 「ステージに」の「に」や、「大型化」の「化」の前に読点が入るのはおかしいです。
・接頭辞の後には区切り文字は入れない: 「ぶん殴る」が「ぶん、殴る」になるのは不自然です。
・「動詞 + 動詞」「名詞 + 名詞」「用言 + 名詞」は区切らない: 「歩き回る」「スカイツリー」「青い空」「吠える犬」は区切りたくないです。用言については、終止形と命令形の以外の場合に区切らないようにすればよさそうです。「高知県宿毛市愛媛県南宇和郡愛南町篠山小中学校組合立篠山小学校」などは11歳幼女に言わせるような長さの単語ではありませんが、一単語は区切らない原則とします。
・句読点をはじめとする補助記号の前後に読点は入れない。: 当然です。
・句読点をはじめとする補助記号の後に区切り文字は入れない。: こちらも当然です。
・その他: 「命燃やして恋せよ乙女」はデレステの楽曲名として一つの名詞たりえます。しかしこのような名詞の場合、区切り文字が入るのを避けられないでしょう。正直対応しきれないのである程度まで対応したら諦めます。とはいえ、さすがに「命、燃やして、恋せよ、乙女」のように区切りが短すぎるのも考え物です…

You get articles that match your needs
You can efficiently read back useful information
You can use dark theme

What you can do with signing up

python初心者が、ゲームキャラの口調でパクツイするbotを作ってみた　後編

前回までのあらすじ

botの機能を決める（こずえちゃんっぽく文字列を変換）

機能の実装

確率

文節と文節の間に区切り文字を挿入

単語ごとに区切る（いわゆる形態素解析）

英語や漢字・片仮名を平仮名に変換する

補足：Sudachi辞書とユーザー辞書の追加方法

1. Sudachipy.jsonを書き換える

2. csvで辞書を作成する

3. 辞書をビルドする

敬語をこずえちゃん化

出来上がったソースコード

最後に

python初心者が、ゲームキャラの口調でパクツイするbotを作ってみた 後編

前回までのあらすじ

botの機能を決める（こずえちゃんっぽく文字列を変換）

機能の実装

確率

文節と文節の間に区切り文字を挿入

単語ごとに区切る（いわゆる形態素解析）

英語や漢字・片仮名を平仮名に変換する

補足：Sudachi辞書とユーザー辞書の追加方法

1. Sudachipy.jsonを書き換える

2. csvで辞書を作成する

3. 辞書をビルドする

敬語をこずえちゃん化

出来上がったソースコード

最後に

python初心者が、ゲームキャラの口調でパクツイするbotを作ってみた　後編