GPT-2にマザー2のテキスト覚えさせてマザー2ジェネレーターつくった
ちょっと前に株式会社りんなからgpt-2の日本語モデルが発表されて、これを使ってXX風文章の生成をやってみたいなーとずっと考えてた。
rinna/japanese-gpt2-medium · Hugging Face
そんな矢先、最近わたしの一番好きなゲームであるMother2の全テキストデータが発表(リーク)された。
名作RPG「MOTHER2 ギーグの逆襲」の貴重なデータが眠るフロッピーが26年の時を超えて発見される - GIGAZINE
Mother2やったことある人であればわかると思うけど、Mother2の文章は糸井重里が繰り出す独特な世界観であふれている
様々なゲームにも多大な影響を与えていることでも有名なとても素晴らしいゲームだ
「Undertale」にも多大な影響を与えた名作「MOTHER2」 その魅力を作中の8つのテキストから読み解く (ign.com)
あの世界にずっと浸っていたい。最近仕事色々辛いので、Mother2の世界に逃げたい!ずっとあの世界に浸っていた
💡GPTにMother2のテキスト覚えこませてMother2風テキストジェネレーター作ったら永遠にMother2の世界に浸っていられるじゃないか
善は急げということで、おもむろにvs codeを立ち上げてさっそく作業にとりかかった
まずはmother2のテキストデータから余計なものを取り除いて日本語テキストのみの抽出していく
ゲーム内の変数だったり、指示書だったりが入ってるのでそれらを全部とりのぞいていく(成形データ公開したら怒られそうだから、みんなも自分で↑のサイトから拾ってきてデータクレンジングしてね。
つぎに学習させるのにgpt-2の環境を整備整備していく
ローカルでモデルのトレーニングを行うにはanaconda, pytorch, tensorflowは必須
GPUを活用するならnvidia cuda tool kitも必要になる
詳しい手順については以下のサイトを参考にモデルのトレーニングを実行していけば簡単
Huggingface Transformers 入門 (27) - rinnaの日本語GPT-2モデルの推論|npaka|note
Huggingface Transformers 入門 (28) - rinnaの日本語GPT-2モデルのファインチューニング|npaka|note
ちなみに今回のMother2のテキストデータは成形した結果15000行くらいになった。
私のマシンはGPU 6GB積んでいるがそれでもメモリが足りないといわれてしまった
(メモリ消費に関係してくるbatch_sizeを1してもメモリが足りなかったので、今回はgoogle collab上でGPUインスタンスを使ってモデル作成をした)
トレーニングしおわった結果がこちらです。
おしごと疲れた に続く文章がMotherっぽい世界観で作られている
いくつか傑作選もはりつけておく:
おとなもこどもも、おねーさんも
おじさんも忘れちゃいけないよね。
砂漠地帯はにっちゃびょうに気を付けないとね。
おとなもこどもも、おねーさんも そして、おじさんも
おとなもこどもも、おねーさんも ご家族の皆さんも にっしゃびょうだー!
海外にいきたい
この回文っぽい文章と最後の…はどことなくMother2っぽい
海外に行きたい って思っている あたまのおかしいヤツが いるから 海外に行きたい ...
マザー2
マザー3まだー?64DD版の発売まってるんだが?
'マザー2 3をやった。... ゲームをやるのをやめた...。 あのゲームは...
まとめ
GPT-2とりんなすげぇ。誰でも気軽にXX風ジェネレーターが作れるいい時代だね。
これを応用したら、XXっぽいゲームとか小説が簡単に作れそう