[自然言語処理][GPT2]GPT2で日本語文章生成

Last updated at 2022-12-16Posted at 2022-12-16

はじめに

今回はrinnaのjapanese-gpt-mediumを用いた文章生成を行なっていきます。
また、芥川龍之介の小説のデータを用いてfine-tuningを行って見るところまでをしてみようと思います！果たして、芥川っぽい小説が完成するのか楽しみですね、、、！

開発環境

mac OS Monterey
Apple M2チップ
python version = 3.7

訓練済みモデルの実装

ライブラリのインストール

今回はjapanese-gpt-mediumの訓練済みモデルを利用して実装を行なっていきます！
まずは必要なライブラリのインストールを行います。今回はtransformersとsentencepieceを使用します！

$ conda install transformers
$ conda install sentencepiece

テキスト生成

最もシンプルなテキスト生成

簡単にテキスト生成を行なってみます。

my_text_generation.py

from transformers import T5Tokenizer, AutoModelForCausalLM

tokenizer = T5Tokenizer.from_pretrained("rinna/japanese-gpt2-medium")
tokenizer.do_lower_case = True

model = AutoModelForCausalLM.from_pretrained("rinna/japanese-gpt2-medium")


text = "こんな夢を見た。"
input = tokenizer.encode(text, return_tensors="pt", add_special_tokens=False)
output = model.generate(input, max_length=100)
print(tokenizer.batch_decode(output))

こちらを実行していただくと、以下のような出力が得られるかと思います。非常に不自然な文章ですが、一応テキストは生成されていることが確認できるかと思います！

The attention mask and the pad token id were not set. As a consequence, you may observe unexpected behavior. Please pass your input's `attention_mask` to obtain reliable results.
Setting `pad_token_id` to `eos_token_id`:2 for open-end generation.
['世界は恋に落ちている, 恋は雨上がりのように, 恋は雨上がりのように, 恋は雨上がりのように 恋は雨上がりのように 恋は雨上がりのように 恋は雨上がりのように 恋は雨上がりのように 恋は雨上がりのように 恋は雨上がりのように 恋は雨上がりのように 恋は雨上がりのように 恋は雨上がりのように 恋は雨上がりのように 恋は雨上がりのように 恋は雨上がりのように 恋は']

自然なテキスト生成

もう少し、自然な文章を生成したいのでコードを以下のように改良しましょう〜！解説は下にまとめて書きます。

my_text_generation.py

from transformers import T5Tokenizer, AutoModelForCausalLM

tokenizer = T5Tokenizer.from_pretrained("rinna/japanese-gpt2-medium")
tokenizer.do_lower_case = True

model = AutoModelForCausalLM.from_pretrained("rinna/japanese-gpt2-medium")


text = "こんな夢を見ていた。"
input = tokenizer.encode(text, return_tensors="pt", add_special_tokens=False)
output = model.generate(
                        input,
                        max_length=100,
                        min_length=10,
                        do_sample=True,
                        top_k=40,
                        temperature=1.5,
                        pad_token_id=tokenizer.pad_token_id,
                        bos_token_id=tokenizer.bos_token_id,
                        eos_token_id=tokenizer.eos_token_id
                        )
print(tokenizer.batch_decode(output))

これを実行すると以下のような出力が得られるかと思います！

['こんな夢を見ていた。その話を聞いた瞬間に私の体内の回路も変わらなければならないとさえ感じるようになり、そしてある意味その感覚が普通に生活できなくなるような、そんな危機感を覚えるようになった。 そして私は「本当にこれで最後になるかわからない」そう思った。いやでも「そう」したかっただけだ。そしてまたも私自身の寿命を賭け、そう決断した。そのように自分を「死の世界」に押し上げてゆくようなことを。 それでも何とか私は、自分が死の世界に行くこと']

内容は意味が通った文章ではありませんが、比較的文章としては読める程度のものが生成されているかと思います！

ここで、model.generate()の引数について一部紹介します。詳しくはこちらを確認していただけるとわかるかと思います！

パラメータ	詳細
max_length	生成される文章の最大長
min_length	生成される文章の最短長
do_sample	確率で次のトークンを選択するかどうか。Falseなら貪欲法
early_stopping	最低num_beams回の同じ文章が繰り返されたら生成を終了するかどうか。 Bool型。
num_beams	early_stoppingの値
temperature	次の単語の確率の調整をする値。
top_k	top_kサンプリングの値
top_p	top_pサンプリングの値
num_return_sequences	生成する文章の個数

他にもパラメータはたくさんありますが、ここでは自分が使ったものにとどめておきますっ！

ファインチューニング

ここまでで簡単な文章生成をすることができました！ここからはファインチューニングを用いて、文のスタイルを調整していきましょう！

データの取得

今回は青空文庫から芥川龍之介の小説データを拝借しようかと思いますっ！これで芥川っぽい小説が書けるはず、、、✨
文章データからはルビなどの特殊記号を取り除いたものを用意しておいてください。当然別のデータでやってみてもいいかと思います。

ファインチューニング

実際にファインチューニングを行なっていきます！こちらを参考にしました。

まずはモデルの読み込みをしましょう。

my_fine_tuning.py

from transformers import T5Tokenizer, AutoModelForCausalLM
from transformers import TextDataset, DataCollatorForLanguageModeling
from transformers import Trainer, TrainingArguments,AutoModelWithLMHead

tokenizer = T5Tokenizer.from_pretrained("rinna/japanese-gpt2-medium")
tokenizer.do_lower_case = True

model = AutoModelForCausalLM.from_pretrained("rinna/japanese-gpt2-medium")

次に追加訓練に必要な情報を書きます！

my_fine_tuning.py

train_dataset = TextDataset(
        tokenizer=tokenizer,
        file_path="akutagawa.txt",
        block_size=64
        )

data_collator = DataCollatorForLanguageModeling(
    tokenizer=tokenizer,
    mlm=False
    )

args = TrainingArguments(
    output_dir="./",  
    overwrite_output_dir=True,
    num_train_epochs=3,
    per_device_train_batch_size=8, 
    logging_steps=50,  
    save_steps=500
    )

# トレーナーを設定
trainer = Trainer(
    model=model,
    args=args,
    data_collator=data_collator,
    train_dataset=train_dataset,
)

# トレーニング
trainer.train()

最後に前回までと同様にテキストを生成してみましょうっ！

my_fine_tuning.py

text = "こんな夢を見ていた。"
input = tokenizer.encode(text, return_tensors="pt", add_special_tokens=False)
output = model.generate(
                        input,
                        max_length=100,
                        min_length=10,
                        do_sample=True,
                        top_k=40,
                        temperature=1.5,
                        pad_token_id=tokenizer.pad_token_id,
                        bos_token_id=tokenizer.bos_token_id,
                        eos_token_id=tokenizer.eos_token_id
                        )
print(tokenizer.batch_decode(output))

生成したテキストを見ても分かる通り、若干雰囲気のことなったテキストが生成できているかと思います。
ぜひパラメータなどを変えて遊んでみてください。

さいごに

今回はGPT2の訓練済みモデルを利用して文章生成を行なってきました！
今回記事を書いていて文章生成って夢があるなって思いました！自分の書いた文章とかでfine-tuningさせたら自分ぽいことを言ってくれるモデルとかも作れるかもですね笑

記事を読んでいただきありがとうございました！もし誤字や内容の誤りなどありましたらご指摘いただけますと幸いです。

参考サイト

You get articles that match your needs
You can efficiently read back useful information
You can use dark theme

What you can do with signing up