はじめに
こんにちは。
この記事は、沖縄高専 Advent Calender 2022 10日目の記事です。
実は、2日目に投稿する予定だったのですが、ポケモンSVのランクマッチ解禁につき先延ばしにしてしまいました。
参加者の皆さん本当に申し訳ありません。
また、記事が長くなってしまったため、前編と後編(17日目公開)に分けて投稿しようと思います (先延ばしの先延ばしではありません) 。
機械学習初心者+Qiita初投稿のため所々意味不明かもしれませんが、温かく見守っていただければと思います。
なぜやろうと思ったのか?
今年4月にゲーム用に3070Tiを購入したのですが、せっかくそれなりに良いGPUを持っているならゲーム以外のことにも使いたいなと思い、機械学習に手を出してみました。
なぜこのテーマにしたのかというと、ツイッターのトレンドから新規性を見出して論文にするbotとかいたら面白いかなって思ったからです。
学習にGoogle Colabを使っている記事がほとんどだったので、この記事では自前のGPUを使うための準備から書いていこうと思います。
PCの構成については、過去に自作.comに書いた記事を読んでください。
GPTとは?
GPTはOpenAIから提案されたモデルで、Generative Pre-trained Transformerの略です。Transformerという深層学習モデルをベースにしており、事前学習したモデルにファインチューニングという追加学習を行うことで非常に高い精度を実現する、というものです。
例えば、rinna社が構築した日本語の事前学習モデル、japanese-gpt-2-smallに、友達とのLINEのトーク履歴でファインチューニングして、GPT-2で友達を作った友人もいます。
なぜGPT-2?
自然言語処理の有名な事前学習モデルには、GPTやBERTなどがあります。
BERTは、予測したい単語の前後のテキストから間の単語を予測、GPTは、予測したい単語より前のテキストだけで次単語予測をするため、GPTの方が、要約や対話生成などの文章生成を得意とするらしいです。
また、GPTにはGPT-1、GPT-2、GPT-3があるのですが、基本的なモデルの仕組みは同じで、パラメータの数が違います。数字が大きい方がパラメータが多いので、GPT-3が一番つよいです。
ですが、GPT-3を使うにはAPI利用申請をしたり、ガイドラインをちゃんと読まないといけなさそうで難しかったため、思いつきで気軽に試すにはGPT-2が適正かなと思いこちらにしました。
今回やったこと
全体の流れは大きく分けて、
- データセットの作成
- 機械学習の準備
- モデルの作成
- トレンドからタイトルを生成して定期ツイート
の4つで、今回は、データセットの作成と機械学習の準備を行います。
1. データセットの作成
論文っぽいタイトルを作るのが目的なので、実際の論文のタイトルで日本語の事前学習モデルをファインチューニングすれば論文っぽいタイトルを生成できるのでは?と考えました。
そこで、 論文の題材にされていそうな単語を集め、 CiNiiで論文タイトルを収集し、学習に適した形式で保存する、という形でデータセットを作成しました。
1. 論文タイトルのスクレイピング
論文のタイトルはCiNii ResearchのRSSから、titleタグ部分を抜き出して取得しています。
検索単語と検索結果の論文タイトルでファインチューニングし、入力された単語を含む論文っぽいタイトルを生成するようにするため、paper_subject.txt
の単語を1つ1つ検索し、検索単語と検索結果の論文タイトルをセットで保存する、というプログラムとなっています。
当初の予定では前述した友人の記事を参考に、論文の題材として書かれていそうな単語を集め、検索単語を入力、検索結果の論文タイトルを出力として、セットで学習させる予定でした。
しかし、論文数が同程度の題材を集めるのが難しいこと、少ない方に合わせると学習が足りないこと、出力が集めた単語の分野に偏ってしまうということから、検索単語と検索結果の論文タイトルを学習させるのではなく、単純に論文タイトルを集め、論文タイトルっぽい文法を学習させる方針にしました。
何が言いたいかというと、入力に対して出力をする対話生成ではなく、入力したトレンドの単語に続くように論文タイトルっぽいデタラメな文章を生成する、単純なテキストジェネレーターにした、ということです。
CiNiiは検索ワード必須なので、論文と検索してタイトルを集めています。
論文での検索結果は200万件ほどありますが、1回の取得可能論文数が1万件だったため、2000年1月から月毎に1万件スクレイピングするという形にしています。
保存形式は少し特殊ですが、学習データの始まりと終わりを示す<s>
と</s>
、入力と出力の境界を示す を入れた形式で保存しています。[SEP]
、
import requests
import datetime
from dateutil.relativedelta import relativedelta
from bs4 import BeautifulSoup
def get_title():
#当初の予定では、paper_subject.txtに集めた単語を1つ1つ検索して論文タイトルを収集する予定だったためこのようなプログラムとなっています。今回はpaper_subject.txtの中身は『論文』という単語だけです。
with open('paper_subject.txt', 'r', encoding='UTF-8') as f:
subjects = f.readlines()
subjects = [subject.rstrip('\n') for subject in subjects]
#YYYYMM形式での検索となるため、その形式で年月をリストにしています。
term = datetime.datetime(2000, 1, 1)
terms = []
while True:
terms.append(term.strftime('%Y%m'))
if term.year == 2022 and term.month == 12:
break
term += relativedelta(months=1)
for subject in subjects: #ここのforも今回は検索単語が1単語のみなので意味はありません(一応残しています)。
for term in terms:
url = 'https://cir.nii.ac.jp/opensearch/articles?q={0}&count=200&from={1}&until={1}&lang=ja&format=rss'.format(subject, term)
res = requests.get(url)
soup = BeautifulSoup(res.content , features="xml")
search_count_result = soup.find('opensearch:totalResults')
search_count = int(search_count_result.string)
#1ページあたり200件を最大50ページ分取得できるので、検索件数から何回スクレイピングするかを計算しています。
if search_count // 200 == 0:
times = 1
elif search_count % 200 == 0:
times = search_count // 200
else:
times = search_count // 200 + 1
f = open('paper_title.txt', 'a', encoding='UTF-8')
#雑誌などの、論文っぽいタイトルというコンセプトに沿わないタイトルによく含まれている記号と、連載記事などの重複を省くための単語を並べたリストで、これらを含む論文タイトルは省くようにしています。
symbols = [':', ':', '(', '(', '―', ',', ',', '.', '.', '/', '/', '「', '?', '?', '!', '!', ' ', ' ', '~', '<', '<', '『', '【', '特集', '連載', 'CiNii Research articles']
for time in range(times):
count = 1 + 200 * time
url ='https://cir.nii.ac.jp/opensearch/articles?q={0}&count=200&start={1}&from={2}&until={2}&lang=ja&format=rss'.format(subject, count, term)
res = requests.get(url)
soup = BeautifulSoup(res.content , features="xml")
for title in soup.find_all('title'):
for symbol in symbols:
if symbol in title.string:
break
elif len(title.string) <= 10: #目次や表紙など、分割でアップロードされているものもあったため、10文字以下の論文は省くようにしています。
break
else:
#text = '<s>' + subject + '[SEP]' + title.string + '</s>'
text = '<s>' + title.string + '</s>'
f.write(text)
continue
f.close()
2. トレーニングデータとテストデータに分割
scikit-learnのtrain_test_split
という関数を使い、集めたタイトルをトレーニングデータとテストデータに分割します。
割合は、トレーニングデータ:テストデータ=8:2
としました。
from sklearn.model_selection import train_test_split
def split_title():
with open("paper_title.txt", 'r', encoding='UTF-8') as f:
title = f.read()
#一旦</s>で分割してリストに
title_list = title.split("</s>")
title_list = [title + "</s>" for title in title_list]
train, test = train_test_split(title_list, test_size=0.2)
#それぞれのファイルに保存
with open("train_title.txt", 'w', encoding='UTF-8') as f:
f.write("".join(train))
with open("test_title.txt", 'w', encoding='UTF-8') as f:
f.write("".join(test))
2. 機械学習の準備
NVIDIA製GPUを使って学習するには、ドライバーとCUDAをインストールする必要があります。
また、Deep Learningに関連する計算を高速化してくれるライブラリ、cuDNNもインストールします。
環境によってはVisual Studioのダウンロードも必要らしいですが、自分は必要なかったためここは各々で調べてください(ごめんなさい)。
また、機械学習ライブラリは友人の個人的な趣味でPyTorchを使います。
自分は機械学習初心者なので良し悪しは分かりません!
1. ドライバーのインストール
ドライバーは、公式ドライバー|NVIDIAからダウンロードできます。
自分のGPUに対応したドライバーを選択してダウンロードしてください。
2. CUDAのインストール
CUDAは、CUDA Toolkit Documentationからダウンロードできます。
先ほどダウンロードしたドライバーに対応するCUDAを入れてください。
バージョンの対応表も公式サイトに載っています。
※一部抜粋
自分はドライバーバージョン527.37を入れたため、任意のCUDA入れることができます(と思っています)。
今回はCUDA 11.7をインストールしました。
また、システム環境変数にパスを通す必要があります。
3. cuDNNのインストール
cuDNNは、CUDA Deep Neural Network(cuDNN)|NVIDIA Developerからダウンロードできます。
cuDNNのダウンロードにはNVIDIAのアカウント作成が必要です。
また、先ほどダウンロードしたCUDAに対応するcuDNNを入れてください。
自分はCUDA 11系統を入れたため、cuDNN v8.7.0 for CUDA 11.xをインストールしました。
cuDNNもCUDA同様に、システム環境変数にパスを通す必要があります。
4. PyTorchのインストール
PyTorchは、PyTorchの公式サイトからインストールできます。
公式サイトにある環境診断から自分の環境を選択し、インストールコマンドを入手します。
自分のPython環境はCondaで、CUDAはv11.7を入れたため、画像のようなコマンドでPyTorchをインストールしました。
Pythonで下記のコマンドを実行することで、PyTorchがGPUを認識しているかを確認することができます。
import torch
torch.cuda.is_available()
#True
おわりに
この記事では、データセットの作成と機械学習の準備について書きました。
機械学習用の環境構築は意外と簡単にできました。
思い出しながら書いているので所々大事なとこが抜けているかもしれません。改善点などあればぜひコメントしてください。
後編では、日本語の事前学習モデルをファインチューニングして、トレンドからタイトルを生成、定期ツイートしていきたいと思います。