こちらの記事を参考にしました
NLTKエラーが出る
以下を参考にこれ打った
python -c "import nltk; nltk.download()"
形態素解析の準備を省く
学習データに形態素解析したテキストがいるのですが
webアプリでmecab使えるサイトを作ってくれている方がいたので
ここで形態素解析してもらってダウンロードしたテキストを加工した
学習させる
2014年のmacbook pro使ってやってます。GPUなんてもちろんないのですごい遅い。
ゴオーーーーーーーーーーーってずっといってる
データは適当にニュースサイトから2021年のニュースを引き抜いて分かち書きにし学習データに、
2020年のニュースを分かち書きにしてテストデータにした。
崩壊している。
そもそもこれの目的は何か
これの入力になる文章を自動生成できないかなって思って。
なので最終的にはgoogleのtext-to-speechに読ませこうなる予定。
そしてこうなる感じ。
原文は60エポックで生まれたこちら
ワクチン 日本 日 と 民主 4 年 歳 に 支給 から 半数 獲得 は 違反 は 1 から よる 閲覧 問題 れ 、 サントリー 現金 が 少年 氏 の 来年 も 変異 チケット 調査 漫画 c 集まる 区 4 3 なる 経ち する 反対 で 新 も よる 豪州 。
文章としては崩壊しているけど今回の目的に沿って使うだけならなんかこれでもいいかなって気もする。
今後の展開
裁判の判決文とかでやってもいいかも
なんにしても遅すぎるので
google colaboratoryでGPU使えたと思うんだけど出来るかな、やる気出たら試してみる。