短歌の自動生成プログラムとデータの収集

短歌の自動生成を行うための、プログラムとデータについて整理する。


プログラム


pythonで作るのが流行

pythonでpoemから俳句、短歌を自動生成する

https://qiita.com/tyonekura@github/items/b26577e1cff55f11a319

さだまさし川柳の自動生成(python)

https://qiita.com/haminiku/items/c87c646758c6de3029b5

参考:Python による日本語自然言語処理

http://www.nltk.org/book-jp/ch12.html


Rを利用している場合もある

RでKerasを使う(短歌手習い編)

https://qiita.com/yamano357/items/27bb3d39dc8047c46dba

[Groovy]俳句、短歌生成ツールを実装

https://qiita.com/saba1024/items/3677a6f25a47afcfca69

深層学習とマルコフ連鎖による短歌自動生成Ver.0.10

https://qiita.com/aokikenichi/items/13d9b327581f9ddc3c57

みんなのはなもげらのソースコードを公開しました.

https://qiita.com/anonaka/items/68603f72e2efac6a53f8

ReactNativeで作ったアプリでもちゃんと数値を追うためのパッケージ4種

https://qiita.com/imaimiami/items/4071aecbe1a63106d8e3

データから 鉄道川柳 探したよ

https://qiita.com/deaikei/items/3bfd7583063b000736ca


機械学習

教師あり機械学習は、題材としての入力データ(過去の短歌)を評価して与える。出力データ(自動生成した短歌)にも、評価を与える。

これを繰り返すことによって、人間よりも評価基準の高い点の自動生成を可能にしようとする。ここでは人手が入る場合がある。


深層学習(deep learning)

深層学習は、機械学習の学習の層を多層にしたものである。

画像認識、囲碁・将棋などでは人間の専門家(professional)よりも高い能力を発揮する。

人間か機械化を見分ける試験(Turing Test)を試みるとし、ほとんどの場合に見分けが付かない水準に達している。

「ゼロから作るDeep Learning 2自然言語処理編」を読む前に読んで置くとよい資料とプログラム

https://qiita.com/kaizen_nagoya/items/537b1810265bbbc70e73


データ


学習データ

学習データは2種類。短歌そのものと、それ以外の文章。

単語と単語の関係の分析には、短歌だけだともったいない。

短歌以外のデータは、あちこちに分散している。

青空文庫には歌集が一部存在している。

https://researchmap.jp/joznjmfhj-2075951/

短歌データもあちこちに分散しているかもしれない。

短歌の電子データをお持ちのかたはお知らせ下さい。

また、青空文庫に著作権の切れた歌集をあげる計画がある場合もおしらせくださると幸いです。

『万葉集』JIS X4081形式(EPWING)

http://ebstudio.info/home/manyo.html

足跡書館 あしあとしょかん

http://flower.perpouh.net

やぶちゃんの電子テクスト集:小説・戯曲・評論・随筆・短歌篇

http://yab.o.oo7.jp/textsyousetu.htm

ふたのはこ電子版

http://sabajaco.com/futanohako/


日本語語彙体系

https://www.amazon.co.jp/dp/4001301016/

41EehOIzgiL._SX372_BO1,204,203,200_.jpg


形態素解析器

MeCab: Yet Another Part-of-Speech and Morphological Analyzer

http://taku910.github.io/mecab/


作品の主体と著作権


既存の文章中の短歌形式の文

偶然短歌という本が出ている。不見識かもしれない。wikiから57577を抜き出してくるソフトを利用しているらしい。それを偶然と命名している。wikiの書き手が短歌を作成していないことを決めつけて、wikiにある57577は偶然だという。なんだろうこの傲慢さ。近づかないに越したことはないか、出版社の命名間違いなのだろうか。

既存の文章中に短歌形式の部分があっても、偶然とは思わずに、著者の技か必然かのどちらかと考えてください。


自動生成の著作権

自動生成の著作権の前に、自動生成に利用したデータの著作権料の支払いを考慮すると良い。

著作権の切れていない作品をデータとして利用した場合には、生じた著作権料から、データにどれだけ再配分するかを決めることが大事である。

誰の著作権か、よりも、誰が著作権料を分配するかに焦点を当てると良い。

機械学習のプログラムで、既存のものへの配分と追加したものへどのように配分すると良いかに似ている。

ただし、プログラムの場合は、追加した人が、既存のものへの改良への貢献の労力を提供すれば、それで相殺されるかもしれない。データの方は、そうはいかない。うまく全体が発展するような仕切りが大事。


短歌の著作権

wikiに短歌を掲載すると削除する人たちがいる。理由はよく分かっていない。短歌の書籍からの短歌の引用が、学術論文や社会的な冊子体名、著者名、出版社名、出版年、ページ番号などが掲載されていれば、著作権法 第三十二条 「公表された著作物は、引用して利用することができる。この場合において、その引用は、公正な慣行に合致するものであり、かつ、報道、批評、研究その他の引用の目的上正当な範囲内で行なわれるものでなければならない。」に該当するはずである。

短歌一首で完結していると言う考え方と、連作の中での価値に著作権を見出す立場の違いかもしれない。

短歌を著作権法の趣旨にのっとらずに、著者名または書籍名だけで引用している雑誌記事・書籍などがある。有名な著者、高名な出版社から出ている場合もある。

著作権法に基づいた引用を削除する人たちと、著作権法に基づかない引用を横行させると言う真逆の現象をうまく仕切るところから、短歌の自動生成の将来は展望できるかもしれない。


参考文献


追悼 白井諭(自然言語処理)「言語・認識・表現」年次研究会一覧

https://researchmap.jp/jov1bp0k3-45644

NTT所属、日本語語彙大系編集者。大学との共同研究等統括。「言語・認識・表現」立ち上げ。


文書履歴

ver 1.00 初稿 20180227

ver 1.01 日本語関連資料追記 20180304

ver 1.02 資料追記 短歌電子データ書庫検索 20180325