短歌の自動生成を行うための、プログラムとデータについて整理する。
<この項は書きかけです。順次追記します。>
プログラム
pythonで作るのが流行
pythonでpoemから俳句、短歌を自動生成する
https://qiita.com/tyonekura@github/items/b26577e1cff55f11a319
さだまさし川柳の自動生成(python)
https://qiita.com/haminiku/items/c87c646758c6de3029b5
参考:Python による日本語自然言語処理
http://www.nltk.org/book-jp/ch12.html
Rを利用している場合もある
RでKerasを使う(短歌手習い編)
https://qiita.com/yamano357/items/27bb3d39dc8047c46dba
[Groovy]俳句、短歌生成ツールを実装
https://qiita.com/saba1024/items/3677a6f25a47afcfca69
深層学習とマルコフ連鎖による短歌自動生成Ver.0.10
https://qiita.com/aokikenichi/items/13d9b327581f9ddc3c57
みんなのはなもげらのソースコードを公開しました.
https://qiita.com/anonaka/items/68603f72e2efac6a53f8
ReactNativeで作ったアプリでもちゃんと数値を追うためのパッケージ4種
https://qiita.com/imaimiami/items/4071aecbe1a63106d8e3
データから 鉄道川柳 探したよ
https://qiita.com/deaikei/items/3bfd7583063b000736ca
機械学習
教師あり機械学習は、題材としての入力データ(過去の短歌)を評価して与える。出力データ(自動生成した短歌)にも、評価を与える。
これを繰り返すことによって、人間よりも評価基準の高い点の自動生成を可能にしようとする。ここでは人手が入る場合がある。
深層学習(deep learning)
深層学習は、機械学習の学習の層を多層にしたものである。
画像認識、囲碁・将棋などでは人間の専門家(professional)よりも高い能力を発揮する。
人間か機械化を見分ける試験(Turing Test)を試みるとし、ほとんどの場合に見分けが付かない水準に達している。
「ゼロから作るDeep Learning 2自然言語処理編」を読む前に読んで置くとよい資料とプログラム
https://qiita.com/kaizen_nagoya/items/537b1810265bbbc70e73
データ
学習データ
学習データは2種類。短歌そのものと、それ以外の文章。
単語と単語の関係の分析には、短歌だけだともったいない。
短歌以外のデータは、あちこちに分散している。
青空文庫には歌集が一部存在している。
https://researchmap.jp/joznjmfhj-2075951/
短歌データもあちこちに分散しているかもしれない。
短歌の電子データをお持ちのかたはお知らせ下さい。
また、青空文庫に著作権の切れた歌集をあげる計画がある場合もおしらせくださると幸いです。
『万葉集』JIS X4081形式(EPWING)
http://ebstudio.info/home/manyo.html
足跡書館 あしあとしょかん
http://flower.perpouh.net
やぶちゃんの電子テクスト集:小説・戯曲・評論・随筆・短歌篇
http://yab.o.oo7.jp/textsyousetu.htm
ふたのはこ電子版
http://sabajaco.com/futanohako/
日本語語彙体系
https://www.amazon.co.jp/dp/4001301016/
形態素解析器
MeCab: Yet Another Part-of-Speech and Morphological Analyzer
http://taku910.github.io/mecab/
作品の主体と著作権
既存の文章中の短歌形式の文
偶然短歌という本が出ている。不見識かもしれない。wikiから57577を抜き出してくるソフトを利用しているらしい。それを偶然と命名している。wikiの書き手が短歌を作成していないことを決めつけて、wikiにある57577は偶然だという。なんだろうこの傲慢さ。近づかないに越したことはないか、出版社の命名間違いなのだろうか。
既存の文章中に短歌形式の部分があっても、偶然とは思わずに、著者の技か必然かのどちらかと考えてください。
自動生成の著作権
自動生成の著作権の前に、自動生成に利用したデータの著作権料の支払いを考慮すると良い。
著作権の切れていない作品をデータとして利用した場合には、生じた著作権料から、データにどれだけ再配分するかを決めることが大事である。
誰の著作権か、よりも、誰が著作権料を分配するかに焦点を当てると良い。
機械学習のプログラムで、既存のものへの配分と追加したものへどのように配分すると良いかに似ている。
ただし、プログラムの場合は、追加した人が、既存のものへの改良への貢献の労力を提供すれば、それで相殺されるかもしれない。データの方は、そうはいかない。うまく全体が発展するような仕切りが大事。
短歌の著作権
wikiに短歌を掲載すると削除する人たちがいる。理由はよく分かっていない。短歌の書籍からの短歌の引用が、学術論文や社会的な冊子体名、著者名、出版社名、出版年、ページ番号などが掲載されていれば、著作権法 第三十二条 「公表された著作物は、引用して利用することができる。この場合において、その引用は、公正な慣行に合致するものであり、かつ、報道、批評、研究その他の引用の目的上正当な範囲内で行なわれるものでなければならない。」に該当するはずである。
短歌一首で完結していると言う考え方と、連作の中での価値に著作権を見出す立場の違いかもしれない。
短歌を著作権法の趣旨にのっとらずに、著者名または書籍名だけで引用している雑誌記事・書籍などがある。有名な著者、高名な出版社から出ている場合もある。
著作権法に基づいた引用を削除する人たちと、著作権法に基づかない引用を横行させると言う真逆の現象をうまく仕切るところから、短歌の自動生成の将来は展望できるかもしれない。
参考文献
追悼 白井諭(自然言語処理)「言語・認識・表現」年次研究会一覧
https://researchmap.jp/jov1bp0k3-45644
NTT所属、日本語語彙大系編集者。大学との共同研究等統括。「言語・認識・表現」立ち上げ。
64bitCPUへの道 and/or 64歳の決意(0):101件
https://qiita.com/kaizen_nagoya/items/cfb5ffa24ded23ab3f60
連休中の記事数は目標達成した。質向上のために集計。平均が無意味なことを再確認:57件
https://qiita.com/kaizen_nagoya/items/138c543c5e74e380d31d
「量子アニーリングの基礎」への記事一覧<作成中> 27件
https://qiita.com/kaizen_nagoya/items/2f9b56d7dea41e3f18dd
無線網(Wi-Fi)空中線(antenna)(0) 記事一覧(118/300目標)
https://qiita.com/kaizen_nagoya/items/5e5464ac2b24bd4cd001
仮説(0)一覧(目標100現在40)
https://qiita.com/kaizen_nagoya/items/f000506fe1837b3590df
安全(0)安全工学シンポジウムに向けて: 21
https://qiita.com/kaizen_nagoya/items/c5d78f3def8195cb2409
Qiita(0)Qiita関連記事一覧(自分)
https://qiita.com/kaizen_nagoya/items/58db5fbf036b28e9dfa6
鉄道(0)鉄道のシステム考察はてっちゃんがてつだってくれる
https://qiita.com/kaizen_nagoya/items/26bda595f341a27901a0
日本語(0)一欄
https://qiita.com/kaizen_nagoya/items/7498dcfa3a9ba7fd1e68
英語(0) 一覧
https://qiita.com/kaizen_nagoya/items/680e3f5cbf9430486c7d
転職(0)一覧
https://qiita.com/kaizen_nagoya/items/f77520d378d33451d6fe
Ethernet 記事一覧 Ethernet(0)
https://qiita.com/kaizen_nagoya/items/88d35e99f74aefc98794
数学関連記事100
https://qiita.com/kaizen_nagoya/items/d8dadb49a6397e854c6d
物理記事 上位100
https://qiita.com/kaizen_nagoya/items/66e90fe31fbe3facc6ff
自動車 記事 100
https://qiita.com/kaizen_nagoya/items/f7f0b9ab36569ad409c5
言語・文学記事 100
https://qiita.com/kaizen_nagoya/items/42d58d5ef7fb53c407d6
医工連携関連記事 100
https://qiita.com/kaizen_nagoya/items/6ab51c12ba51bc260a82
通信記事100
https://qiita.com/kaizen_nagoya/items/1d67de5e1cd207b05ef7
OSEK OS設計の基礎 OSEK(100)
https://qiita.com/kaizen_nagoya/items/7528a22a14242d2d58a3
views 20,000越え自己記事一覧
https://qiita.com/kaizen_nagoya/items/58e8bd6450957cdecd81
Views1万越え、もうすぐ1万記事一覧 最近いいねをいただいた216記事
https://qiita.com/kaizen_nagoya/items/d2b805717a92459ce853
2023 Countdown Calendar 主催・参加一覧
https://qiita.com/kaizen_nagoya/items/c4c2f08ac97f38d08543
一覧:携帯計画者日記(0)
https://qiita.com/kaizen_nagoya/items/005d38c6f55c85570e74
<この記事は個人の過去の経験に基づく個人の感想です。現在所属する組織、業務とは関係がありません。>
文書履歴
ver 1.00 初稿 20180227
ver 1.01 日本語関連資料追記 20180304
ver 1.02 資料追記 短歌電子データ書庫検索 20180325
最後までおよみいただきありがとうございました。
いいね 💚、フォローをお願いします。
Thank you very much for reading to the last sentence.
Please press the like icon 💚 and follow me for your happy life.