More than 1 year has passed since last update.

AUTOSAR Countdown Advent Calendar 2022

@kaizen_nagoya(Dr. Kiyoshi Ogawa)

短歌の自動生成プログラムとデータの収集。日本語（７）

Last updated at 2025-06-08Posted at 2018-02-27

短歌の自動生成を行うための、プログラムとデータについて整理する。

Wikipediaは、プログラムのデータとして使うにはよい。
自分がWikipediaに書いてないのに、データを使うと、

短歌の自動生成プログラムとデータの収集。日本語（７）
https://qiita.com/kaizen_nagoya/items/d3198402d8b8b4ac8cd2

必然を偶然と言い張るような、おかしなデータの使い方をしてしまうかもしれない。

Wikipediaに書く文章で気をつけていること。
https://qiita.com/kaizen_nagoya/items/25e78e48e406f803bb55

Wikipediaに追記する際に、知っているとよい記法　７つ
https://qiita.com/kaizen_nagoya/items/7b081d53c214307af75f

Wikipedia : 文章書き方学生編日本語(24)
https://qiita.com/kaizen_nagoya/items/e411d2704efde863e82e

URLをコマンドライン引数で(wikipedia) docker(90) プログラムちょい替え(2)
https://qiita.com/kaizen_nagoya/items/fc095b0c580a35001ea7

「wikipediaからのページからリンク一覧を取得する方法」を動かしてみた
https://qiita.com/kaizen_nagoya/items/ef4a8d21ec98851d10a0

<この項は書きかけです。順次追記します。>

プログラム

pythonで作るのが流行

pythonでpoemから俳句、短歌を自動生成する
https://qiita.com/tyonekura@github/items/b26577e1cff55f11a319

さだまさし川柳の自動生成(python)
https://qiita.com/haminiku/items/c87c646758c6de3029b5

参考：Python による日本語自然言語処理
http://www.nltk.org/book-jp/ch12.html

Rを利用している場合もある

RでKerasを使う（短歌手習い編）
https://qiita.com/yamano357/items/27bb3d39dc8047c46dba

[Groovy]俳句、短歌生成ツールを実装
https://qiita.com/saba1024/items/3677a6f25a47afcfca69

深層学習とマルコフ連鎖による短歌自動生成Ver.0.10
https://qiita.com/aokikenichi/items/13d9b327581f9ddc3c57

みんなのはなもげらのソースコードを公開しました．
https://qiita.com/anonaka/items/68603f72e2efac6a53f8

ReactNativeで作ったアプリでもちゃんと数値を追うためのパッケージ４種
https://qiita.com/imaimiami/items/4071aecbe1a63106d8e3

データから鉄道川柳探したよ
https://qiita.com/deaikei/items/3bfd7583063b000736ca

機械学習

教師あり機械学習は、題材としての入力データ（過去の短歌）を評価して与える。出力データ（自動生成した短歌）にも、評価を与える。
これを繰り返すことによって、人間よりも評価基準の高い点の自動生成を可能にしようとする。ここでは人手が入る場合がある。

深層学習(deep learning)

深層学習は、機械学習の学習の層を多層にしたものである。
画像認識、囲碁・将棋などでは人間の専門家(professional)よりも高い能力を発揮する。
人間か機械化を見分ける試験(Turing Test)を試みるとし、ほとんどの場合に見分けが付かない水準に達している。

「ゼロから作るDeep Learning ２自然言語処理編」を読む前に読んで置くとよい資料とプログラム
https://qiita.com/kaizen_nagoya/items/537b1810265bbbc70e73

データ

学習データ

学習データは２種類。短歌そのものと、それ以外の文章。
単語と単語の関係の分析には、短歌だけだともったいない。

短歌以外のデータは、あちこちに分散している。

青空文庫には歌集が一部存在している。
https://researchmap.jp/joznjmfhj-2075951/

短歌データもあちこちに分散しているかもしれない。
短歌の電子データをお持ちのかたはお知らせ下さい。
また、青空文庫に著作権の切れた歌集をあげる計画がある場合もおしらせくださると幸いです。

『万葉集』JIS X4081形式(EPWING)
http://ebstudio.info/home/manyo.html

足跡書館　あしあとしょかん
http://flower.perpouh.net

やぶちゃんの電子テクスト集：小説・戯曲・評論・随筆・短歌篇
http://yab.o.oo7.jp/textsyousetu.htm

ふたのはこ電子版
http://sabajaco.com/futanohako/

日本語語彙体系
https://www.amazon.co.jp/dp/4001301016/

形態素解析器

MeCab: Yet Another Part-of-Speech and Morphological Analyzer
http://taku910.github.io/mecab/

作品の主体と著作権

既存の文章中の短歌形式の文

偶然短歌という本が出ている。不見識かもしれない。wikiから57577を抜き出してくるソフトを利用しているらしい。それを偶然と命名している。wikiの書き手が短歌を作成していないことを決めつけて、wikiにある57577は偶然だという。なんだろうこの傲慢さ。近づかないに越したことはないか、出版社の命名間違いなのだろうか。
既存の文章中に短歌形式の部分があっても、偶然とは思わずに、著者の技か必然かのどちらかと考えてください。

自動生成の著作権

自動生成の著作権の前に、自動生成に利用したデータの著作権料の支払いを考慮すると良い。
著作権の切れていない作品をデータとして利用した場合には、生じた著作権料から、データにどれだけ再配分するかを決めることが大事である。
誰の著作権か、よりも、誰が著作権料を分配するかに焦点を当てると良い。
機械学習のプログラムで、既存のものへの配分と追加したものへどのように配分すると良いかに似ている。
ただし、プログラムの場合は、追加した人が、既存のものへの改良への貢献の労力を提供すれば、それで相殺されるかもしれない。データの方は、そうはいかない。うまく全体が発展するような仕切りが大事。

短歌の著作権

wikiに短歌を掲載すると削除する人たちがいる。理由はよく分かっていない。短歌の書籍からの短歌の引用が、学術論文や社会的な冊子体名、著者名、出版社名、出版年、ページ番号などが掲載されていれば、著作権法第三十二条　「公表された著作物は、引用して利用することができる。この場合において、その引用は、公正な慣行に合致するものであり、かつ、報道、批評、研究その他の引用の目的上正当な範囲内で行なわれるものでなければならない。」に該当するはずである。
短歌一首で完結していると言う考え方と、連作の中での価値に著作権を見出す立場の違いかもしれない。

短歌を著作権法の趣旨にのっとらずに、著者名または書籍名だけで引用している雑誌記事・書籍などがある。有名な著者、高名な出版社から出ている場合もある。

著作権法に基づいた引用を削除する人たちと、著作権法に基づかない引用を横行させると言う真逆の現象をうまく仕切るところから、短歌の自動生成の将来は展望できるかもしれない。

参考文献

追悼　白井諭（自然言語処理)「言語・認識・表現」年次研究会一覧
https://researchmap.jp/jov1bp0k3-45644
NTT所属、日本語語彙大系編集者。大学との共同研究等統括。「言語・認識・表現」立ち上げ。

64bitCPUへの道 and/or 64歳の決意(0)：101件
https://qiita.com/kaizen_nagoya/items/cfb5ffa24ded23ab3f60

連休中の記事数は目標達成した。質向上のために集計。平均が無意味なことを再確認:57件
https://qiita.com/kaizen_nagoya/items/138c543c5e74e380d31d

「量子アニーリングの基礎」への記事一覧<作成中> 27件
https://qiita.com/kaizen_nagoya/items/2f9b56d7dea41e3f18dd

無線網（Wi-Fi）空中線(antenna)(0) 記事一覧(118/300目標)
https://qiita.com/kaizen_nagoya/items/5e5464ac2b24bd4cd001

仮説（0）一覧（目標100現在40）
https://qiita.com/kaizen_nagoya/items/f000506fe1837b3590df

安全（0）安全工学シンポジウムに向けて: 21
https://qiita.com/kaizen_nagoya/items/c5d78f3def8195cb2409

Qiita(0)Qiita関連記事一覧（自分）
https://qiita.com/kaizen_nagoya/items/58db5fbf036b28e9dfa6

鉄道（０）鉄道のシステム考察はてっちゃんがてつだってくれる
https://qiita.com/kaizen_nagoya/items/26bda595f341a27901a0

日本語（０）一欄
https://qiita.com/kaizen_nagoya/items/7498dcfa3a9ba7fd1e68

英語(0) 一覧
https://qiita.com/kaizen_nagoya/items/680e3f5cbf9430486c7d

転職(0)一覧
https://qiita.com/kaizen_nagoya/items/f77520d378d33451d6fe

Ethernet 記事一覧　Ethernet(0)
https://qiita.com/kaizen_nagoya/items/88d35e99f74aefc98794

数学関連記事１００　
https://qiita.com/kaizen_nagoya/items/d8dadb49a6397e854c6d

物理記事　上位100
https://qiita.com/kaizen_nagoya/items/66e90fe31fbe3facc6ff

自動車　記事　１００
https://qiita.com/kaizen_nagoya/items/f7f0b9ab36569ad409c5

言語・文学記事　１００
https://qiita.com/kaizen_nagoya/items/42d58d5ef7fb53c407d6

医工連携関連記事　１００
https://qiita.com/kaizen_nagoya/items/6ab51c12ba51bc260a82

通信記事１００
https://qiita.com/kaizen_nagoya/items/1d67de5e1cd207b05ef7

OSEK OS設計の基礎　OSEK(100)
https://qiita.com/kaizen_nagoya/items/7528a22a14242d2d58a3

views 20,000越え自己記事一覧
https://qiita.com/kaizen_nagoya/items/58e8bd6450957cdecd81

Views１万越え、もうすぐ１万記事一覧最近いいねをいただいた216記事
https://qiita.com/kaizen_nagoya/items/d2b805717a92459ce853

2023 Countdown Calendar 主催・参加一覧
https://qiita.com/kaizen_nagoya/items/c4c2f08ac97f38d08543

一覧：携帯計画者日記（0）
https://qiita.com/kaizen_nagoya/items/005d38c6f55c85570e74

＜この記事は個人の過去の経験に基づく個人の感想です。現在所属する組織、業務とは関係がありません。＞

文書履歴

ver 1.00 初稿　20180227
ver 1.01 日本語関連資料追記 20180304
ver 1.02 資料追記短歌電子データ書庫検索　20180325

最後までおよみいただきありがとうございました。

いいね　💚、フォローをお願いします。

Thank you very much for reading to the last sentence.

Please press the like icon 💚　and follow me for your happy life.

You get articles that match your needs
You can efficiently read back useful information
You can use dark theme

What you can do with signing up