こんにちは(こんばんは)、若年性アルツ気味のロン毛ノッポです
タイトルはまたカッコつけさせてもらいました。
平成生まれの私ですが最近平成仲間と会うと、「平成しか生きてないじゃん?次の年号気にならない?」って会話が4〜5回は出ました。ということで次の年号を予想する方法を少し考えてみました。
##年号の基準
明治神宮の公式サイトによると年号の基準は以下の通り
国民の理想としてふさわしい意味を持つ
1.漢字二字
2.書きやすい
3.読みやすい
4.外国を含め過去に元号やおくり名として使われていない
5.俗用されていない
##考えうる条件
上記の基準から導き出せる年号の条件は以下の通りかな
1.漢字二字
2.国字ではない(中国の古典には日本独自の字は存在しない)
3.過去の漢字文化圏の元号、おくり名を除外
4.悪い意味の文字が入っていない。
5.二字熟語ではない。
6.名字やよくある人名としても存在しない。
7.地名としても存在しない。
以上の条件と世間の常識をもとに推測すると以下の条件も追加できる
1.小学生で習う漢字 (明治以降の年号は小学生で習う漢字で構成されている。)
2.画数が少ない (明治以降で最も画数が多いのは昭で9画のため、10以内?)
3.年号とおくり名を反対にしたものも除外 (例:慶応→応慶 etc.)
4.二字熟語を反対にしたものも除外
5.音読みのローマ字表記一文字目がMTSHと一致するのも除外(銀行などのシステムはこういう風に管理しているらしい)
6.音読みが2音になるパターンと、同じ音が続くパターンも語呂が悪いので除外
7.明治以降の元号で使われた漢字を使わない
8.漢数字や「円」も通貨など実用上の数字と紛らわしいから除外
9.年、月、日、時、分、秒 も記載する際に紛らわしいので除外
おそらく、以上の16の条件を満たす二字の漢字の組み合わせが次の年号となるはず
##アルゴリズム
使用漢字の決定
1.小学生が習う漢字を抽出
・文部科学省: 別表 学年別漢字配当表 → 1,006字
2.画数が10文字以下を抽出
・画数別漢字一覧 [1-10画] → 10画の文字は 1とのAND条件で615字
3.漢数字を除外 (一、二、三、参、四、五、六、七、八、九、十、拾(金銭に関する文書などで間違いを防ぐため、「十」の代わりに特に用いる。)、百、千、万)
→ 600字
4.明、治、大、正、昭、和、平、成、円、年、月、日、時、分、秒 を除外
→ 585字
5.国字を除外
国字の一覧→ 「畑」のみ該当する。 → 584字
一文字で悪い意味がある漢字を除外 (例:死、災、苦、変 etc. )
→ 一文字で意味の悪い漢字やこれは年号にはちょっと使えないなというのやつ。 → 448字
##妥当な組み合わせを抽出
上の手順で抽出した漢字は448文字なので、組み合わせは448×447で、200,256通り
その結果に対して、以下に該当する二字を除外する
確実性は若干低くなるが、次からの項目を飛ばして、最後の残ったデータをGoogleの検索結果とマッチさせるのをやった方が手軽かも・・
ただ、約20万回検索結果にアクセスするので、1回あたり、1秒かかるとすると約20万秒もかかる・・・。時間にすると約55時間。つまり約2.5日かかる。力業すぎてエレガントな解決方法ではないので、以下の内容を実施した後に実行した方が良いかと思う。
年号の除外
1.江戸時代以前の日本の年号を抽出
Wikipedia 元号一覧 (日本)
2.過去の中国の年号を抽出
Wikipedia 元号一覧 (中国)
3.過去の朝鮮半島の年号を抽出
Wikipedia 元号一覧 (朝鮮)
4.過去の台湾の年号を抽出
Wikipedia 元号一覧 (台湾)
5.過去のベトナムの年号を抽出
Wikipedia 元号一覧 (ベトナム)
6.抽出したデータと、そのデータの二文字を逆転した文字を除外する。
東アジアの君主のおくり名の除外
1.江戸時代以前の天皇のおくり名を抽出
Wikipedia 天皇の一覧
2.過去の中国の皇帝のおくり名を抽出
Wikipedia 中国帝王一覧
3.過去の朝鮮の王のおくり名を抽出
Wikipedia 朝鮮の君主一覧
4.抽出したデータと、そのデータの二文字を逆転した文字を除外する。
※台湾とベトナムはWikipediaの項目が不完全なのでやらない
人名、地名と熟語の除外
1.名字に一致する組み合わせを除外
同姓同名辞典(同姓同名検索・苗字ランキング・名前ランキング)
2.よくある人名と一致する組み合わせを除外
上のページに名前の項目があるのでそれを利用する
3.日本の都道府県、市区町村を除外
総務省統計局 平成27年国勢調査 人口速報集計(要計表による人口集計)結果 (Excelファイル)
4.日本の駅名を除外
Wikipedia 日本の鉄道駅一覧
5.国語辞典に載っている熟語に該当する組み合わせを除外
単語感情極性対応表 このサイトの日本語ファイルが岩波国語辞典を元にしているのでそれを利用する。
6.国語辞典に載っている熟語を逆転した組み合わせを除外
7.音読みをローマ字に変換した時、MTSHが頭文字になる組み合わせを除外
8.音読みが2音になるパターンを除外
9.同じ音が続くパターンを除外
##残ったデータをGoogleの検索結果とマッチさせる
仕上げとして、残ったデータをGoogle検索し、1ページ目の1番目のタイトルと部分一致するかチェックし、しなかったものを抽出。
以上の手順を一生繰り返す根気があれば予想できる・・・かな?
新しく決まったものとこれらの条件がきちんと合っているか検証してみたい