タイトルが全てです。
個々のパーツとしてはありふれた部品なのに、合体させると「存在しない漢字」になる組み合わせは一体何なのか調べてみました。
※この記事は TSG Advent Calendar 2022 の14日目の記事です。
手法
以下の手順で「ありそうで存在しない漢字」を調べることにしました。
- すでに存在する漢字を構成する部品を調査する
- 出現回数が多い部品どうしを組み合わせ新たな漢字を作る
- 構成する部品の出現頻度から、それぞれの組み合わせの「ありそう度」をスコア付けする
- スコアが最も高いものを「最もありそうで存在しない漢字」とする
CHISE 漢字構造情報データベースは、Unicodeに収録されている全漢字を含むさまざまな漢字の部品構造をデータベース化したオープンデータです。今回はこちらのデータを利用して調査を行うことにしました。
頻出部品を調査する
UnicodeのCJK統合漢字から拡張を除いた20,976字は、Unicodeに収録されている漢字の中で最も基本的な文字群が含まれるブロックです。この20,976字の漢字構造を調査し、漢字の構造として頻出する部品をランク付けしました。
なお、今回は左右に分割できる字形、つまりいわゆる「へん」と「つくり」の構造を持つものに限定して調査しています。 (20,976字のうち14,485字が左右に分割できる字形で、もちろん最多)
左側頻出部品
部品 | 出現回数 |
---|---|
氵 | 1028 |
木 | 871 |
扌 | 696 |
金 | 650 |
口 | 623 |
亻 | 601 |
女 | 413 |
忄 | 403 |
糸 | 377 |
言 | 374 |
虫 | 369 |
土 | 359 |
火 | 344 |
月 | 320 |
王 | 318 |
石 | 306 |
魚 | 275 |
钅 | 244 |
𧾷 | 232 |
衤 | 225 |
右側頻出部品
部品 | 出現回数 |
---|---|
鳥 | 240 |
⻖ | 174 |
刂 | 136 |
頁 | 122 |
力 | 83 |
欠 | 83 |
攵 | 71 |
鸟 | 69 |
見 | 62 |
隹 | 54 |
页 | 48 |
皮 | 44 |
斤 | 41 |
殳 | 40 |
令 | 39 |
各 | 39 |
且 | 36 |
瓦 | 34 |
羽 | 34 |
分 | 33 |
「ありそう度」のスコア付け
これらの出現頻度のデータを用いて、部品の組み合わせの「ありそう度」をスコア付けすることにします。
スコアは、tf-idfのidfにならい、出現頻度の対数を取ったものとします (出現頻度の逆数の対数が「珍しさ」なので、それを正負反転したものを「非珍しさ」とした。つまり出現頻度の対数)。左右それぞれの部品についてスコアを計算し、それを乗算したものを組み合わせ全体の「ありそう度」とすることにします。
これをもとに左右の部品の組み合わせを生成したものをスコアの高い順に並べると、以下のような結果になります。
IDS | Score |
---|---|
⿰氵⻖ | 35.78 |
⿰木⻖ | 34.92 |
⿰氵刂 | 34.07 |
⿰扌⻖ | 33.77 |
⿰金⻖ | 33.42 |
⿰口⻖ | 33.20 |
⿰亻⻖ | 33.01 |
⿰木頁 | 32.52 |
⿰言鳥 | 32.47 |
⿰扌頁 | 31.44 |
というわけで、最も「ありそうで存在しない漢字」は以下の漢字に決定しました!
⋯⋯といきたいところですが、一つ問題があります。はたしてこの漢字は「ありそうな漢字」でしょうか。そうは感じない人が多いのではないかと思います。
この文字に限らず、スコアが上位の組み合わせのほとんどが「漢字っぽくない」形をしています。これはなぜでしょうか?
「ありそう度」のスコア付けアルゴリズムの修正
このようになる理由として、漢字には「部首といえる部分が1つしか存在しない」という特徴があるためだと考えました。
「氵」も「⻖」も、どちらも「部首」といえる漢字の部品の一つです。それぞれ単体で見ると出現頻度が高いものの、2つを組み合わせると「2つ部首がある漢字」になってしまい、見慣れない形になってしまうのではないかと思われます。
これを回避するためには、単純な「左側」と「右側」の分割として漢字を組み合わせるのではなく、「部首」と「非部首」の組み合わせを作る必要があると思われます。
今回はとりあえず、左側に部首が来るもの、つまり「偏」としての部首を持つものを対象とします (そのほうが多いと思われるため)。そのために、左側に出現する部品の上位30件をまず抽出し、それぞれの部品が左に来る場合に右側に頻出する部品を抽出してみました。 すると、以下のような結果になりました。
部品 | 出現回数 |
---|---|
令 | 27 |
隹 | 25 |
句 | 24 |
各 | 24 |
肖 | 24 |
堯 | 24 |
需 | 24 |
且 | 23 |
交 | 23 |
分 | 22 |
台 | 22 |
皮 | 22 |
兆 | 22 |
至 | 22 |
同 | 22 |
卒 | 22 |
青 | 22 |
俞 | 22 |
翏 | 22 |
粦 | 22 |
さきほどの「右側に頻出する部品」のリストとはがらっと違う結果となりました。こちらの出現頻度ランキングのほうが妥当性の高いランキングだと思われるので、こちらのデータを使用してあらためてスコア付けを行ってみました。
最終結果
というわけで、最終結果です。今回の調査の結果、「最もありそうで存在しない漢字」は⋯⋯
となりました!
さきほどの字よりもかなり「ありそう」な漢字ですが、調査した限り用例は見つかりませんでした。
なお、この字に準じてスコアが高かったのは以下の文字たちです。
どれもかなり存在しそうな見た目で、面白いですね!
※これらの漢字の用例をご存じの方はぜひ Twitter @hakatashi までご一報ください。
→@JUMANJIKYOさんのツイートより、「⿰女各」に関しては用例があるようです (参考1、参考2)
→「⿰口兑」は普通にUnicodeにありました (哾)。異体字形の考慮漏れと思われます
※字形画像の生成にはGlyphWikiを利用させていただきました。ありがとうございます。
ところで、この調査には何の意味があるの?
おまけ: 「ありそうで存在しない」スコア上位50件
※2023/01/02更新: 漢字の重複判定にバグがあったため修正
IDS | Score |
---|---|
⿰女各 | 19.14 |
⿰火句 | 18.56 |
⿰亻犮 | 18.49 |
⿰言粦 | 18.31 |
⿰口兑 | 18.23 |
⿰亻雚 | 18.13 |
⿰女乞 | 18.04 |
⿰虫争 | 18.00 |
⿰木㐱 | 17.87 |
⿰口肙 | 17.84 |
⿰氵易 | 17.79 |
⿰火今 | 17.78 |
⿰亻睪 | 17.74 |
⿰女屯 | 17.74 |
⿰忄朱 | 17.66 |
⿰钅堯 | 17.47 |
⿰糸登 | 17.47 |
⿰石召 | 17.43 |
⿰石夋 | 17.43 |
⿰石者 | 17.43 |
⿰女艮 | 17.41 |
⿰虫真 | 17.40 |
⿰木内 | 17.36 |
⿰魚俞 | 17.36 |
⿰亻蒦 | 17.33 |
⿰土失 | 17.32 |
⿰氵㚇 | 17.23 |
⿰糸平 | 17.15 |
⿰言夌 | 17.12 |
⿰金尧 | 17.09 |
⿰金詹 | 17.09 |
⿰女盧 | 17.07 |
⿰钅卒 | 16.99 |
⿰火氐 | 16.88 |
⿰火艮 | 16.88 |
⿰火夌 | 16.88 |
⿰木臽 | 16.82 |
⿰扌責 | 16.79 |
⿰扌内 | 16.79 |
⿰言卷 | 16.78 |
⿰言盧 | 16.78 |
⿰虫僉 | 16.75 |
⿰虫敫 | 16.75 |
⿰衤台 | 16.74 |
⿰衤粦 | 16.74 |
⿰钅夋 | 16.74 |
⿰钅昜 | 16.74 |
⿰女童 | 16.70 |
⿰女付 | 16.70 |
⿰月文 | 16.67 |