動機
(要約)ただ僕が知りたくなったからです。それ以上の理由はありません。
もっと詳しく
文字化けには何種類ものパターンがあります。
UTF8のファイルをSJISで表示した時に起こる文字化け、
UTF8をEUCで表示した時に起こる文字化け、
EUCをUTF8で表示した時に起こる文字化け……。
それぞれがどんな見た目になるかはこのページなどで確認できます。
正直最近はUTF8で作業をするため、文字化けはあまり見ていません。
けれども私が新卒で入った職場ではテキストファイルの作成はSJISが基本でした。そして、UTF8のファイルをSJISで開いて文字化けを起こすことが、わりと頻繁に起きていました。
UTF8→SJISへの文字化けだとよく縺ォ蜈育函縺ィ蜻シ繧薙〒縺�縺溘ゅ□縺……
のような文字化けが発生するのですが、これを見ていると、同じ漢字が何度も何度も登場していることが分かると思います。
文字化けで出てくる漢字には偏りがある。
そのよく出てくる漢字とその意味を、ただ知りたかった……。
でも意外とそういう内容の記事って見つからないし、しょうがないから自分で書くか……。
という、私の特に何の役にも立たない些細な好奇心がこの記事を書く原動力でした。
同じ漢字ばかり出てくる理由
同じ文字ばかり出てくる理由については、去年に素晴らしい記事が書かれていたため、ここでは割愛させて頂きます。
UTF-8からSJISに文字化けすると糸偏の漢字がよく出てくる
集計方法
適当な長文をもとに、元UTF8 → SJIS表示での文字化けを発生させてファイルに保存しておき、その漢字をPythonで数え上げます。
どんなに輝かしい名文でも、一旦SJISで表示させてからUTF8として保存し直せば、見るも無残な姿に早変わりできます。この世の無常を感じずにはいられません。
長文には何をチョイスするかですが、ここではおそらくみんなが知っているであろうものを題材にしてみます。
高校の教科書に載っている夏目漱石の『こころ』と、中学校の教科書に載っている太宰治の『走れメロス』でそれぞれカウントしてみましょう。メインは『こころ』の方で、短編の『走れメロス』のランキングはオマケ程度に紹介します。
文章は青空文庫に載っているため、そこからコピペしてデータを作らせて頂きました。
プログラムは、特に何の面白みもないpythonのコードを書きました。
import re
with open('./source.txt', encoding="utf-8") as f:
s: str = f.read()
# 出てくる文字を数え上げて、その結果を辞書にする
# このとき、漢字以外の文字を除外する。つまり「ョ」とか「ケ」とかをはじく。
count_dic = {}
for char in s:
result = re.search('[一-鿐]', char)
if result is None:
# 漢字じゃないので飛ばす
continue
if char in count_dic:
count_dic[char] += 1
else:
count_dic[char] = 1
# 少ない順に出力
for k, v in sorted(count_dic.items(), key=lambda x: x[1]):
print(str(k) + ": " + str(v))
結果発表『こころ』部門
※漢検の級判定はgoo辞書で出てきたものをそのまま使っています。
第20位
出現数1049回
$\huge{遘}$
漢検1級
トップバッターからいきなり心を折ってくる難しい漢字が出ました。『こころ』のランキングの自覚はあるのでしょうか。
あう。であう。めぐりあう、という漢字です。
めぐりあうは「めぐり遘う」とも書くことができ、邂逅は邂遘とも書けるようです。
現代でこんな字を書いたら多分嫌われてしまいますね。
第19位
出現数1112回
$\huge{代}$
漢検8級
「田代まさし」の「代」。覚醒剤はだめだぞ。
第18位
出現数1190回
$\huge{荳}$
漢検1級
植物のマメ、を表す字です。確かに豆が難しくなったような見た目です。
荳角皇女(ささげのおうじょ)という継体天皇の皇女様が6世紀頃にいらっしゃったようです。
それと関係あるかは不明ですが、大角豆(ささげ)という豆は日本で古くから食べられているササゲ属の一年草です。現在、お祝い用の赤飯の大部分にはアズキが使われているのですが、昔は特にササゲが好まれて使われていました。時は江戸時代、アズキは煮ると皮が破れやすく、「腹切れする豆は切腹に通じる」として、武士の間で嫌われていました。そのため、赤飯には皮の厚いササゲが使われたとされています。今でも、ササゲの赤飯こそが真の赤飯であると主張している赤飯原理主義者の方もいらっしゃるようです。
……これはプログラミングの記事です。大丈夫です。上にPythonのコードをちゃんと書いておきました。なので消されないはずです。
第17位
出現数1201回
$\huge{莠}$
漢検1級
訓読みで「はぐさ」と読みます。稲に似ているけれども、葉ばかり伸びて実らない雑草のことだそうです。例えば、猫じゃらしとして有名なエノコログサがこれに当たります。稲っぽいけど、実らない。転じて、悪いものの例えとしても使われるようです。なので莠言(ゆうげん)というのは、有害で醜悪な言葉を指します。まぁ使いませんよねこんな熟語……。
第16位
出現数1401回
$\huge{昴}$
漢検1級
紛らわしいですが「激昂」の「昂」ではありません。「昴」は「すばる」と読みます。星です。
平安時代の清少納言は、「星はすばる。ひこぼし。ゆふづつ。よばひ星、すこしをかし」とすばるを讃えました。
風の中のすばる 砂の中の銀河 みんな何処へ行った 見送られることもなく……
第15位
出現数1493回
$\huge{峨}$
漢検準1級
文系で日本史選択だった場合は、後嵯峨天皇(ごさがてんのう)という文字を見たことがあるはずです。そうでなくても、この漢字は人名で目にするかもしれません。峨という字は、山が高くけわしいさまを表します。
第14位
出現数1512回
$\huge{翫}$
漢検準1級
翫ぶ(もてあそぶ)、翫る(むさぼる)、翫る(あなどる)と読めます。
芝翫縞(しかんじま)というのは、江戸時代に流行した着物の柄です。四本の縦縞と鐶(かん。金属の輪)をつないだ形を合わせた柄のことで、「四鐶縞」と書くのが意味的には正しかったのですが、歌舞伎役者の3代目中村歌右衛門(うたえもん)の俳号「芝翫」にちなんでこの漢字があてられたようです。
第13位
出現数1553回
$\huge{医}$
漢検8級
お客様の中にお医者様はいませんか!?
第12位
出現数1555回
$\huge{上}$
漢検10級
領収書の宛名、上様でいいよって会社ってあるんでしょうか……?
第11位
出現数1625回
$\huge{輔}$
漢検準1級
人名でよく出てくるけど意外と漢検準1級扱い。
漢検準1級の読み問題で出てくる「輔弼」は、「ほひつ」と読みます。
輔弼は天皇の行為としてなされるべき、あるいは、なされざるべきことについて進言することです。
第10位
出現数1794回
$\huge{阪}$
漢検2級
サカには「坂」と「阪」の2種類があります。理由は諸説あるようですが、文化5年(1808)刊行の『摂陽落穂集』によると、坂は分解すると「土」と「反」に分けられ「土に返る」と読めることから、縁起がよくないと忌み嫌って「阪」を用いる人がいたとされています。せやから大坂って書いたらアカンで。知らんけど。
第9位
出現数2215回
$\huge{吶}$
漢検1級
たまに小説で出てくる漢字です。吶(ども)る、と書いたりします。
彼は訥々(とつとつ)と語りだした――。訥々と語るというのは、口ごもりながら語るということです。
飾りけがなく無口なことを朴訥(ぼくとつ)と言います。
言偏の「訥」と口偏の「吶」がありますが、同じ意味のようです。
第8位
出現数2282回
$\huge{薙}$
漢検準1級
漢検準1級扱いですが、説明は不要ですね。
三種の神器「八咫鏡」「天叢雲剣(別名:草薙剣)」「八尺瓊勾玉」はオタクの義務教育です。
第7位
出現数3147回
$\huge{後}$
漢検9級
ここから後ろは出現数が跳ね上がっていきます。
第6位
出現数4078回
$\huge{溘}$
漢検1級
「溘」という字はたちまち、にわかにという意味です。
「溘焉(こうえん)として逝く」というのは、雑に言うと「突然の死!!!」です。
第5位
出現数4718回
$\huge{励}$
漢検3級
Qiitaのいいねって励みになりますよね。押してください。
第4位
出現数5831回
$\huge{九}$
漢検10級
九なのに4位。
次からは文字化けで本当によく目にする糸偏三銃士です。
第3位
出現数6656回
$\huge{縲}$
漢検1級
螺旋丸!!! ではありません。虫偏ではなく糸偏です。
「縲」は罪人をしばる縄を表す、かなりニッチな漢字です。
「縲絏(るいせつ)の辱を受けんより、寧ろ只今潔く自殺せん」〈竜渓・経国美談〉とあるように、主に「絏(せつ)」とセットで使われるようです。絏は、しばるという意味があるようです。
昭和よりも前の時代には金属の手錠なんてものはありませんから、縄で罪人を縛るわけです。江戸時代には捕手術(とりてじゅつ。素手で敵を殺さずに捕り抑える武術)の一環として捕縄術(ほじょうじゅつ/とりなわじゅつ)が盛んに用いられていました。取り押さえた敵を素早く拘束する『早縄』、形式・儀式的に用いる『本縄』、緊縛による拷問を加えるための『拷問縄』などがあり、縛る相手の身分や職業、性別、用途によってそれぞれ異なる縛り方が用意されていたらしいです。捕縄術はれっきとした武術であり、江戸時代には150もの流派があったとか……。すごい。
第2位
出現数12928回
$\huge{繧}$
漢検1級
出現回数を3位から大きく引き離して倍近くを稼ぎ出しました。
エンジニアでなくとも文字化けで何度も何度も目にしたであろうこの憎き漢字……。
繧繝(うんげん。暈繝)という言葉があります。
繧繝というのは簡単にいうと、古のグラデーションです。中国西域から伝わり、奈良・平安時代の仏画、寺院の装飾や染織などに用いられました。
そして繧繝彩色(うんげんさいしき)という色彩用語があります。具体的な絵を見た方が分かると思います。色彩検定などで出てくるらしいので、もしかしたらWebデザイナーの方の中には知っている方もいるかもしれません。参考:暈繝彩色の意味とは
正倉院の宝物、漆金薄絵盤(うるしきんぱくえのばん)というものがあるのですが、ここにわかりやすい繧繝彩色があります。
(出典:宮内庁のHP http://shosoin.kunaicho.go.jp/ja-JP/Treasure?id=0000014245 )
よく見ると、ぼかして色を重ねるのではなく、層をなすように同系統の色が重なっているでしょう? これが繧繝彩色です。
身近な例でいうと、Vueのロゴも繧繝彩色であると言えるかもしれませんね。
第1位
出現数60693回
$\huge{縺}$
漢検1級
6万回という圧倒的な出現数で他の追随を許さないスコアを稼ぎ出しました。
UTF8→SJISの文字化け界の王者に輝いたのは、糸偏三銃士最強の漢字「縺」です!
よく聞くのは「痴情の縺(もつ)れ」というように、「もつれ」を表す漢字です。
もつれは、絡み合うことです。「糸の縺れを解く」というふうに言います。
紛らわしいことに、「ほつれ」と「もつれ」の2つの言葉があります。
「解れ(ほつれ)」と「縺れ(もつれ)」というそれぞれの漢字が指すように、
解れはほどけること、縺れは絡まることなので、意味的には真逆です。注意しましょう。
舌縺れ(したもつれ)というのは、舌がからんですらすらと物が言えないことです。
具体的に言うと初対面の方と会話する時に僕のような引きこもりエンジニアはよく舌縺れします。
縺れ髪(もつれがみ)というのは、もつれた髪。乱れ髪のことです。
具体的に言うと一般的エンジニアの髪型のことです。
エンジニアにふさわしい漢字が第1位に輝きましたね!!!(やかましいわ)
結果発表『走れメロス』部門
『こころ』だけで終わらせてしまうと、上の結果は『こころ』でしか通用しないんじゃないの??? 他の文章だと全然違う結果になるんじゃないの??? と思われがちなので、念のため、他の文章でもランキングをつけてみました。ちょっと順位は変動していますが、一部を除いて概ね似たような結果になっています。
メロスは短編小説なので、テキストの量は少なめです。
41位 遘: 20回(ランク外)
32位 昴: 24回(ランク外)
22位 莠: 48回(ランク外)
―――――――――――――――
20位 譚: 54回 new!(冒険譚の譚)
19位 吶: 56回
18位 偵: 57回 new!(偵察の偵)
17位 輔: 59回
16位 荳: 63回
15位 代: 76回
14位 峨: 80回
13位 翫: 92回
12位 上: 98回
11位 阪: 98回
10位 医: 111回
9位 薙: 117回
8位 励: 149回
7位 繝: 156回 new!(繧繝(うんげん)の繝の方)
6位 溘: 222回
5位 後: 224回
4位 九: 290回
3位 縲: 753回
2位 繧: 933回
1位 縺: 2944回
2位「繧」のパートナーである**「繝」が7位にランクインしている**ところが注目の点ですね。
実は「繝」は『こころ』では172回出現の78位という不完全燃焼な結果となっていましたが、メロスではその実力を遺憾なく発揮してくれました。パートナーの飛躍に「繧」も喜びの表情を浮かべています。
実は「繝」の字は上にも貼った別の方の記事「UTF-8からSJISに文字化けすると糸偏の漢字がよく出てくる」でも紹介されているのですが、「ダチヂッツヅテデトドナニヌネノハバパヒビピフブプヘベペホボポマミムメモャヤュユョヨラリルレロヮワヰヱヲンヴヵヶ」の文字が文字化けすると出てきます。なので、「メロス」を文字化けさせると「繝。繝ュ繧ケ」みたいに「繝」の字が2回も出てきてくれるのですが、『こころ』はカタカナの割合が現在の文章に比べるとかなり少ないので、「繝」選手にとってはやや不利な戦いを強いられてしまった感は否めません。糸偏三銃士がもし糸偏四天王になるとしたら、その最弱ポジションは間違いなく「繝」選手になるでしょう。
おわりに
こ、これはぷろぐらみんぐのきじです……。ぱいそんかいてるもんね……。
文字化けした結果出てくる、なんだか恐ろしげな漢字も、調べてみたら意外と面白かったよということが伝わったら幸いです。憎き謎の漢字も、文学やら歴史やらの背景があって生きている(いた)漢字なので、あまり繧繝ちゃんのことをいじめないであげてください。