異体字の世界 サイトウ
こんにちは。オープンロジの @ykhirao です。こちらは OPENLOGI Advent Calendar 2019 4日目の記事になります。
内容については、以前 pͪoͣnͬpͣoͥnͭpͣa͡inͥを支える技術 - Qiita という記事を書かせてもらったので、その続きでまた文字コードを扱った記事を書いていきたいと思います。どうぞ最後までよろしくお願いします!!
長いので結論
戸籍統一文字情報では 斎藤
と 斉藤
は別の漢字として扱われているので、「サイトウさん、漢字はどのように書くのですか…?」と聞いたほうが無難な気がします。 ただ 斎藤
って書くと 62.2%
正解で、 斉藤
と書くと 30.3%
正解になります。
漢字 | 戸籍数(たぶん) | % |
---|---|---|
斎藤 | 150494 | 62.2 |
斉藤 | 73424 | 30.3 |
齋藤 | 17071 | 7.1 |
齊藤 | 1111 | 0.5 |
合計: | 242100 | 100 |
また法務省によると、旧自体と新字体が乗っていますので、
# 法務省
齋藤 → (新字体) → 斎藤
齊藤 → (新字体) → 斉藤
ここも考慮すると 斎藤
と書くと 69.3%
正解で、 斉藤
と書くと 30.7%
正解になります。
また子供のころに 斎
が難しかったので 斉
と書いていたケースも考えると、この二つの差は少し縮まりまるかもしれません。
とりあえず確立論的には 斎
と書けば…なんとなく、あたるかも…しれない?
(ちゃんと本人に確認とりましょう!!!)
拝啓 斎藤さん
先日エンジニアとしてサイトウさんが入社したときに「サイトウのサイってどう書きますか…? Unicodeで教えてください。」という、いつものあれが発生したのでそろそろサイトウについて理解してみようと思いました。
また以前に 『異体字の世界”ワタナベ”』| 漢検 漢字博物館・図書館 [漢字ミュージアム] というイベントがあったのでタイトルはそこから来ています。(展示にはいけてません…)
周辺知識編
Wikipedia
(ここから クリエイティブ・コモンズ CC-BY-SA 3.0 のライセンス)
Wikipediaで一つの項目となっているのは 斎藤
と 斉藤
のみみたいです
この2つのWikipediaで重要なことは、 斎藤
は 「斎宮頭を務めた藤原氏」の略
で、 斉
についてはただの誤記説 (「斉」の文字に本来「さい」の読みがないことから斎藤の誤記が由来と言われる)
が濃厚みたいです。
また法務省で定められている漢字としては、以下のように落ち着いているみたいです。
旧字体 | 新字体 |
---|---|
齋 | 斎 |
齊 | 斉 |
(ここまで クリエイティブ・コモンズ CC-BY-SA 3.0 のライセンス)
ですので、現状 斉
は 斎
の新字体ではないので、小学生のときに「簡単な方」として書いていたケースを除いて、斉
は 斎
2種類別の漢字として扱われているので正式な文章を書くときは2種類だけ気をつけたらよさそうです。
(ここから クリエイティブ・コモンズ CC-BY-SA 3.0 のライセンス)
また斎藤のページ によると、斎の派生は31種類あるみたいで、画像がはられています。
// 画像の注釈として
「斉藤」または「斎藤」の一文字目に使用される異体字はあわせて31種類あると言われている。
とありますが、それは後ほど出てくる 高信幸男氏
による調査による "西藤","西塔","才藤","済藤","西頭","西等","佐井藤","再藤"
なども含んだ話なので、はられている画像と説明が食い違っているように思えます。が一旦は無視します。
また31種以外にも この他に例えば埼玉県の電話帳には齋の字の亠の下が刀丫氏の並びになっている齋藤姓が確認出来る。
との記載があり、どんどん派生しているのかもしれません。
(ここまで クリエイティブ・コモンズ CC-BY-SA 3.0 のライセンス)
TBSテレビ『この差って何ですか?』
また 「斎藤」「斉藤」「齋藤」「齊藤」・・この差って何? | 東洋経済オンライン で 名字研究家 高信幸男氏
からの情報がまとめられてますが、法務省が定めた見解とは少し違っていて
明治時代になると(略)国民全員に名字(略)多くの庶民が役所に行き、名字を申請した(略)
(中略)
役人はそれぞれ思い思いの「サイトウ」を書いてしまった(略)
具体的には「齋藤」は旧字体で書いてしまったパターンで、「齊藤」は旧字体の書き間違い。そして「斉藤」は本来の「斎藤」の書き間違い、というのだ。
とあるので、 斉
の派生は 斎
としているところが面白いです。
# 法務省
齋 → 斎
齊 → 斉
# 高信幸男氏
齋 → (書き間違い) → 齊
↓
↓ (新字体)
↓
斎 → (書き間違い) → 斉
真実はいつも一つだと思いますが、文明開化の音とともに闇に消え去ったと思います。
また「サイトウ」と読む姓が31種類存在しているみたいで、人数の多い順に ["斎藤","斉藤","齋藤","齊藤","西藤","西塔","才藤","済藤","西頭","西等","佐井藤","再藤"]
となっています。
三省堂 ことばのコラム
第78回 「斎」と「齋」 | 人名用漢字の新字旧字(安岡 孝一) | 三省堂 ことばのコラム によると 示
の横棒の長さの揺れが出生届を出すときにすごく揺れていたみたいで、平成22年11月30日 に正式に 改定常用漢字表
で今の 斎
になったみたいです。結構最近ですね。
漢字とは面白いですね。
調査と終えて今後の記事の目標
- 斎という31字のユニコード特定
以上踏まえてコードなどを追っていきましょう。
Unicodeを特定する
Google 日本語入力から探す
サイトウ
で変換できたそれっぽい字。(さんずいを除くと5字見つかった)
斎
斉
齋
齊
齎
済
濟
元の漢字 | JS CODE | UTF-16 コード(10進数) | (16進数) |
---|---|---|---|
斎 | '斎'.charCodeAt(0) | 25998 | 658E |
斉 | '斉'.charCodeAt(0) | 25993 | 6589 |
齋 | '齋'.charCodeAt(0) | 40779 | 9F4B |
齊 | '齊'.charCodeAt(0) | 40778 | 9F4A |
齎 | '齎'.charCodeAt(0) | 40782 | 9F4E |
済 | '済'.charCodeAt(0) | 28168 | 6E08 |
濟 | '濟'.charCodeAt(0) | 28639 | 6FDF |
// MACだと command + alt + i で開発ツールが開くのでConsoleなどで試してください。
$ '斎'.charCodeAt(0)
25998
$ String.fromCharCode(25998)
"斎"
$ String.fromCharCode(0x658E)
"斎"
10進法でいうと 25998
と 40779
のあたりに サイ
が固まってそうな雰囲気がしますね。
Unicodeと漢字をマッピングしてくれるサイトを探す
グリフウィキに登録されているグリフデータおよび記事は、誰もが自由に利用できることとします。あらゆる改変の有無に関わらず、また商業的な利用であっても、自由に利用、複製、再配布することができます。著作者表示も特に制限を設けません。新しいフォントのベースデータとして用いることや、そのままコピーしたものをフォントとして著作物とすることを妨げません。記事中に引用されている部分については、グリフウィキには著作権はありませんので引用元のライセンスを確認してください。
とても使いやすそうなライセンスなのでこのページをメインで調べてみようと思う。
グリフウィキを広めてください
登録されているグリフの画像やフォントをどんどん利用してください。画像やフォントに直接リンクを張ってもかまいません。またグリフウィキの存在をクチコミでみんなに広めてください。
またグリフウィキさんを広めるのは正義みたいなので、、私の代わりに使ってくれ。画像への直リンク可みたいなので使うことにする。
先程の 斎
へのリンクを確認する限り、Unicodeとして定義されているのは、さきほどあげた5種類の サイ
だけなのではないかと思い初めてきた…。その他は 法務省
が規定する戸籍関連の字とか、中国語字体とか…なんかそういうのも含めている気がする。
斎
の異体字・関連文字データ抽出する
// データ作成
const td = document.querySelector('body > div.right_pane > div.right_body > div:nth-child(15) > table > tbody > tr:nth-child(2) > td:nth-child(3)')
const arr = [...td.querySelectorAll('a>img')]
arr.map(x => `${x.parentNode.href}\t${x.parentNode.innerText.trim()}`).join('\n')
arr.map(x => x.src).join('\n')
斎 u658e
の異体字は32個登録されていて、右月になっている u9f4b-02
の系統の u9f4b-02
u9f4b-02-var-001
u9f4b-02-var-002
u9f4b-02-var-003
の4つを除き、 斎 u658e
の一文字足すと、29個確認された。
そして残念ながらこれらの字体は、ほとんどがUnicodeには登録されていなくて
[異体字(常用漢字表)]
[異体字(戸籍統一文字)]
[異體字(民國教育部)]
[異體字(漢語大字典)]
[関連字(JIS X 0212)]
などに定義されているみたいである。
koseki-548960
となっている文字の正確な情報は 法務省の戸籍統一文字情報
http://kosekimoji.moj.go.jp/kosekimojidb/mjko/PeopleTop/EXECUTE から探すことになる。
もしくは後術する MJ文字情報検索システム | 独立行政法人 情報処理推進機構 - IPA から探す。
斉
の異体字・関連文字データを抽出する
とりあえず関連データを引っ張ってきた。少なかったのといろいろあって手作業。
コード | サイトリンク | 画像 |
---|---|---|
u6589 | https://glyphwiki.org/wiki/u6589 | |
u658a | https://glyphwiki.org/wiki/u658a | |
u4e9d | https://glyphwiki.org/wiki/u4e9d | |
u9f4a | https://glyphwiki.org/wiki/u9f4a | |
u2bfed | https://glyphwiki.org/wiki/u2bfed | |
u2d918 | https://glyphwiki.org/wiki/u2d918 | |
u2ebbc | https://glyphwiki.org/wiki/u2ebbc |
unicodeにありそうな上4つを見てみた。下3つは桁が一つ多い…?
String.fromCharCode(0x6589)
"斉"
String.fromCharCode(0x658a)
"斊"
String.fromCharCode(0x4e9d)
"亝"
String.fromCharCode(0x9f4a)
"齊"
String.fromCharCode(0x2bfed)
MJ文字情報検索システム | 独立行政法人 情報処理推進機構 - IPA
良い感じのサイトを見つけた。
IPAが文字情報を統一的に調べられるようにしている。信頼できそう。
なんとなく細かいところを比べてみる
斎 の異体字・関連文字データ抽出する
で抽出したデータの細かいところを見ていきましょう。
コード | 画像 | 冠 | 左 | 真ん中 | 右 | 下 |
---|---|---|---|---|---|---|
u9f4b | ①普通の鍋蓋 | 刀 | Y | ①氏みたいなやつ | ① 示で上が左右くっついている、下はねなし | |
u9f4b-itaiji-001 | ②ちょんと鍋蓋 | 刀 | 了 | ① | ② 普通の示、下はねあり | |
u9f4b-j | ① | 刀 | Y | ① | ① | |
u9f4b-ue0101 | ① | 刀 | 了 | ① | ① | |
u9f4b-var-001 | ① | 刀 | Y | ① | ⑤ ①の下跳ねあり版 | |
u9f4b-var-002 | ① | 刀 | Y | ① | ③ ①の示すに見せかけて右側がくっついてない | |
u9f4b-var-003 | ① | 刀 | Y | ① | ④ ③の小の下がはねてない | |
u9f4b-var-004 | ① | 刀 | Y | ① | ② | |
u9f4b-var-005 | ① | 刀 | Y | ① | ⑥ ①で上の右側だけくっついてない | |
jmj-059306 | ① | 夕 | 了 | ① | ⑤ | |
juki-ad38 | ① | 刀 | 了 | ②氏のパート2 | ② | |
juki-ad39 | ① | 夕 | 了 | ① | ② | |
juki-b720 | ① | 刀 | Y | ① | ⑦ ②の下はねなし版 | |
koseki-548960 | ① | 刀 | 了 | ① | ② | |
toki-01001950 | ① | 冫 | 了 | ① | ⑦ | |
toki-01066230 | ① | 刀 | Y | ① | ② | |
u2ff5-u2ff3-u4ea0-u6c36-cdp-89c6-u5c0f | ① | 水と永の間 | 水と永の間 | 水と永の間 | ① | |
zihai-014137 | ② | 刀 | Y | ① | ⑧ 丙みたいなやつ | |
zihai-014217 | ② | 刀 | Y | ① | ⑨ 米 | |
zihai-014218 | ② | 刀 | Y | ① | ⑨ | |
zihai-014223 | ② | 刀 | マ | ① | ⑨ | |
hkcs_m9f4b | ① | 刀 | Y | ① | ① | |
hkcs_u9f4b | ② | 刀 | Y | ① | ⑩ ①と②の中間くらい |
作っている途中(23:11)で力ついて途中適当になりました。なんか雰囲気たくさん種類あるんだなーーーくらいに思っておいて、正確さは求めないでください。
まとめ
長い記事を読んでいただきありがとうございました!!!
サイトウは誤字から生まれたのはちょっとおもしろかったです。w
お疲れ様でした。!!!
.