Edited at
文字Day 24

Re:コンピューターで全漢字使用可に 6万字コード化 #NHKしっかりして


文字 Advent Calendar 2017

この記事は文字 Advent Calendar 2017 24日目の記事です

<< 20日目|なにか || 22日目|なにか >>

過疎りすぎぃ!


はじめに

コンピューターで全漢字使用可に 6万字コード化 | NHKニュース

https://www3.nhk.or.jp/news/html/20171224/k10011270111000.html

というニュースが出たが、突っ込みどころしかない。素人でもこれだけツッコミポイントがあるぞってことを示すために記事にした。

専門家の方、さらなるつっこみや、この記事に対するツッコミをお願いします!

なお以下ニュース映像のキャプチャが出てきますが、著作権法上の引用が成立していると理解しています。

なおUnicodeの異字体セレクタの概念については説明しません。異字体セレクタの検索には

異体字セレクタセレクタ (α v0.3)

https://747.github.io/vsselector/

が便利です。

外字とはUnicodeに収録されていない文字をU+E000〜U+F8FF、U+000F0000〜U+000FFFFD、U+00100000〜U+0010FFFDに割り当てて利用している文字のことです。


Unicode 10.0がISOで発行された

そもそもこのニュースは一体何の話をしているのかというと、Unicode 10.0がISOで発行されたという内容です。一文字もそれらしい言葉が出ないのでさっぱり検索可能性がない!

まともな今回のニュース記事は

ISO/IEC 10646:2017発行 | yasuokaの日記 | スラド

https://srad.jp/~yasuoka/journal/617471/

で確認されたし。

つまるところ


要は半年前に発行されたUnicode 10.0のISO版が、やっと発行されたということだ。


という言葉に今回のニュースは集約される。


[追記]MJ文字集合がUnicode10.0で網羅された

どうやらもう一個話題があったそうだ。つまり我々が見るべきは

プレス発表 「文字情報基盤整備事業」で推進していた漢字6万文字の国際規格化が完了:IPA 独立行政法人 情報処理推進機構

のようだ。


全漢字使用可

まず「全漢字」の定義は?現在利用されているすべての漢字?だとすると6万字程度では収まらないですね。


追記

MJ文字集合のことを言いたいっぽい。


邉󠄂 (U+9089 U+E0102)

image.png

邉󠄂

この文字ですね。手元の環境だとうまいこと表示してくれないんですが。

Unicode 10.0関係ないですね。しかもすでに存在しているので外字でもない。

ところで異字体セレクタがU+E0102U+E0114の区別がつかないんですが、何が違うんです・・・?


フォント作成の話と文字コード関係ない

image.png

フォント作成の話と文字コード関係ないですよね?


髙(U+9AD9)と𠮷(U+20bb7)と廣󠄁(U+5EE3 U+E0101)

image.png

髙はCJK統合漢字としてU+9AD9にあります。

サロゲートペアの例として散々あちこちで使われている𠮷はUnicode3.2からU+20bb7にあります。

廣󠄁はU+5EE3の異字体セレクタがU+E0101として登録されています。

廣󠄁

いずれもUnicode 10.0関係ないですね。しかもすでに存在しているので外字でもない。


コード

image.png

コードってなんぞ?codepointのことか?


当初日本語の漢字は約1万字のみだった

image.png

それ本当ですか・・・?


インターネットと漢字 3/4


BMP外への拡張

 日本は統合漢字の継続的なメンテナンスの保証をもとめ、国際的に承認された。メンテナンスにはIRG(Ideographic Rapporter Groupe、漢字連絡会)があたることになった。

 中国は1万字の漢字追加を提案したが、そのスペースにはハングル完成形(注14)を収録することになってしまったので、まとまった空きとしてはハングルのはいっていた6千500字余のスペースしか残っていなかった。中国は1万字追加に固執したが、漢字合成の可能性を検討するという条件で妥協がはかられ、追加字数は1万字から6千500字余に圧縮された。これが後の拡張Aの原形である。


Unicodeで1万なんて数字、これくらいしか私は聞いたことがないんですが、有識者の方、コメントお待ちしています。

CJK統合漢字はUnicode1.1では20,902字だったそうです。


追記

@wakufactory さんより情報提供。


1万字というのは、JIS X 0213の漢字だけ10050文字のことだと思います。


えっ。我々はUnicodeの話をしていたはずでは・・・。このNH(ry!

なんか、このAdCの22日目、

髙﨑さん、草彅さん、𠮷田さん、あなたの名前はこうして化ける

の話と混ざっている感有りますね・・・。


15年掛けてIPAと経産省が

image.png

15年というのはいつからいつですかね・・・?

Unicode1.1が1993年、Unicode10.0が今年2017年なんですが・・・。


追記

上でも書いたように、MJ文字集合のことを言いたいんだろう。しかし

第1回 文字情報基盤ワーキンググループ | 文字情報基盤整備事業

に記載されている沿革によれば


http://mojikiban.ipa.go.jp/contents/pdf/2013/20130919_1ki_s2.pdf

image.png


  • 行政情報化推進基本計画 平成6年12月25日閣議決定

  • e-Japan 戦 略 II 平成15年7月2日IT戦略本部決定

  • 電子政府構築計画2003年 平成15年7月17日各府省CIO連絡会議決定


とあり、どれとも合わない。


プレス発表 「文字情報基盤整備事業」で推進していた漢字6万文字の国際規格化が完了:IPA 独立行政法人 情報処理推進機構

IPAでは、内閣官房IT総合戦略室、経済産業省と共に、「文字情報基盤整備事業」を2010年9月より推進してきました。この事業は、行政の実務で求められる人名や地名等の正確な表記をコンピュータで可能にするため、約6万文字の漢字について、文字フォントの整備や文字コードの国際規格化等を行ってきたものです。なお、国際規格化にあたっては、一般社団法人 情報処理学会 情報規格調査会SC2専門委員会と連携し、順次進めてきました。

 12月22日(日本時間)、文字コード国際規格書の最新版である、ISO/IEC 10646 (Universal Coded Character Set) 第5版がISO(国際標準化機構)より発行されたことが判りました。これにより、整備してきた約6万文字の漢字全ての国際規格化が完了したことになります。その結果、これら約6万文字全てをコンピュータで使用する際、統一的な文字コードで扱うことができるようになりました。


プレリリース見てもやっぱり合わない。

それともなにか?同プレリリースの


また、IPAでは現在、戸籍等の業務で必要となる「変体仮名(*2)」の国際規格化も進めており、前述の国際規格書の追補版として2018年3月末までに発行される見込みです。


より、「e-Japan 戦 略 II 平成15年7月2日IT戦略本部決定」からその2018年3月末の15年だとでも言うのかい?NHKさん、未来に生きちゃいないだろうか・・・


更に追記

@kazatsuyu さんより情報提供。


Unicode - Wikipedia#各バージョンとその特徴

制定年月日
バージョン番号
収録文字数
概要
日本語における主要な追加文字

2002年3月
Unicode 3.2.0[17]
95,221
ISO/IEC 10646-1:2000の追補Amd.1に対応
JIS X 0213(正式対応)

2017年6月20日
Unicode 10.0.0[33]
136,690

変体仮名285文字追加

多分、この15年のことでしょうね。


さらに追記

と思ったら違った。

@mashabow 氏の情報提供によれば


文字情報基盤整備事業の前身に汎用電子情報交換環境整備プログラムというのがありまして、これが2002年(平成14年)スタートです。なので、これを含めると15年になります。

https://www.jstage.jst.go.jp/article/johokanri/55/3/55_147/_html/-char/ja

http://www.ninjal.ac.jp/archives/hanyo/


だとか。わかるかーーーー!なんで文字情報基盤整備事業の沿革のところにその文字がないんだ!


行政の効率化

image.png

全漢字使用可でも述べたので割愛


まとめ

NHKしっかりして!


License

CC BY 4.0

CC-BY icon.svg