More than 5 years have passed since last update.

文字 Advent Calendar 2017

@yumetodo

Qiitadonユーザー会

Re:コンピューターで全漢字使用可に６万字コード化 #NHKしっかりして

Last updated at 2019-04-02Posted at 2017-12-24

文字 Advent Calendar 2017

この記事は文字 Advent Calendar 2017 24日目の記事です

<< 20日目|なにか || 22日目|なにか >>

過疎りすぎぃ！

はじめに

コンピューターで全漢字使用可に６万字コード化 | NHKニュース
https://www3.nhk.or.jp/news/html/20171224/k10011270111000.html

というニュースが出たが、突っ込みどころしかない。素人でもこれだけツッコミポイントがあるぞってことを示すために記事にした。

専門家の方、さらなるつっこみや、この記事に対するツッコミをお願いします！

なお以下ニュース映像のキャプチャが出てきますが、著作権法上の引用が成立していると理解しています。

なおUnicodeの異字体セレクタの概念については説明しません。異字体セレクタの検索には
異体字セレクタセレクタ (α v0.3)
https://747.github.io/vsselector/
が便利です。

外字とはUnicodeに収録されていない文字をU+E000〜U+F8FF、U+000F0000〜U+000FFFFD、U+00100000〜U+0010FFFDに割り当てて利用している文字のことです。

Unicode 10.0がISOで発行された

そもそもこのニュースは一体何の話をしているのかというと、Unicode 10.0がISOで発行されたという内容です。一文字もそれらしい言葉が出ないのでさっぱり検索可能性がない！

コンピューターで全漢字使用可に６万字コード化 https://t.co/TijiguG9YB IPAの文字情報基盤に登録されている文字が全部Unicodeに入ったという話、なんでいまニュースになってるのかは誰にもわかってない
— バル (@baru_san) 2017年12月24日

UnicodeとISO 10646の関係が分かる人にか分からない事情がある。 https://t.co/JWrflw0nsn
— 小熊善之 (@0guma) 2017年12月24日

まともな今回のニュース記事は
ISO/IEC 10646:2017発行 | yasuokaの日記 | スラド
https://srad.jp/~yasuoka/journal/617471/
で確認されたし。

つまるところ

要は半年前に発行されたUnicode 10.0のISO版が、やっと発行されたということだ。

という言葉に今回のニュースは集約される。

[追記]MJ文字集合がUnicode10.0で網羅された

文字情報基盤整備事業で扱ってるMJ文字集合(約6万字)が6月に発表されたUnicode10.0のCJK統合漢字拡張Fで網羅されたってのが一つと、今回ISO/IEC 10646:2017の改訂版が発表されてUnicode10.0の内容がISO規格としても定められた、っていうのの2つがあるってことかな
— ワトソン (@WaTTson496) 2017年12月25日

広く使われているJIS漢字は約1万字だけど、MJ文字集合は行政で用いられる戸籍統一文字(約5万6千字)と住基統一文字(約2万1千字)を含んでるから、これを網羅してるフォント(IPAmj明朝とか)を使えば、行政で困ることは無くなる、という話がまずあって、
— ワトソン (@WaTTson496) 2017年12月25日

そのMJ文字集合を国際的な文字集合の規格としてUnicodeの文字に入れるように提案してたのが、Unicode10.0及びISO/IEC 10646:2017によって今年ようやく規格化された、ということか
— ワトソン (@WaTTson496) 2017年12月25日

どうやらもう一個話題があったそうだ。つまり我々が見るべきは

プレス発表　「文字情報基盤整備事業」で推進していた漢字6万文字の国際規格化が完了：IPA 独立行政法人情報処理推進機構

のようだ。

全漢字使用可

まず「全漢字」の定義は？現在利用されているすべての漢字？だとすると6万字程度では収まらないですね。

まぁそれはそうと、"全漢字" 使用可っての、だいぶ語弊があるよね。(ここまで書いて) 語弊があるどころか、登記統一文字で実際に複数の法人名に用例があるような字でも収録から外れてたり云々。
— Tsukasa #01 [要出典] (@a4lg) December 24, 2017

ウチにUnicode外の地名漢字用例つきで山ほどあるんだがー？
— ひめ＠女体化したい (@sarasvati635) December 24, 2017

追記

MJ文字集合のことを言いたいっぽい。

邉󠄂 (U+9089 U+E0102)

この文字ですね。手元の環境だとうまいこと表示してくれないんですが。

Unicode 10.0関係ないですね。しかもすでに存在しているので外字でもない。

ところで異字体セレクタがU+E0102とU+E0114の区別がつかないんですが、何が違うんです・・・？

フォント作成の話と文字コード関係ない

フォント作成の話と文字コード関係ないですよね？

髙(U+9AD9)と𠮷(U+20bb7)と廣󠄁(U+5EE3 U+E0101)

髙はCJK統合漢字としてU+9AD9にあります。

サロゲートペアの例として散々あちこちで使われている𠮷はUnicode3.2からU+20bb7にあります。

廣󠄁はU+5EE3の異字体セレクタがU+E0101として登録されています。

いずれもUnicode 10.0関係ないですね。しかもすでに存在しているので外字でもない。

コード

コードってなんぞ？codepointのことか？

当初日本語の漢字は約1万字のみだった

それ本当ですか・・・？

インターネットと漢字 3/4

BMP外への拡張

　日本は統合漢字の継続的なメンテナンスの保証をもとめ、国際的に承認された。メンテナンスにはIRG（Ideographic Rapporter Groupe、漢字連絡会）があたることになった。

　中国は1万字の漢字追加を提案したが、そのスペースにはハングル完成形（注14）を収録することになってしまったので、まとまった空きとしてはハングルのはいっていた6千500字余のスペースしか残っていなかった。中国は1万字追加に固執したが、漢字合成の可能性を検討するという条件で妥協がはかられ、追加字数は1万字から6千500字余に圧縮された。これが後の拡張Aの原形である。

Unicodeで1万なんて数字、これくらいしか私は聞いたことがないんですが、有識者の方、コメントお待ちしています。

CJK統合漢字はUnicode1.1では20,902字だったそうです。

追記

@wakufactory さんより情報提供。

1万字というのは、JIS X 0213の漢字だけ10050文字のことだと思います。

えっ。我々はUnicodeの話をしていたはずでは・・・。このNH(ry！

なんか、このAdCの22日目、
髙﨑さん、草彅さん、𠮷田さん、あなたの名前はこうして化ける
の話と混ざっている感有りますね・・・。

15年掛けてIPAと経産省が

15年というのはいつからいつですかね・・・？

Unicode1.1が1993年、Unicode10.0が今年2017年なんですが・・・。

追記

上でも書いたように、MJ文字集合のことを言いたいんだろう。しかし
第1回文字情報基盤ワーキンググループ | 文字情報基盤整備事業
に記載されている沿革によれば

http://mojikiban.ipa.go.jp/contents/pdf/2013/20130919_1ki_s2.pdf

行政情報化推進基本計画平成６年12月25日閣議決定
e-Japan 戦略 II 平成１５年７月２日IT戦略本部決定
電子政府構築計画2003年平成15年7月17日各府省CIO連絡会議決定

とあり、どれとも合わない。

プレス発表　「文字情報基盤整備事業」で推進していた漢字6万文字の国際規格化が完了：IPA 独立行政法人情報処理推進機構
IPAでは、内閣官房IT総合戦略室、経済産業省と共に、「文字情報基盤整備事業」を2010年9月より推進してきました。この事業は、行政の実務で求められる人名や地名等の正確な表記をコンピュータで可能にするため、約6万文字の漢字について、文字フォントの整備や文字コードの国際規格化等を行ってきたものです。なお、国際規格化にあたっては、一般社団法人情報処理学会情報規格調査会SC2専門委員会と連携し、順次進めてきました。

12月22日（日本時間）、文字コード国際規格書の最新版である、ISO/IEC 10646 (Universal Coded Character Set) 第5版がISO（国際標準化機構）より発行されたことが判りました。これにより、整備してきた約6万文字の漢字全ての国際規格化が完了したことになります。その結果、これら約6万文字全てをコンピュータで使用する際、統一的な文字コードで扱うことができるようになりました。

プレリリース見てもやっぱり合わない。

それともなにか？同プレリリースの

また、IPAでは現在、戸籍等の業務で必要となる「変体仮名(*2)」の国際規格化も進めており、前述の国際規格書の追補版として2018年3月末までに発行される見込みです。

より、「e-Japan 戦略 II 平成１５年７月２日IT戦略本部決定」からその2018年3月末の15年だとでも言うのかい？NHKさん、未来に生きちゃいないだろうか・・・

更に追記

@kazatsuyu さんより情報提供。

Unicode - Wikipedia#各バージョンとその特徴

| 制定年月日 | バージョン番号 | 収録文字数 | 概要 | 日本語における主要な追加文字 |
|------------|-------------------|------------|---------------------------------------|------------------------------|
| 2002年3月 | Unicode 3.2.0[17] | 95,221 | ISO/IEC 10646-1:2000の追補Amd.1に対応 | JIS X 0213（正式対応） |
| 2017年6月20日 | Unicode 10.0.0[33] | 136,690 | | 変体仮名285文字追加 |

多分、この15年のことでしょうね。

さらに追記

と思ったら違った。

@mashabow 氏の情報提供によれば

文字情報基盤整備事業の前身に汎用電子情報交換環境整備プログラムというのがありまして、これが2002年（平成14年）スタートです。なので、これを含めると15年になります。

https://www.jstage.jst.go.jp/article/johokanri/55/3/55_147/_html/-char/ja
http://www.ninjal.ac.jp/archives/hanyo/

だとか。わかるかーーーー！なんで文字情報基盤整備事業の沿革のところにその文字がないんだ！

行政の効率化

全漢字使用可でも述べたので割愛

まとめ

NHKしっかりして！

License

CC BY 4.0

You get articles that match your needs
You can efficiently read back useful information
You can use dark theme

What you can do with signing up

Re:コンピューターで全漢字使用可に ６万字コード化 #NHKしっかりして

文字 Advent Calendar 2017

はじめに

Unicode 10.0がISOで発行された

[追記]MJ文字集合がUnicode10.0で網羅された

全漢字使用可

邉󠄂 (U+9089 U+E0102)

フォント作成の話と文字コード関係ない

髙(U+9AD9)と𠮷(U+20bb7)と廣󠄁(U+5EE3 U+E0101)

コード

当初日本語の漢字は約1万字のみだった

BMP外への拡張

15年掛けてIPAと経産省が

行政の効率化

まとめ

License

Re:コンピューターで全漢字使用可に６万字コード化 #NHKしっかりして