NIST Special Database 19 (以下のページ)についてのメモ。
https://www.nist.gov/srd/nist-special-database-19
ISOと言えばISO9001や14001を指すと思い込んでしまうのと同様に、NISTと言えばセキュリティ関連の用語だと思いがちですが(私だけかな)、そもそもNISTは、アメリカ国立標準技術研究所(National Institute of Standards and Technology)の略だそうです。
そしてこのページは、手書き文字のデータベースでした。
NIST Handprinted Forms and Characters Database
手書きの文書と文字認識のためのNISTのトレーニング資料で、 3600人 分の手書きの帳票、そこから分離した 81万文字 の画像、それらの画像の分類、データ収集のための参照フォーム、および画像の管理と処理のためのソフトウェアユーティリティを公開しているとのことです。
以下原文
Special Database 19 contains NIST's entire corpus of training materials for handprinted document and character recognition. It publishes Handprinted Sample Forms from 3600 writers, 810,000 character images isolated from their forms, ground truth classifications for those images, reference forms for further data collection, and software utilities for image management and handling.
2016年9月の第2版(2nd Edition – September 2016)と1995年3月の第1版(1st Edition - March 1995)がダウンロード可能のようですね。
内容については、Users' Guide へのリンクが用意されています。
Users' Guide には、hsf4は高校生が書きました、他は国勢調査局の従業員の文字ですよ、などが、記載されていますね。
また、手書き文字を収集するために使った様式や、hsf_page、by_writeなどの分類をどのように行っているか、の記載もあります。
by_merge は、大文字と小文字の区別がつきにくい文字(例えばWとw)は、同じグループにまとめましたよ、ということが書かれていたりもします。なるほどなー
とりあえず大量の数字とアルファベットの文字データが欲しい時は、ここにあるということみたいです。
参考:なお、それを基に、画像データセットを整備したのが、MNIST、EMNISTというものだそうです。
例えばatmarkitのMNISTの記事はこちら。
MNIST:手書き数字の画像データセット
https://atmarkit.itmedia.co.jp/ait/articles/2001/22/news012.html
例えばatmarkitのEMNISTの記事はこちら。
EMNIST:手書きアルファベット&数字の画像データセット
https://atmarkit.itmedia.co.jp/ait/articles/2009/28/news024.html