Go to Qiita Advent Calendar Top

2

More than 3 years have passed since last update.

@U1KURI(雄一栗原)

【スマホ向け】AIくずし字認識アプリ「みを」の使い方と、精度向上のヒント

Posted at 2022-11-23

「みを」とは

約100万文字の「くずし字データセット」を学習した、
最新のAIくずし字認識技術を用いたアプリ（iOS, Androidとも対応）
まさかの無料

※ 私は開発には関わっておりません。いちユーザとしての投稿です。

使い方

アプリをインストールしたら、画像を撮影（または画像を指定）
ボタンひとつで文字を認識！　これだけ！

Android版

https://play.google.com/store/apps/details?id=jp.ac.rois.codh.miwo&pli=1

iOS版

https://apps.apple.com/us/app/miwo/id1581794085

識別精度を上げるためには？

正面から撮影する
❌　斜めから撮影すると、文字が歪んでしまい、精度が下がる可能性があります
影が写り込まないように撮影する
❌　背景色が同一ではない場合、精度が下がる可能性があります（v.1.1で改善されたようです）
欲張りすぎない
❌　一気にたくさんの文字を認識させようとすると、精度が下がる可能性があります

使用上の注意

精度は、100%というわけではありません
- 正式な解読は、専門家にお任せしましょう
「文章の内容を理解して文字を推定している」というわけではありません
- あくまで「文字の形状」から、対象の文字を推定しています
江戸時代の版本に対する精度が比較的高めとなりますが、他の時代の資料や、写本、古文書などでは、精度が低下する可能性があります（公式ページから抜粋）

【付録】より詳しく知りたい方のために

100万字のデータは、どこが公開している？

「情報・システム研究機構データサイエンス共同利用基盤施設人文学オープンデータ共同利用センター」という、国の研究機関が公開しています

【付録】動作メカニズムについて（推察）

深層学習のモデルKuroNetを使っているようです
- 「U-Net」という「セグメンテーション」を目的に開発された形式を応用
  - セグメンテーション → 「塗り絵」のようなイメージ。
  - 「文字」と「非文字」を塗り分けているような学習を行っていると思われます
アルゴリズム（推定）
- 「文字」に該当する「ピクセル」を画像の中から見つける
- ある程度のかたまりを「文字」として「まとめる」　→　「枠」をつけられる状態になる
- その「文字」が、それぞれ、どの「正解」に該当するかを推定する

2

Register as a new user and use Qiita more conveniently

You get articles that match your needs
You can efficiently read back useful information
You can use dark theme

What you can do with signing up

2