はじめに
本日(2025/11/10)、日本語OCRの「YomiToku-Pro」がAWS Marketplace経由でついに商用利用可能になりました!
元々1年ほど前に発表があり、かなりの精度を誇っており目を付けていましたがついに正式に商用利用可能ということで、本記事では改めてOSS版のYomiTokuをGoogle Colab環境で使用してみて、その良さを体験し、サクッとまとめてみます!
OSS版は商用利用の際には別途問い合わせが必要であることにはご注意ください。
本記事では「YomiToku」のメリットを簡単にまとめたものです。
より詳細な内容や使い方に関しては下記の参考セクションをご覧ください。
参考
実行準備
Google Colabを開き、pip install yomitokuを実行してください。
Colab環境内では既に適切なPytorchが入っているため、他は不要です。
基本的な実行コマンドは下記の通りです。
yomitoku ${path_data} -f md -o results -v --figure
メリット1 超軽量
YomiTokuのメリットは何と言っても超軽量であることだと思います。
あとで実際に動かしますが、CPU環境でも動作します。
そのサイズ、logを見た限り700MBほどです。もちろんYomiToku-Proはまた少し違うかもしれませんが、それでもこの軽量さは驚きです。
以下、Colab内ターミナルのLog画像です。
メリット2 高性能
YomiTokuのメリットは軽いだけではなく、非常に高精度であることです。
今回はお試しとして政府の公開している「我が国の災害対策の取組の状況等」の最初のページをスクショして使用してみます!
使用した画像はこちら
実際の結果を見てみます。
まずはMarkdownテキストの結果はこちらです。
<img src="figures/content_test2_p1_figure_0.png" width="200px"><br>
第1部<br>我が国の災害対策の取組の状況等
我が国は、その自然的条件から各種の災害が発生しやすい特性を有しており、令和5年度において<br>も、令和6年能登半島地震を始めとした多くの災害により被害が発生した。第1部では、最近の災害<br>対策の施策、特に令和5年度に重点的に実施した施策の取組状況を中心に記載する。
# 第1章 災害対策に関する施策の取組状況
# 第1節<br>自助·共助による事前防災と多様な主体の連携による防災活動の推進
# 1\-1<br>国民の防災意識の向上
我が国ではその地形や気象などの自然的条件により、従来から多くの自然災害を経験してきた。こ<br>のため、平常時においては堤防の建設や耐震化など災害被害の発生を防止·軽減すること等を目的と<br>したハード対策と、ハザードマップの作成や防災教育など災害発生時の適切な行動の実現等を目的と<br>したソフト対策の両面から対策を講じて、万が一の災害発生に備えている。また、災害発生時には、<br>災害発生直後の被災者の救助·救命、国·地方公共団体等職員の現地派遣による被災地への人的支<br>援、被災地からの要請を待たずに避難所や避難者へ必要不可欠と見込まれる物資を緊急輸送するプッ<br>シュ型の物資支援、激甚災害指定や「被災者生活再建支援法」\(平成10年法律第66号\)等による資<br>金的支援など、「公助」による取組を絶え間なく続けているところである。
しかし、今後発生が危惧される南海トラフ地震や日本海溝·千島海溝沿いの巨大地震、さらに近年<br>激甚化·頻発化する気象災害等によって広域的な大規模災害が発生した場合において、「公助」の限<br>界が懸念されている。
阪神·淡路大震災では、生き埋めになった人の約8割が家族も含む「自助」や近隣住民等の「共<br>助」により救出されており、「公助」である教助隊等による救出は約2割程度に過ぎなかったという<br>調査結果がある\(図表1\-1\-1\)。
市町村合併による市町村エリアの広域化や地方公共団体の公務員数の減少など、地方行政を取り巻<br>く環境が厳しさを増す中、高齢社会の下で配慮を要する者は増加傾向にある。このため、国民一人一<br>人が災害を「他人事」ではなく「自分事」として捉え、防災·減災意識を高めて具体的な行動を起こ<br>すことにより、「自らの命は自らが守る」「地域住民で助け合う」という防災意識が醸成された地域社<br>会を構築することが重要である。
(一番先頭のimgタグにはヘッダー部分の画像が入っていました。)
とても高精度なMarkdownが返却されました!
目立った誤字脱字もなく、完璧と言っても良いと思います。
続いてレイアウト解析結果の可視化画像はこちらです。
もはやすごいなとしか言葉が出ないのですが、ヘッダーや本文、階層構造などを完璧に捉えています。
最後におまけ程度にOCRの可視化結果です。
こちらも完璧です。
メリット3 超高速
最後にお伝えするメリットは超高速であることです。
モデルの軽量さからも分かることですが非常に高速です。
今回はGoogle colabを使用しているため、先ほどと同じ画像でCPU・T4・A100の3つのタイプで速度を測ってみました!
| マシンタイプ | 速度(sec) |
|---|---|
| CPU | 42.6 |
| T4 | 2.82 |
| A100 | 2.51 |
なんと、GPU環境では3秒を切ってきました!
T4という無料枠スペックでもサクサクと動きますし、少量ならCPUでも問題ないレベルでOCR解析が可能です!
まとめ
本記事は念願の「YomiToku」がAWS Marketplace経由で商用利用になったということで、改めてOSS版のYomitokuをGoogle Colab環境で動かしてみました!
YomiTokuは超軽量・高精度・超高速という3つのメリットを有しており、個人利用であればローカルでも簡単に動作が可能です。
特に日本語は多くの文体が存在しOCRが非常に難しい領域であり、このようなツールが登場するのは非常に喜ばしいことです!



