研究開発寄りのプロダクト開発は面白い!日立グループを実験場にAI-OCRを活用した「帳票認識サービス」の担当技術者が語るやりがい
環境負荷や業務効率の観点で、数年前より機運が高まっている「企業のペーパーレス化」。2020年のコロナ禍によってその流れはさらに加速し、組織構造を含めたワークフローの見直しや、それに伴う押印の廃止、見直しを進める企業・行政機関は、ここ1年で特に増えている状況だと言えます。
しかし、世の中から「紙運用」が一切なくなるかというと、そんなことはないでしょう。そもそも、過去のデータや文章については紙で保管されていることが多く、それらについては何かしらの方法で電子化し、拡張性ある形で運用できる状態にする必要があります。
そこで注目されているのが、AIを活用したOCR技術。人の手を介さずに、多様なビジネス帳票の読み取りを行なってデータ化することで、資産のデジタライゼーションを可能にします。
今回は、そんなAI-OCR市場の中でも、株式会社日立製作所(以下、日立)が提供するクラウド型AI-OCRサービス「帳票認識サービス」について取り上げます。大きな特徴としては、帳票認識部分における「デュアルエンジン」仕様にあるといいます。具体的にどのような独自技術を搭載し、どんなメリットを享受できるのか、開発を担う2名のエンジニアに詳しくお話を伺いました。
※記事中のサービスの仕様は、改良のため予告なく変更することがございます。予めご了承ください。
目次
プロフィール
サービス&プラットフォームビジネスユニット アプリケーションサービス事業部 サービスソリューション第二本部
日立入社以来、クラウドサービスの運営や立ち上げなどを担当。クラウドという言葉がない時代から、インターネット上のB2B向けサービス事業を展開。これまで培ってきたクラウド運営の知見を活かしながら、クラウド型AI-OCRサービス「帳票認識サービス」を立ち上げる。
サービス&プラットフォームビジネスユニット アプリケーションサービス事業部 サービスソリューション第二本部
日立入社後は、主に通信キャリア向けシステムにおけるアプリ開発に携わる。その後、通信関連のサーバーソフト開発にメインで従事し、オンプレミスからクラウドへの移行ニーズの高まりを受けて、クラウド型AI-OCRサービス「帳票認識サービス」のアプリ実装部分を担当。
グループ会社での試験運用で、出納業務の証票処理のうち70%を自動化
――まずは「帳票認識サービス」を開発することになった背景について教えてください。
堂宮: そもそも日立では1960年代からOCRの研究をしていまして、OCRの創成期からOCRのビジネスをしているんです。
「帳票認識サービス」以前はOCRパッケージソフトとして提供をしていたのですが、どうしても汎用的な作りとしての提供が難しかったので、帳票ごとにカスタマイズをして実装を行っていました。そのため、横展開が難しく、メンテナンス費用も多くかかる状況でした。
――そもそもOCRとAI-OCRの違いがよく分かっていないのですが、それぞれどんな違いがあるのでしょうか?
堂宮:端的に表現すると、こちらの図になります。
堂宮:OCRでは定型の帳票や活字、手書き文字といったものについては技術的にデータ化が可能なのですが、複雑な手書き文字や非定型の帳票、特定期間に集中するような業務に付随する帳票類、非構造データといったものはデータ化が難しい状況でした。
それがAIを活用することで、非構造データ以外については、基本的にデータ化ができるようにまでなりました。
――ここでいう非構造データとは、具体的にどういうものなのでしょうか?
堂宮:技術文書や契約書などのフリーな体裁の記述文書や、設計図面などのドキュメントになります。あとは財務諸表や健康診断など、項目間の位置関係が不規則で、特定エリアの意味づけなどが必要なものですね。例えば、健康診断書に3年間分の検診内容が記載されている場合に、特定の年度の検診データを抽出することは、現在のAI-OCRの技術を活用しても難しいということです。
――なるほど、イメージができました。このAIを活用したOCRの提供ですが、まずはどんな形で製品としての社会実装を進めていかれたのですか?
堂宮:一番最初のプロジェクトとしては、2017年のグループ会社への試験導入です。その頃はまだ「帳票認識サービス」というサービス名などはなく、AIを活用したRPA(ロボティック・プロセス・オートメーション)システムとしての取り組みでした。
日立グループの人事および財務といったバックオフィスのシェアードサービスを請け負っている日立マネジメントパートナーで試験運用をして、出納業務における証票処理の70%を自動化できました。
具体的には、宛先名や請求者名、請求金額といった情報を正確に読み取り、さらに「この単語は金額を意味する」といった属性も識別できるようになったので、人手での照合・承認が必要だった紙の書類が自動化されて、全体の業務効率が大きく改善されたのです。
財務部門内の紙帳票約5,000種類の読み取りが可能に
――2017年時点で、すでに研究開発からの実装成果が出ていたんですね。
堂宮:そうですね。とはいえ、2017年時点はまだ製品リリースではなく、どちらかというと研究開発技術のアピールに近い発表でした。
その後、この技術をさらに進化させ、より汎用化を実現し、2019年に「帳票認識サービス」という形でサービス化がされたことになります。 そして同年に一般社団法人全国銀行協会(全銀協)さまが設立する、手形・小切手の交換業務を電子化する「電子交換所」のシステムでも導入されることが決まりました。
もともとのRPAシステムはスタンドアロン型のものだったのですが、私自身が日立入社以来、ずっとクラウドサービスの運営や立ち上げなどを担当していたこともあり、クラウドとの親和性が非常に高いものだと感じたので、SaaS型のクラウドサービスとして提供できるように企画・設計しました。
――全銀協さま導入はすごいですね!2017年時点では日立マネジメントパートナーさんでの展開でしたが、さらに今年の3月には、日立さんの財務部門での活用も発表されましたね。
堂宮:もともと日立では全社でDX(デジタル・トランスフォーメーション)を進めていまして、業務プロセスの簡素化などといった様々なテーマがある中で、RPAやAIを活用して業務効率化をするというテーマの一環として、財務部門への帳票認識サービスの導入が進みました。
2017年時点ではピンポイントの業務に特化した効率化だったのですが、この時は定型・非定型帳票や活字・手書き文字、二次元コードなどの多様な帳票や文字に対応したので、財務部門内の紙帳票約5,000種類の読み取りが可能になりました。
日立の財務部門における出納業務は、全部で年間25万件にもなるのですが、この仕組みを取り入れることで、その作業時間を14,500時間から7,400時間に短縮することが期待されています。
――まだ始まったばかりで、成果としてはこれから、ということですね。ちなみに、文書の中には機密性の高いものもあると思います。それらをクラウドに乗せるのに抵抗のある会社も一定数いると思うのですが、その辺りは実際にどうなのでしょうか?
堂宮:はい。おっしゃる通りクラウドに抵抗のある企業さまもおりますので、クラウドベースで組むのではなく、アプライアンス型での提供も可能です。
「帳票認識サービス」は、小規模の事業所さまから大規模センターまで、クラウドもオンプレミスも対応できるように、様々なバリエーションの提供形態を用意しています。
もちろん、クラウドであってもセキュリティ対策を十分に行っていますし、業務のトラフィックに合わせて柔軟にプランを選択できるようにもしています。
定型帳票と非定型帳票、2つのエンジンに自動振り分けされる仕様
――先ほど、定型・非定型帳票という話がありましたが、これについて詳しく教えてください。
中村:帳票認識サービスでは、一般的に企業内で標準帳票として枠などが決まって用意されている「定型帳票」と、そうではなくて個別に作成される請求書のような「非定型帳票」に分けて考えています。
――非定型帳票とは、つまり、人によって構成や枠組みなどが変わりうるもの、ということですね?
中村:そういうことです。帳票認識サービスでは「定型帳票対応エンジン」と「非定型帳票対応エンジン」という2つのAI-OCRエンジンを搭載していまして、ユーザーが意識をしなくても、読み取りたい帳票をサービス側にインプットするだけで自動で帳票を振り分けて読み込む仕様になっています。
――これは、技術的にはどうやって実現しているのでしょうか?
中村:ユーザーがインプットした帳票を画像データとして扱い、その画像から特徴点を抽出します。その後、「定型帳票対応エンジン」用に読取箇所を定義したテンプレートを帳票認識サービス内に登録しているのですが、そのテンプレート画像の特徴点と特徴点比較を行い、最も類似度の高いテンプレートを最適なテンプレートとして選択します。その結果、テンプレートが存在する帳票であれば「定型帳票対応エンジン」、存在しない帳票であれば「非定型帳票対応エンジン」といったようにエンジンの振分を実現しています。深層学習と高度言語処理を活用することで、個人のクセに左右されないで手書き文字を認識できますし、また帳票フォーマットも問わずに多様な紙帳票を読み込むことができるようになっています。
世の中には様々なAI-OCR技術がありますが、この自動で振り分ける部分は、日立独自の技術だと言えます。
精度と処理速度の両面を達成した上で汎用化するという難易度の高さ
――帳票認識サービスの特徴としては、他にありますか?
中村:先ほどお伝えしたエンジンの自動振り分けを経て、もう1つ「確信度」というものを弾き出すようにしています。つまり、認識結果の「確からしさ」です。
AI-OCRの技術は以前に比べて飛躍的に発展しているものの、100%の精度で読み取るというのはまだ難しいです。
システム導入したとしても最終的には人による確認が必要なのですが、その確認作業の負荷を軽減するために、確信度でグラデーションをつけるようにしているわけです。
――確信度って、具体的にどのように出てくるのでしょうか?
中村:「高・中・低」の3段階表示です。
例えば「中」や「低」が出てきたものについては人の目でチェックを行って、逆に「高」が出てきたものについては自動で処理するように設計をすると、間違った情報を登録することなく業務を半自動化できるようになります。
――100%自動化するものではなく、あくまで人による業務をサポートする、というスタンスなんですね。確信度って、帳票によって求められることの“ばらつき”があると思うのですが、そこは調整されるものなのでしょうか?
中村:もちろん、個別に閾値を設定できるので、ミッションクリティカルな業務については閾値を引き上げて、逆にそうではない業務では緩める、といったチューニングができるようになっています。
あと、これは標準仕様ではなくオプションにはなりますが、帳票認識サービスから出力した認識結果と、別系列の業務データとの突合チェックも行えて、そこでの結果も確信度の補正に活用できるので、使えば使うほどに確信度が高まっていくことになるわけです。
――なるほど。全体の仕組みを俯瞰すると、すごく面白いですね。
中村:技術的なところでかなりチャレンジングなことをしているな、と思っています。先ほどもお伝えした、帳票を自動で分類するところは特に苦労しました。
数種類の振り分けであればそこまで高い技術力は必要とされませんが、自社の出納業務だと5,000〜1万というオーダーの帳票を分類する必要があるので、未知の帳票も含めて、精度と処理速度の両面を達成した上で汎用化を実現するのは、とても難しい作業でしたね。
中小規模ユーザーでも活用できるサービスにしていきたい
――これから帳票認識サービスを、どのように拡大させていく予定でしょうか?
堂宮:様々な可能性があると思っています。例えば紙帳票を電子化したデータを、与信業務に活用したり、膨大な工数がかかる監査業務を半自動化したり。産業系で言えば、配送伝票の自動読み取りなどにも十分に応用できるでしょう。
いずれにしても、ただ単に書かれている文字をデータ化するだけでなく、業務課題を解決する形で、社会実装を進めていきたいと考えています。
中村:あとは、中小規模ユーザーにも対応できるようにしていく予定です。
もともとは、大規模ユーザーをターゲットにプロジェクトを開始したのですが、ヒアリングを進めていく中で、中小規模ユーザーからのニーズも高いことがわかってきました。
ですが現在のシステムでは、中小規模ユーザーやスモールスタートしたいユーザーに対しては、オーバースペックだなと感じています。
――なるほど。機能的にスモール版を作るイメージですか?
中村:いえ、機能は汎用的に使う形でほぼ問題ないと思っていますが、どちらかと言うと、中小規模ユーザーでも導入しやすいように、環境構築などを簡便にするような視点で捉えています。
もちろん、細かい機能はユーザーの大小を問わず、進めていきます。
――いいですね!現在取り掛かっていることはありますか?
中村:標準的なUIの提供は、直近で進めていることですね。
リリース直後では、インタフェース部分はお客さまの方で作っていただく仕様にしていました。そちらの方が、より業務にフィットさせる形で実装できるという考えからです。
ですが実際に導入を進めてみると、システム操作が苦手な方にとっては非常に難しい作業だとのフィードバックがあり、標準的な画面を提供してほしいとの要望を多くいただきました。今年の4月末から最新版リリースとして、AI-OCRの認識結果を確認して修正できる画面システムを提供開始しています。
引き続き、目線の移動やマウス操作を削減しながら、機能をブラッシュアップしていきたいと思います。
グループ会社含めて「実験できる場」があるのが、日立ならではのメリット
――サービスのグロースを促進するにあたって、これからどんな人と一緒に働きたいですか?
中村:私自身、これまでのキャリアを考えると、ずっとソフト開発をしていて、あまりお客さま先に出ることがありませんでした。しかし、これからは、実際にフィードバックを受けて製品を改善させていくことが大前提になります。
だからこそ、一緒に働くという観点だと、業務を問わず実際にお客さまと接していける人と仕事をしたいなと思っています。
――大事なことですね。堂宮さんはいかがでしょうか?
堂宮:中村さんが言ったことはとても重要ですね。現在、会社としてはどうしてもサービス開発とフロント部門が組織的に分かれているので、そういうところを打ち破る人がいいですね。
一方で、AI-OCRに限らず、日立には最新技術を積極的に活用できる舞台が整っていて、それは技術的にも企画的にも言える部分だと思うので、そういう新しいものを扱ってチャレンジしたいという人とご一緒したいですね。
――なるほど。日立だからこその技術・企画面でのメリットはどこだとお考えですか?
堂宮:先ほどの財務部門の事例もそうですが、日立には連結子会社数が871社(2021年3月31日時点)があって、グループ全体で30万人ほどの従業員がいます。
「社内で活用できないものは社外に出せないよね」という感覚もあり、まずは社内やグループ会社でチャレンジして、そこで成功したものを外販していくという土台があります。このような、ある意味で「相応の規模で実験ができる」環境があることが、日立ならではだなと思っています。
もちろん、先ほどの全銀協さまのような大きな案件を担当できるというのも、仕事のやりがいにつながる部分かなと感じます。
――ありがとうございます!それでは最後に一言、読者の皆さまにメッセージをお願いします。
堂宮:AI-OCR技術は、かなり一般的になりつつあります。しかし、電子化によるエントリー業務の効率化だけではもったいなくて、そこから先でしっかりと活用・分析して新たな価値を生むという部分が、根本的なポテンシャルだと考えています。
まだ駆け出したばかりのサービスですが、面白い環境が揃っているので、興味のある方はぜひご一緒しましょう。
中村:日立という会社にいて思うのは、新しい技術を使ってチャレンジングな領域に挑戦できるのが一番大きなメリットだな、ということです。
仕事としてはプロダクト開発ですが、研究開発要素もあって幅広い活動もできるので、何かを突き詰めて研究して製品にまで落とし込みたい、という方にもすごくオススメの会社だと思いますよ!
編集後記
OCR技術については、1968年にリリースされた日立の「H-8252形光学文字読取機」が、初めての国産汎用OCRだったと言います。その長い研究開発の歴史を有する会社で、最新技術も含めた製品開発を行えるのは、とても刺激的だと感じます。
特に最後にも言及されていた通り、グループ全体で一種の「実験」ができるからこそ、よりチャレンジングな取り組みもできるんだろうな、と感じた次第です。
研究開発寄りのプロダクト開発をされたい方にとっては、絶好の環境だと言えるでしょう。
取材/文:長岡 武司
撮影:太田 善章
「Qiita×HITACHI」AI/データ×社会課題解決 コラボレーションサイト公開中!
「Qiita×HITACHI」AI/データ×社会課題解決 コラボレーションサイト公開中!
日立製作所の最新技術情報や取り組み事例などを紹介しています
コラボレーションサイトへ
日立製作所経験者採用実施中!
DXソリューション・サービスの企画・提案・開発~最新技術を活用したお客さまの課題解決・価値創生~
募集職種詳細はこちら
日立製作所の人とキャリアに関するコンテンツを発信中!
デジタルで社会の課題を解決する日立製作所の人とキャリアを知ることができます
Hitachi’s Digital Careersはこちら