電子帳簿保存法の面倒な話
電子帳簿保存法の改正に向けてCMなんかもよく見るようになりました。
その中でなんでもファイル名を20230416_アイデアマンズ株式会社_1000円_請求書.pdf
みたいに統一しろ、みたいな話があってガッカリというか、電子保存は実にいいと思うけど、こんな一円の利益にもならない作業を増やして、生産性低いってそういうことだぞって話です。
法律自体はまったく詳しくないので間違ってたり他に方法あるのかもです。
ほんと気が重いなと思ってましたが、ChatGPTがすごく賢いので、PDFのテキストだけでも食わせたらいい感じにやってくれないかな?と考えました。
検証
雑にこんなプログラムをTypeScriptで作りました。
- pdfsフォルダのPDFファイルを走査
- https://www.npmjs.com/package/pdf.js-extract でPDFからテキストだけ抽出
- プロンプトを組んでChatGPTに属性を構造データにしてもらう
- そのデータを元に別名保存と帳簿一覧を作成
さくっと作って結果を見ると…
う、動いたー! しかも海外の帳票も解読してくれる! 最高じゃあないっすか。
ファイルの内容を見てファイル名を打ち込むという生産性ゼロの20世紀的作業を今さら人間様がしなくて済みそうです。
ソースコード
というわけで、雑ですがソースコードを共有します。
想像よりうまく行ったとは思いますが、精度があまり高くありません。発行元会社名をたまに間違えたり、実行回によって結果に揺らぎがあります。
そのあたりもいいアイデアがあればフォークして共有してもらえると嬉しいです!
グルーとしてのChatGPT
以前、子供の勉強時間トラッカーの音声入力部分にChatGPTを使うサンプルを公開しました。
AIの活用は、必ずしもAI主役で考える必要はないと思っています。今のシステムもいいところがあって、人間的な認識能力が必要な部分にだけ、グルー(のり)のようにAIを取り入れていくのを考えるのが個人的には楽しいです。