弊社では請求書のPDFをチャットツールで報告しています。
PDFを貼り付けて、内容を確認して、テンプレートに内容を書き込んで...
めんどくさい!!!!!
そうだ!全て自動化すればいいんだ!
ということで今回は請求書報告自動化に向けてどうすれば実装可能か手を動かしながら考えていきたいと思います。
マイルストーン
おそらく以下に沿って実装すれば実現できるはず
- PDF読み込み。テキスト抽出
- 抽出したテキストから必要な文字列を抜き出す
- フォーマットに当てはめる
それでは作っていきましょう
実装
0. 動かす環境を作る
環境を汚したくなかったので...phpが動けばいいのである方は割愛してください。
以下のファイルを作成
corp-approval-payment
├── docker-compose.yml
├── Dockerfile
└── index.php
version: "3.9"
services:
php:
build: ./
image: corp-approval-payment
tty: true
stdin_open: true
volumes:
- .:/var/www/html
ports:
- 8010:80
# syntax=docker/dockerfile:1
FROM php:8.2.3-apache
ENV ROOT=/var/www/html
WORKDIR ${ROOT}
# composer install
COPY --from=composer /usr/bin/composer /usr/bin/composer
# git install
RUN apt-get update && apt-get install git-all
<?php
phpinfo();
以下を実行
$ cd corp-approval-payment
$ docker compose up -d
$ docker exec -it {container名} bash
$ php -v #確認
念の為アクセスできるかも確認
1. PDF読み込み。テキスト抽出
今回使うライブラリ。ググったら出てきました。
$ composer require smalot/pdfparser
PDFを置くディレクトリを作成。とりあえず変換するPDFをsample.pdfとする
corp-approval-payment
├── docker-compose.yml
├── Dockerfile
+├── pdf
+└── sample.pdf
└── index.php
サンプルはここから取得しました。
<?php
require 'vendor/autoload.php';
$parser = new \Smalot\PdfParser\Parser();
$pdf = $parser->parseFile('pdf/sample.pdf');
$firstPage = $pdf->getPages()[0];
echo nl2br($firstPage->getText());
取れたね!
2. 抽出したテキストから必要な文字列を抜き出す
抽出したいテキストは支払先、金額、計上日、支払期限...etc。今回のサンプルには金額しかないのでこれだけ抽出します。他もロジックは同じなはず。
上記フォーマットの場合は¥32,400-が金額なので
-echo nl2br($firstPage->getText());
+preg_match_all('/¥(.+)-/', $firstPage->getText(), $match);
+echo $match[1][0]; // 32,400が表示される。
正規表現で抽出
3. フォーマットに当てはめる
-echo $match[1][0];
+$amount = $match[1][0];
+
+// TODO: 〇〇のところもテキストを抽出して埋め込む
+$template = <<<EOM
+今月の請求になります。よろしくお願いいたします。
+```
+1)支払先 : 〇〇
+2)金 額 : {$amount}円
+3)予 算 : 通信費
+4)内 容 : 〇〇
+5)備 考 : 計上日 〇〇 / 支払期限 〇〇
+6)決裁者 : 〇〇
+```
+EOM;
+
+echo "<pre>{$template}</pre>";
あとは変数を埋め込むだけ。全体のコードはこちら
感想
PDFからテキストを抽出することは出来ました。フォーマットは請求書によりけりなので、種類によってカスタマイズしないといけなさそう...そこを汎用的にしていければ
課題
スキャナーで取り込んだPDFが変換されないだと...
おそらく画像をそのままPDFにされてるため文字列のデータがない。その場合はPDFを画像に変換してからテキストを抽出して同じ処理をかければいけそうな気がする。ImageMagickとか使えばいけそうかな
あとがき
5分の作業を5秒で終わらせるために2〜3時間かけました。エンジニアしてるね!
最後に運動通信社について
運動通信社は「日本を世界が憧れるスポーツ大国にする」というビジョンを達成するべく、一緒に働く仲間を募集しています!
PMやアプリエンジニア、Webエンジニアなど色んな職種を募集しておりカジュアル面談大歓迎なので是非採用フォームよりご連絡ください!
ぜひ一緒に、自分たちも世の中もワクワクするサービスを作りましょう!