Power AutomateのクラウドフローでPDFファイルから中身のテキストを抽出してみます。
encodianを利用すると簡単でした。
PDFの作り方にもよりますが、元々がWordで作られていてPDF出力したパターンのPDFであればencodianを使って変換できました。
1. PDFをWordに変換 (PDF => Word)
PDFからテキストを取りたいですが、そのまま取れるアクションがなさそうだったので一度PDFをWordに変換します。
PDFをWordに変換する
アクションを利用します。
ファイル名のところにnew_output.docx
など新規作成するWordファイルのファイル名を指定します。
2. Wordからテキストを取得(Word => テキスト)
次にWordからテキストを取得する
アクションを利用します。
変換されたWordファイルの中身を指定します。これでOK。
ちなみに、この辺はこちらの記事でも試していました。
結果
こんな感じでWordからテキストを取得できました。
{
"text": "【東京夜カフェ】 イベント スケジュール\r\n\r日 時\r\r令和6年2月22日(木) 19:15~21:00\r\r会 場\r\r移住・交流ガーデン(JOIN 内)※会場\rゲスト プロトアウトスタジオ菅原のびすけさん\r\n\r参加費\r\r無料\r\r対応者\r\r定住戦略室:\r\n地域おこし協力隊:xxx \r【全日程】\r\n18:45 15分 ‐現地到着及び会場準備\r\n19:00~ 15 分 -受付開始\r\n19:15 10 分 -栗原から来た皆様の自己紹介(名前/仕事/趣味?)\r\n‐栗原市の紹介\r\n(定住チーム )\r\n19:25 50分 -菅原のびすけさんのプレゼン\r\n(菅原のびすけさん)\r\n20:15 10 分 ‐質疑応答\r\n(菅原のびすけさん)\r\n20:25 5分 ‐参加者自己紹介\r\n20:30 10 分 ‐フリートーク\r\n(残り時\r\n間)\r\n\r\n\r\r\n\r\n\r\n20:40 10 分 -アンケート\r\n20:50 参加者お見送り及び片付け\r\n21:00 解散\r\n",
"HttpStatusCode": 200,
"HttpStatusMessage": "",
"OperationId": "b708c458-5bc9-4684-950f-80c9d1d4e86d\\1",
"Errors": [],
"OperationStatus": "Complete"
}
encodian便利ですね...!無料トライアルで試してましたが有料版はそこそこ値段するみたいです。
ちゃんとやる方は各自課金などお願いします〜〜!