2
0

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?

More than 1 year has passed since last update.

Power AutomateでPDFからテキストを抽出する

Last updated at Posted at 2024-06-05

Power AutomateのクラウドフローでPDFファイルから中身のテキストを抽出してみます。

encodianを利用すると簡単でした。

PDFの作り方にもよりますが、元々がWordで作られていてPDF出力したパターンのPDFであればencodianを使って変換できました。

1. PDFをWordに変換 (PDF => Word)

PDFからテキストを取りたいですが、そのまま取れるアクションがなさそうだったので一度PDFをWordに変換します。

PDFをWordに変換するアクションを利用します。

ファイル名のところにnew_output.docxなど新規作成するWordファイルのファイル名を指定します。

2. Wordからテキストを取得(Word => テキスト)

次にWordからテキストを取得するアクションを利用します。

変換されたWordファイルの中身を指定します。これでOK。

ちなみに、この辺はこちらの記事でも試していました。

結果

こんな感じでWordからテキストを取得できました。

{
  "text": "【東京夜カフェ】 イベント スケジュール\r\n\r日 時\r\r令和6年2月22日(木) 19:15~21:00\r\r会 場\r\r移住・交流ガーデン(JOIN 内)※会場\rゲスト プロトアウトスタジオ菅原のびすけさん\r\n\r参加費\r\r無料\r\r対応者\r\r定住戦略室:\r\n地域おこし協力隊:xxx \r【全日程】\r\n18:45 15分 ‐現地到着及び会場準備\r\n19:00~ 15 分 -受付開始\r\n19:15 10 分 -栗原から来た皆様の自己紹介(名前/仕事/趣味?)\r\n‐栗原市の紹介\r\n(定住チーム )\r\n19:25 50分 -菅原のびすけさんのプレゼン\r\n(菅原のびすけさん)\r\n20:15 10 分 ‐質疑応答\r\n(菅原のびすけさん)\r\n20:25 5分 ‐参加者自己紹介\r\n20:30 10 分 ‐フリートーク\r\n(残り時\r\n間)\r\n\r\n\r\r\n\r\n\r\n20:40 10 分 -アンケート\r\n20:50 参加者お見送り及び片付け\r\n21:00 解散\r\n",
  "HttpStatusCode": 200,
  "HttpStatusMessage": "",
  "OperationId": "b708c458-5bc9-4684-950f-80c9d1d4e86d\\1",
  "Errors": [],
  "OperationStatus": "Complete"
}

encodian便利ですね...!無料トライアルで試してましたが有料版はそこそこ値段するみたいです。
ちゃんとやる方は各自課金などお願いします〜〜!

2
0
0

Register as a new user and use Qiita more conveniently

  1. You get articles that match your needs
  2. You can efficiently read back useful information
  3. You can use dark theme
What you can do with signing up
2
0

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?