LoginSignup
2
4

More than 1 year has passed since last update.

大量のPDFファイルからテキストデータを一括で取り出すバッチファイル

Last updated at Posted at 2021-12-26

大量のPDFファイルからテキストデータを一気に取り出したい場合は、xdoc2txt を使うのが便利。
xdoc2txt は、ダウンロードして解凍するだけで使えるのでインストール権限も不要。

xdoc2txt.exeC:\Software\xd2tx220_x64\commandフォルダにあると仮定する。
以下のバッチファイルをPDFファイルが保存されているフォルダに入れて実行する。

<カレントフォルダ一括バージョン>

xdoc2txtPDF.bat
@echo off
REM カレントフォルダ内のすべてのPDFファイルからテキストを抽出して、
REM それぞれ同名のテキストファイルとして保存する

set xdoc2txt=C:\Software\xd2tx220_x64\command\xdoc2txt.exe
for %%f in (*.pdf) do %xdoc2txt% "%%f" > %%~nf.txt

<選択ファイル一括バージョン>

xdoc2txtPDF_DnD.bat
@echo off
REM 選択した複数のファイルをこのバッチファイルにドラッグアンドドロップする
REM または、バッチファイルを sendto ファルダに入れて、右クリックメニューの
REM[送る]から実行する

set xdoc2txt=C:\Software\xd2tx220_x64\command\xdoc2txt.exe
for %%f in (%*) do %xdoc2txt% "%%f" > %%~dpnf.txt

抽出したテキストを一つにまとめたいときは、

MargeTxt.bat
@echo off
type *.txt > all.log


[注]"%%f"と、ダブルクォーテーションで囲むのは、パスに空白が含まれている場合のため

2
4
0

Register as a new user and use Qiita more conveniently

  1. You get articles that match your needs
  2. You can efficiently read back useful information
  3. You can use dark theme
What you can do with signing up
2
4