大量のPDFファイルからテキストデータを一気に取り出したい場合は、xdoc2txt を使うのが便利。
xdoc2txt は、ダウンロードして解凍するだけで使えるのでインストール権限も不要。
xdoc2txt.exe
がC:\Software\xd2tx220_x64\command
フォルダにあると仮定する。
以下のバッチファイルをPDFファイルが保存されているフォルダに入れて実行する。
<カレントフォルダ一括バージョン>
xdoc2txtPDF.bat
@echo off
REM カレントフォルダ内のすべてのPDFファイルからテキストを抽出して、
REM それぞれ同名のテキストファイルとして保存する
set xdoc2txt=C:\Software\xd2tx220_x64\command\xdoc2txt.exe
for %%f in (*.pdf) do %xdoc2txt% "%%f" > %%~nf.txt
<選択ファイル一括バージョン>
xdoc2txtPDF_DnD.bat
@echo off
REM 選択した複数のファイルをこのバッチファイルにドラッグアンドドロップする
REM または、バッチファイルを sendto ファルダに入れて、右クリックメニューの
REM[送る]から実行する
set xdoc2txt=C:\Software\xd2tx220_x64\command\xdoc2txt.exe
for %%f in (%*) do %xdoc2txt% "%%f" > %%~dpnf.txt
抽出したテキストを一つにまとめたいときは、
MargeTxt.bat
@echo off
type *.txt > all.log