はじめに
PDFMinerをWindows7環境に導入した際のメモです
目標
- pythonでpdfファイルをテキストファイルに変換する
動作環境
- Windows7 32bit
- python 2.6.5
- pdfminer 20140328
公式サイト
Download
手順
- ダウンロードしたファイルを展開
- コマンドプロンプトで以下を実行
mkdir pdfminer\cmap
python tools\conv_cmap.py -c B5=cp950 -c UniCNS-UTF8=utf-8 pdfminer\cmap Adobe-CNS1 cmaprsrc\cid2code_Adobe_CNS1.txt
python tools\conv_cmap.py -c GBK-EUC=cp936 -c UniGB-UTF8=utf-8 pdfminer\cmap Adobe-GB1 cmaprsrc\cid2code_Adobe_GB1.txt
python tools\conv_cmap.py -c RKSJ=cp932 -c EUC=euc-jp -c UniJIS-UTF8=utf-8 pdfminer\cmap Adobe-Japan1 cmaprsrc\cid2code_Adobe_Japan1.txt
python tools\conv_cmap.py -c KSC-EUC=euc-kr -c KSC-Johab=johab -c KSCms-UHC=cp949 -c UniKS-UTF8=utf-8 pdfminer\cmap Adobe-Korea1 cmaprsrc\cid2code_Adobe_Korea1.txt
python setup.py install
動作確認
tools\pdf2txt.py
python .\tools\pdf2txt.py -o test.txt .\samples\simple1.pdf