PDFってなんだよ、いらんだろ
たまにExcelの内容をそのままPDFにしただけみたいなファイルがある。
PDFもExcelも俺嫌いなんだよ。
それってどんなPDF?
「月間売上 pdf」で検索すると一番上に出てくるこう言うやつ。PDFファイルだけどこんなんただのExcelやん。
実態Excelのくせしてテキストが表形式で取れない
テキストデータが取れない。マウスでドラッグするのもめんどくさいのにそのテキストもまともに取れない。PDFってなんなんマジ。
pythonでPDFのデータを抜き取る
本題です。ムカついたからpdfplumberと言うライブラリを使ってpythonでCSV化します
pdf is dead
import pdfplumber
pdf_url = "https://xxxxxxxxxxxxxxxxxxxxxxxxxx.pdf"
# PDFファイルを保存
r = requests.get(pdf_url, allow_redirects=True)
open('local.pdf', 'wb').write(r.content)
# PDFファイルを開く
with pdfplumber.open('p.pdf') as pdf:
# ページごとにループ処理
for page in pdf.pages:
# これでテキスト取れる
text = page.extract_text()
print(text)
# これでCSVでデータ取れる
tables = page.extract_tables()
for table in tables:
for row in table:
print(row)
#### local.pdf 消したい人はここでファイル削除なりして
こんな感じで出てくる(ネット上のファイルでやってるから一応ぼかしとく)
PDFとかデファクトスタンダードツラしてるのが嫌すぎる。
PDFとかデファクトスタンダードツラしてるのが嫌すぎる。
PDFとかデファクトスタンダードツラしてるのが嫌すぎる。
PDFとかデファクトスタンダードツラしてるのが嫌すぎる。
PDFとかデファクトスタンダードツラしてるのが嫌すぎる。
PDFとかデファクトスタンダードツラしてるのが嫌すぎる。jsonでくれ。