PDFの内容をCSVにする

Posted at 2023-12-04

PDFってなんだよ、いらんだろ

たまにExcelの内容をそのままPDFにしただけみたいなファイルがある。
PDFもExcelも俺嫌いなんだよ。

それってどんなPDF？

「月間売上 pdf」で検索すると一番上に出てくるこう言うやつ。PDFファイルだけどこんなんただのExcelやん。

実態Excelのくせしてテキストが表形式で取れない

テキストデータが取れない。マウスでドラッグするのもめんどくさいのにそのテキストもまともに取れない。PDFってなんなんマジ。

pythonでPDFのデータを抜き取る

本題です。ムカついたからpdfplumberと言うライブラリを使ってpythonでCSV化します

pdf is dead


import pdfplumber

pdf_url = "https://xxxxxxxxxxxxxxxxxxxxxxxxxx.pdf"

# PDFファイルを保存
r = requests.get(pdf_url, allow_redirects=True)
open('local.pdf', 'wb').write(r.content)

# PDFファイルを開く
with pdfplumber.open('p.pdf') as pdf:
    # ページごとにループ処理
    for page in pdf.pages:
        # これでテキスト取れる
        text = page.extract_text()
        print(text)

        # これでCSVでデータ取れる
        tables = page.extract_tables()
        for table in tables:
            for row in table:
                print(row)

#### local.pdf 消したい人はここでファイル削除なりして

こんな感じで出てくる（ネット上のファイルでやってるから一応ぼかしとく）

PDFとかデファクトスタンダードツラしてるのが嫌すぎる。

PDFとかデファクトスタンダードツラしてるのが嫌すぎる。jsonでくれ。

You get articles that match your needs
You can efficiently read back useful information
You can use dark theme

What you can do with signing up