LoginSignup
3
1

PDFってなんだよ、いらんだろ

たまにExcelの内容をそのままPDFにしただけみたいなファイルがある。
PDFもExcelも俺嫌いなんだよ。

それってどんなPDF?

「月間売上 pdf」で検索すると一番上に出てくるこう言うやつ。PDFファイルだけどこんなんただのExcelやん。
image.png
image.png

実態Excelのくせしてテキストが表形式で取れない

テキストデータが取れない。マウスでドラッグするのもめんどくさいのにそのテキストもまともに取れない。PDFってなんなんマジ。

pythonでPDFのデータを抜き取る

本題です。ムカついたからpdfplumberと言うライブラリを使ってpythonでCSV化します

pdf is dead

import pdfplumber

pdf_url = "https://xxxxxxxxxxxxxxxxxxxxxxxxxx.pdf"

# PDFファイルを保存
r = requests.get(pdf_url, allow_redirects=True)
open('local.pdf', 'wb').write(r.content)

# PDFファイルを開く
with pdfplumber.open('p.pdf') as pdf:
    # ページごとにループ処理
    for page in pdf.pages:
        # これでテキスト取れる
        text = page.extract_text()
        print(text)

        # これでCSVでデータ取れる
        tables = page.extract_tables()
        for table in tables:
            for row in table:
                print(row)

#### local.pdf 消したい人はここでファイル削除なりして
                    

こんな感じで出てくる(ネット上のファイルでやってるから一応ぼかしとく)
image.png

PDFとかデファクトスタンダードツラしてるのが嫌すぎる。

PDFとかデファクトスタンダードツラしてるのが嫌すぎる。

PDFとかデファクトスタンダードツラしてるのが嫌すぎる。

PDFとかデファクトスタンダードツラしてるのが嫌すぎる。
PDFとかデファクトスタンダードツラしてるのが嫌すぎる。

PDFとかデファクトスタンダードツラしてるのが嫌すぎる。jsonでくれ。

3
1
0

Register as a new user and use Qiita more conveniently

  1. You get articles that match your needs
  2. You can efficiently read back useful information
  3. You can use dark theme
What you can do with signing up
3
1