PDFから表を抽出し、DataFrameやMarkDown形式に加工する。

Last updated at 2026-01-17Posted at 2024-09-22

はじめに

PDF内の表データを取り出して、pandasで解析したりMarkDown形式でできないか調べてみた。pymupdfというPythonライブラリ使う。
その他PythonでPDF処理できる内容については、別記事でまとめているので👇を参照。

コマンド	内容
pdf = pymupdf.open('ファイル名')	PDFファイルを読み出し
tables=pdf[page]find_tables().tables	指定したpageにテーブルがあればオブジェクトを出力する
tables[table].extract()	指定したtableを配列形式で出力する。
tables[table].to_pandas()	指定したtableをPandasのDataFrame形式で出力する。
tables[table].to_markdown()	指定したtableをMarkDown形式で出力する。

import pymupdf 

pdf_file = input('PDFファイル名：')
pdf = pymupdf.open(pdf_file)

for page in pdf:
	#表情報を確認
	tables = page.find_tables().tables
	
	#表があれば
	if(tables):
		print(f'{page=}/{len(tables)=}')
		for table in tables:
			# DataFrame形式
			print(table.to_pandas())
			# MarkDown形式
			print(table.to_markdown())
			# 配列形式
			print(table.extract())

テーブルをエクセルに出力する例

import pymupdf
import pandas as pd

pdf = pymupdf.open(input('PDFファイル名：'))

with pd.ExcelWriter("output.xlsx", engine="openpyxl") as writer:
    
    # 各ページ検索
    for page_number, page in enumerate(pdf, start=1):
        #テーブルを抜き出す
        tables = page.find_tables().tables

        #テーブルがあれば
        if tables:
            print(f"{page_number=}/{len(pdf)},{len(tables)=}")

            # テーブル毎にシート作成して出力
            for table_number, table in enumerate(tables, start=1):
                data = table.extract()
                df = pd.DataFrame(data)

                sheet_name = f"page{page_number}_table{table_number}"
                df.to_excel(writer, sheet_name=sheet_name, index=False)

print("Excel 出力完了: output.xlsx")

戻る

用途

例えば各企業のIR情報などはPDFで配信されているので、その表から情報を取得したり、下記のような統計サイトのPDF情報からデータを抽出するときに便利と思う。

戻る

You get articles that match your needs
You can efficiently read back useful information
You can use dark theme

What you can do with signing up

PDFから表を抽出し、DataFrameやMarkDown形式に加工する。

はじめに

目次

ライブラリ：pymupdf

使い方

用途