More than 1 year has passed since last update.

tabulaでPDFから表を抽出する

Posted at 2024-02-28

今回はPDFから表を抽出することができるtabulaライブラリを紹介します。

トヨタ自動車の23年3月期決算資料のPDF資料から営業収益、営業利益、税引前利益、当期利益、親会社の所有者に帰属する当期利益、当期包括利益をpandasの表として抜き出し、CSVファイルに出力してみました。

tabulaとは

Pythonのtabulaライブラリは、PDFファイルや画像ファイルから表データを抽出するオープンソースライブラリです。Javaで開発されたTabulaライブラリのPythonラッパーであり、使いやすさと高い精度で知られています。

主な機能としては以下のようなものがあります。

PDFファイルや画像ファイルから表データを抽出
抽出した表データをpandasのDataFrameに変換
複数ページにわたる表データの抽出
表データのヘッダー行の自動認識
抽出対象となる表の範囲指定

tabulaの使い方

まずはtabulaのインストールを行います

tabula.py

pip install tabula-py

続いてライブラリのインポートを行います。
出力がpandasのデータベースとなるため、pandasも併せてインポートしておきます。

tabula.py

import pandas as pd
import tabula

これでtabulaが使えるようになりました。
実際にPDFから表を抽出するには以下のようにコードを書きます。

tabula.py

dfs = tabula.read_pdf("PDFへのパス", pages = 'ページ数')

ここでインポートがうまくいかず、以下のようなエラーが出る場合があります。
java command is not found from this Python process.Please ensure Java is installed and PATH is set for java

その場合はjavaがインストールされていない場合がありますので、以下URLよりJavaをインストールしてください。

tabulaによるデータ抽出

早速tabulaを使い、トヨタ自動車の23年3月期決算資料のPDF資料から利益情報を抜き出してみます。

tabula.py

import pandas as pd
import tabula

dfs = tabula.read_pdf("toyota_fiscal.pdf", pages = '2')

for df in dfs:
    display(df)

このように様々な情報を表形式で抜き出すことができました。
構造としては、一つの大きなデータフレームの中にPDF内の表が上から順番に入っているイメージです。
試しに一番初めの表を表示させてみます。

tabula.py

dfs[0]

表の抽出はうまくできているのですが、余計な行や列が含まれていることが分かります。
表として抜き出すため、データの成形を行います。

tabula.py

#不要な行の削除
df = df.drop(range(0,3)).reset_index(drop=True)
#不要な列の削除
df = df.dropna(axis = 1)

#各項目について、値を抜き出す
#期を抜き出す
df_term = df["Unnamed: 0"]
df_term

#営業収益
df_operating_revenue = df[["Unnamed: 1","Unnamed: 2"]]
df_operating_revenue.columns = ["営業収益", "増減"]
df_operating_revenue

#営業利益
df_operating_income = df["Unnamed: 3"].str.split(' ',expand=True)
df_operating_income.columns = ["営業利益", "増減"]
df_operating_income

#税引前利益
df_pretax_profit = df["Unnamed: 5"].str.split(' ',expand=True)
df_pretax_profit.columns = ["税引前利益", "増減"]
df_pretax_profit

#当期利益
df_net_income = df["Unnamed: 7"].str.split(' ',expand=True)
df_net_income.columns = ["当期利益", "増減"]
df_net_income

#親会社の所有者に帰属する当期利益
df_net_income_owners = df["親会社の所有者に"].str.split(' ',expand=True)
df_net_income_owners.columns = ["親会社の所有者に帰属する当期利益", "増減"]
df_net_income_owners

#当期包括利益
df_net_income_comprehensive = df["当期包括利益"].str.split(' ',expand=True)
df_net_income_comprehensive.columns = ["当期包括利益", "増減"]
df_net_income_comprehensive

#抜き出したデータを結合し、一つにする
df = pd.concat([df_term, df_operating_revenue, df_operating_income, df_pretax_profit, df_net_income, df_net_income_owners, df_net_income_comprehensive], axis=1)

df.to_csv("data/toyota_fisical.csv")

これできれいに各項目とその増減について抜き出すことができました。

まとめ

tabulaライブラリは、PDFファイルや画像ファイルから表データを抽出する際に非常に便利なライブラリです。使いやすく、高精度な抽出が可能なため、データ分析や資料作成など、さまざまな場面で活用できます。

データ成型の仕方を工夫すれば、様々なデータに適用させることができると思います。

You get articles that match your needs
You can efficiently read back useful information
You can use dark theme

What you can do with signing up