PDFファイルは、一貫したフォーマットを異なるデバイスで維持できるため、コンテンツの保存や共有に一般的に使用されます。しかし、データの編集や分析には適していません。一方、Excelファイルはデータ分析や操作の豊富な機能で広く使用されています。PDFドキュメントをExcelファイルに変換することで、データの編集や分析が容易になります。さらに、強力なPython言語を使用することで、変換プロセスを自動化し、時間と労力を節約できます。
この記事では、Pythonを使用してPDFドキュメントをExcelファイルに変換する方法を示します。
この記事で使用する方法には、Spire.PDF for Pythonが必要です。PyPIからインストールします: pip install Spire.PDF
.
PythonでPDFドキュメントをExcelファイルに変換
このライブラリを使用すると、PdfDocument.SaveToFile()
メソッドを利用してPDFドキュメントをExcelファイルに変換できます。変換の前に、XlsxLineLayoutOptions
クラスのオブジェクトを作成して変換オプションを指定し、PdfDocument.ConvertOptions.SetPdfToXlsxOptions()
メソッドで適用できます。XlsxLineLayoutOptions
クラスのコンストラクタは次の5つのパラメータを受け取り、PDFドキュメントをExcelワークブックにどのように変換するかを制御します:
-
convertToMultipleSheet (bool)
: 各ページを同じExcelの異なるワークシートに変換するかどうかを指定します。Falseに設定すると、最初のページのみが変換されます。 -
rotatedText (bool)
: 回転したテキストを表示するかどうかを指定します。 -
splitCell (bool)
: PDFセル内のテキストを1つのExcelセルまたは複数のセルに変換するかどうかを指定します。 -
wrapText (bool)
: Excelセル内でテキストを折り返すかどうかを指定します。 -
overlapText (bool)
: 重なったテキストを表示するかどうかを指定します。
PDFドキュメントをExcelファイルに変換するための詳細な手順は次の通りです:
- 必要なモジュールをインポートします。
-
PdfDocument
クラスのインスタンスを作成します。 -
PdfDocument.LoadFromFile()
メソッドを使用してPDFドキュメントを読み込みます。 -
XlsxLineLayoutOptions
クラスのインスタンスを作成し、変換オプションを設定します。 -
PdfDocument.ConvertOptions.SetPdfToXlsxOptions()
メソッドを使用して変換オプションを適用します。 -
PdfDocument.SaveToFile()
メソッドを使用してPDFドキュメントをExcelファイルに保存します。 - リソースを解放します。
コード例
from spire.pdf.common import *
from spire.pdf import *
# PdfDocumentのインスタンスを作成
pdf = PdfDocument()
# PDFドキュメントを読み込む
pdf.LoadFromFile("Sample.pdf")
# XlsxLineLayoutOptionsオブジェクトを作成し、変換オプションを指定
# パラメータ: convertToMultipleSheet, rotatedText, splitCell, wrapText, overlapText
convertOptions = XlsxLineLayoutOptions(True, True, False, True, False)
# 変換オプションを設定
pdf.ConvertOptions.SetPdfToXlsxOptions(convertOptions)
# PDFドキュメントをExcel XLSX形式で保存
pdf.SaveToFile("PDFをExcelに変換.xlsx", FileFormat.XLSX)
pdf.Close()
この記事では、Pythonを使用してPDFドキュメントをExcelファイルに変換する方法を示しました。
他のPDFファイル処理技術については、Spire.PDF for Pythonのチュートリアルをご覧ください。