1
1

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?

PythonコードでPDFドキュメントをExcelファイルに変換

Last updated at Posted at 2024-07-04

PDFファイルは、一貫したフォーマットを異なるデバイスで維持できるため、コンテンツの保存や共有に一般的に使用されます。しかし、データの編集や分析には適していません。一方、Excelファイルはデータ分析や操作の豊富な機能で広く使用されています。PDFドキュメントをExcelファイルに変換することで、データの編集や分析が容易になります。さらに、強力なPython言語を使用することで、変換プロセスを自動化し、時間と労力を節約できます。

この記事では、Pythonを使用してPDFドキュメントをExcelファイルに変換する方法を示します。

この記事で使用する方法には、Spire.PDF for Pythonが必要です。PyPIからインストールします: pip install Spire.PDF.

無料ライセンスの申請

PythonでPDFドキュメントをExcelファイルに変換

このライブラリを使用すると、PdfDocument.SaveToFile()メソッドを利用してPDFドキュメントをExcelファイルに変換できます。変換の前に、XlsxLineLayoutOptionsクラスのオブジェクトを作成して変換オプションを指定し、PdfDocument.ConvertOptions.SetPdfToXlsxOptions()メソッドで適用できます。XlsxLineLayoutOptionsクラスのコンストラクタは次の5つのパラメータを受け取り、PDFドキュメントをExcelワークブックにどのように変換するかを制御します:

  • convertToMultipleSheet (bool): 各ページを同じExcelの異なるワークシートに変換するかどうかを指定します。Falseに設定すると、最初のページのみが変換されます。
  • rotatedText (bool): 回転したテキストを表示するかどうかを指定します。
  • splitCell (bool): PDFセル内のテキストを1つのExcelセルまたは複数のセルに変換するかどうかを指定します。
  • wrapText (bool): Excelセル内でテキストを折り返すかどうかを指定します。
  • overlapText (bool): 重なったテキストを表示するかどうかを指定します。

PDFドキュメントをExcelファイルに変換するための詳細な手順は次の通りです:

  1. 必要なモジュールをインポートします。
  2. PdfDocumentクラスのインスタンスを作成します。
  3. PdfDocument.LoadFromFile()メソッドを使用してPDFドキュメントを読み込みます。
  4. XlsxLineLayoutOptionsクラスのインスタンスを作成し、変換オプションを設定します。
  5. PdfDocument.ConvertOptions.SetPdfToXlsxOptions()メソッドを使用して変換オプションを適用します。
  6. PdfDocument.SaveToFile()メソッドを使用してPDFドキュメントをExcelファイルに保存します。
  7. リソースを解放します。

コード例

from spire.pdf.common import *
from spire.pdf import *

# PdfDocumentのインスタンスを作成
pdf = PdfDocument()

# PDFドキュメントを読み込む
pdf.LoadFromFile("Sample.pdf")

# XlsxLineLayoutOptionsオブジェクトを作成し、変換オプションを指定
# パラメータ: convertToMultipleSheet, rotatedText, splitCell, wrapText, overlapText
convertOptions = XlsxLineLayoutOptions(True, True, False, True, False)

# 変換オプションを設定
pdf.ConvertOptions.SetPdfToXlsxOptions(convertOptions)

# PDFドキュメントをExcel XLSX形式で保存
pdf.SaveToFile("PDFをExcelに変換.xlsx", FileFormat.XLSX)
pdf.Close()

変換結果
PythonでPDFをExcelに変換

この記事では、Pythonを使用してPDFドキュメントをExcelファイルに変換する方法を示しました。

他のPDFファイル処理技術については、Spire.PDF for Pythonのチュートリアルをご覧ください。

1
1
0

Register as a new user and use Qiita more conveniently

  1. You get articles that match your needs
  2. You can efficiently read back useful information
  3. You can use dark theme
What you can do with signing up
1
1

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?