LoginSignup
0
2

PythonでPDFからWord(DOC, DOCX)への変換を実現

Last updated at Posted at 2023-12-29

PDF(Portable Document Format)は広く使用されている電子ドキュメントフォーマットです。PDFの主な利点はクロスプラットフォームであり、異なるデバイス上で一貫した外観を提供できることです。しかし、ファイルの内容を編集や修正する必要がある場合、PDFファイルを直接編集することは非常に困難であり、効果も思わしくありません。PDFファイルをWordドキュメント(doc、docx)に変換してから編集する方が良い選択肢です。
本記事では、Pythonプログラミング言語を使用して、ライブラリやツールを組み合わせて、PDFファイルを編集可能なWordドキュメントに変換する方法について説明します。以下の項目が含まれます:

本記事で紹介する方法には、Spire.PDF for Pythonが必要です。公式ウェブサイトからダウンロードするか、PyPIを介してインストールできます:pip install Spire.PDF

PDFファイルをWordドキュメントに変換する利点

PDFファイルをWordドキュメントに変換することには、次のような多くの利点があります:

  • 編集と修正が容易:PDFファイルは通常、閲覧および印刷に適していますが、直接編集することは非常に困難であり、理想的な結果を得るのは難しいです。PDFをWordドキュメントに変換することで、テキストの追加や削除、書式の変更など、多くの操作を簡単に行うことができます。
  • 共同編集が容易:Wordドキュメントを使用して共同編集を行うことは、共同作業の理想的な解決策です。多くの共同編集プラットフォームは、リアルタイムで編集内容を更新する機能をサポートしており、コンテンツの作成に大きな便利さをもたらします。PDFファイルをこれらの便利な共同編集機能を利用するには、Wordドキュメントに変換する必要があります。
  • データの抽出:時には、PDFファイルから特定のデータやテキストを抽出する必要があります。PDFをWordドキュメントに変換することで、必要な情報をより簡単に抽出し、さらなるデータ処理や分析を行うことができます。

Pythonを使用してPDFファイルをWordドキュメントに変換する方法(DocおよびDocx)

PdfDocument クラスはPDFドキュメントを表し、その下の LoadFromFile() メソッドを使用してファイルからPDFドキュメントを読み込むことができます。ドキュメントを読み込んだ後、PdfDocument クラスの SaveToFile() メソッドを使用してPDFドキュメントを他の形式のファイルに変換して保存することができます。変換できる形式には、Doc、Docx、HTML、SVGなどがあります。SaveToFile() メソッドを使用する際には、保存パスと FileFormat 列挙型を引数として渡すだけです。

以下は操作手順の概要です:

  1. モジュールをインポートする。
  2. PdfDocument クラスのインスタンスを作成する。
  3. LoadFromFile() メソッドを使用してPDFファイルを読み込む。
  4. SaveToFile() メソッドを使用してPDFドキュメントをDOCまたはDOCX形式のWordドキュメントに変換し、インスタンスを閉じる。

コードの例:

from spire.pdf import PdfDocument
from spire.pdf import FileFormat

# 创建PdfDocument类的实例
pdf = PdfDocument()

# 载入PDF文件
pdf.LoadFromFile("示例.pdf")

# 将PDF文件直接转换为Doc文件并保存
pdf.SaveToFile("output/PDF转DOC.doc", FileFormat.DOC)

# 将PDF文件直接转换为Docx文件并保存
pdf.SaveToFile("output/PDF转DOCX.docx", FileFormat.DOCX)

# 关闭实例
pdf.Close()

元のPDFドキュメント:
PDFファイルをWordドキュメントに変換

変換結果:
PDFファイルをWordドキュメントに変換

Pythonを使用してPDFドキュメントをWordファイルに変換し、文書の属性を設定する方法

上記の方法以外にも、ファイルパスを引数として使用して PdfToDocConverter クラスを作成し、変換インスタンスを作成することもできます。このクラスを使用して変換する際には、ドキュメントの属性を設定することもできます。この方法では、DOCおよびDOCXファイルにのみ変換できます。
以下は操作手順の概要です:

  1. モジュールをインポートする。
  2. PdfToDocConverter クラスのインスタンスを作成する。
  3. PdfToDocConverter.DocxOptions プロパティのプロパティを使用して変換されたWordドキュメントの文書属性を設定する。
  4. SaveToFile() メソッドを使用してPDFファイルをDOCまたはDOCXファイルに保存します。引数がTrueの場合はDOCXファイルに変換し、Falseの場合はDOCファイルに変換します。

コードの例:

from spire.pdf import PdfToDocConverter

# PdfToDocConverterクラスのインスタンスを作成する
converter = PdfToDocConverter("サンプル.pdf")

# 変換されたWord文書のドキュメント属性を設定する
converter.DocxOptions.Title = "企業計画"
converter.DocxOptions.Subject = "企業の管理と運営に関する計画の草案です。"
converter.DocxOptions.Tags = "企業, 企業管理, 作業計画"
converter.DocxOptions.Categories = "作業計画"
converter.DocxOptions.Comments = "この計画は草案であり、作業計画の大まかな内容が定められており、詳細な内容の確定についてさらなる議論が必要です。"
converter.DocxOptions.Authors = "李莉"
converter.DocxOptions.LastSavedBy = "王銀"
converter.DocxOptions.Revision = 8
converter.DocxOptions.Version = "V4.0"
converter.DocxOptions.ProgramName = "Python"
converter.DocxOptions.Company = "企業名"
converter.DocxOptions.Manager = "企業名"

# PDFファイルを直接DOCファイルに変換して保存する
converter.SaveToDocx("output/PDFをDOCに変換_属性設定.doc", False)

# PDFファイルを直接DOCXファイルに変換して保存する
converter.SaveToDocx("output/PDFをDOCXに変換_属性設定.docx", True)

変換されたWordドキュメントの文書属性:
PDFドキュメントをDocxファイルに変換

結論

上記の記事では、Pythonコードを使用してPDFファイルをWordドキュメントに変換する方法、DOCおよびDOCX形式に変換する方法、および変換時に結果のドキュメントの属性を設定する方法を紹介しました。Spire.PDF for Pythonは、HTML、SVG、JPEG、PNG画像、Tiff、RTFなど、他の多くの形式にもPDFファイルを変換することができます。詳細については、Spire.PDF for Pythonのチュートリアルを参照してください。

0
2
0

Register as a new user and use Qiita more conveniently

  1. You get articles that match your needs
  2. You can efficiently read back useful information
  3. You can use dark theme
What you can do with signing up
0
2