0
1

PythonでPDFをHTMLに変換する

Last updated at Posted at 2024-02-28

はじめに

特定の目的により、PDFをHTML形式に変換する必要が出てくる場合もあります。これは、内容物を直接Webページに埋めめ込むことができ、アクセシビリティを向上させる助けになります。また、PDFをHTMLに変換することで、簡単に編集や内容の更新が行えるようになります。具体的な方法は以下の通りです。

ツール

このライブラリは購入する必要がありますが、30 日間の無料試用版も提供されています。
もっと多いサンプルコードについて、Spire.PDF for Pythonをダウンロードして参照してください。

インストール

まず、Spire.PDF for Pythonと plum-dispatch v1.7.4を VS Code にインポートしください。

  • Pythonをダウンロードしてインストールします。
  • VS Codeで「Extensions」をクリックし、「Python」を検索してインストールします。
  • 「Explorer」-「NO FOLRDER OPENED」-「Open Folder」
  • フォルダーを選択し、そこに「.py」ファイルを追加します。
  • 「Terminal」-「New Terminal」
  • 次のコマンドを入力します。
    pip install Spire.PDF

コード

from spire.pdf.common import *
from spire.pdf import *

# PdfDocument クラスのインスタンスを作成
pdf = PdfDocument()

# Sample.pdf ファイルから PDF ドキキュメントをロード
pdf.LoadFromFile("C:/Users/Administrator/Desktop/Sample.pdf")

# PdfToHtml.html ファイルに PDF ドキキュメントを保存 (HTML 形式)
pdf.SaveToFile("C:/Users/Administrator/Desktop/ToHTML.html", FileFormat.HTML)

# ドキキュメント オオブジオブジェクトを閉じる
pdf.Close()  

説明

このコードは、Spire.PDF for Pythonライブラリを使って「Sample.pdf」ファイルを「ToHTML.html」ファイルに変換しています。PdfDocumentクラスのLoadFromFileメメソッドを使用して PDF ドキキュメントを読み込み、SaveToFileメソッドを使用して HTML 形式に変換して保存しています。最後にCloseメメソッドを呼び出して、ドキュキュメント オブオブジェクトを正確に終了させます。

その他

変換時には、必要に応じて変換オプションを設定することもできます。この場合、PdfConvertOptionsクラスの SetPdfToHtmlOptionsメメソッドを使用します。
このメソッドは次のパラメーターを含みます。

  • useEmbeddedSvg: SVG を埋め込め込むかどうか。
  • useEmbeddedImg: 画像を埋めめ込むかどうか。useEmbeddedSvgが「False」に設定されている場合にのみ適用されます。
  • maxPageOneFile: 1つのHTMLファイルに対する最大ページ数。useEmbeddedSvgが「False」に設定されている場合にのみ適用されます。
  • useHighQualityEmbeddedSvg: 生成されたファイル内で高品質の埋めめ込み SVG を使用するかどうか。useEmbeddedSvgが「True」に設定されている場合にのみ適用されます。
0
1
0

Register as a new user and use Qiita more conveniently

  1. You get articles that match your needs
  2. You can efficiently read back useful information
  3. You can use dark theme
What you can do with signing up
0
1