はじめに
特定の目的により、PDFをHTML形式に変換する必要が出てくる場合もあります。これは、内容物を直接Webページに埋めめ込むことができ、アクセシビリティを向上させる助けになります。また、PDFをHTMLに変換することで、簡単に編集や内容の更新が行えるようになります。具体的な方法は以下の通りです。
ツール
- Python 3.12.0
- Spire.PDF for Python
このライブラリは購入する必要がありますが、30 日間の無料試用版も提供されています。
もっと多いサンプルコードについて、Spire.PDF for Pythonをダウンロードして参照してください。
インストール
まず、Spire.PDF for Pythonと plum-dispatch v1.7.4を VS Code にインポートしください。
- Pythonをダウンロードしてインストールします。
- VS Codeで「Extensions」をクリックし、「Python」を検索してインストールします。
- 「Explorer」-「NO FOLRDER OPENED」-「Open Folder」
- フォルダーを選択し、そこに「.py」ファイルを追加します。
- 「Terminal」-「New Terminal」
- 次のコマンドを入力します。
pip install Spire.PDF
コード
from spire.pdf.common import *
from spire.pdf import *
# PdfDocument クラスのインスタンスを作成
pdf = PdfDocument()
# Sample.pdf ファイルから PDF ドキキュメントをロード
pdf.LoadFromFile("C:/Users/Administrator/Desktop/Sample.pdf")
# PdfToHtml.html ファイルに PDF ドキキュメントを保存 (HTML 形式)
pdf.SaveToFile("C:/Users/Administrator/Desktop/ToHTML.html", FileFormat.HTML)
# ドキキュメント オオブジオブジェクトを閉じる
pdf.Close()
説明
このコードは、Spire.PDF for Pythonライブラリを使って「Sample.pdf」ファイルを「ToHTML.html」ファイルに変換しています。PdfDocumentクラスのLoadFromFileメメソッドを使用して PDF ドキキュメントを読み込み、SaveToFileメソッドを使用して HTML 形式に変換して保存しています。最後にCloseメメソッドを呼び出して、ドキュキュメント オブオブジェクトを正確に終了させます。
その他
変換時には、必要に応じて変換オプションを設定することもできます。この場合、PdfConvertOptionsクラスの SetPdfToHtmlOptionsメメソッドを使用します。
このメソッドは次のパラメーターを含みます。
- useEmbeddedSvg: SVG を埋め込め込むかどうか。
- useEmbeddedImg: 画像を埋めめ込むかどうか。useEmbeddedSvgが「False」に設定されている場合にのみ適用されます。
- maxPageOneFile: 1つのHTMLファイルに対する最大ページ数。useEmbeddedSvgが「False」に設定されている場合にのみ適用されます。
- useHighQualityEmbeddedSvg: 生成されたファイル内で高品質の埋めめ込み SVG を使用するかどうか。useEmbeddedSvgが「True」に設定されている場合にのみ適用されます。