PDFをHTMLに変換することで、PDFファイルを編集可能でインタラクティブなHTML形式に変換することができ、文書の使いやすさと普及効率を向上させることができます。この記事では、PDFからHTMLへの変換にPythonを使用する方法を詳しく説明します。
Python PDF 変換ライブラリ
Spire.PDF for Pythonは、PDFファイルを処理・変換するための豊富な機能を備えたPythonライブラリです。ライブラリをインストールするには、以下のpipコマンドを使用します:
install Spire.PDF
PythonでPDFをHTMLに変換する
PDFファイルは3行のコードでHMTLファイルに変換できる。手順は以下の通り:
-
LoadFromFile()
メ ソ ッ ド を使っ て PDF 文書を読み込みます。 -
SaveToFile(fileName, FileFormat.HTML)
メソッドを使ってPDF文書をHTML形式に保存します。
Pythonコード:
from spire.pdf.common import *
from spire.pdf import *
# PDF文書を読み込む
pdf = PdfDocument()
pdf.LoadFromFile("InputR.pdf")
# PDF文書をHTML形式に保存する
pdf.SaveToFile("PdfToHtml.html", FileFormat.HTML)
pdf.Close()
Pythonでオプションを使ってPDFをHTMLに変換する (SVGや画像などを埋め込むかどうか)
Spire.PDF for Pythonは、変換オプションを指定するために、PdfConvertOptions
クラスの SetPdfToHtmlOptions()
メソッドも提供しています。このメソッドによって、SVGや画像を埋め込むかどうかを設定したり、各HTMLファイルに含まれる最大ページ数を設定したりすることができます。
SetPdfToHtmlOptions()
メソッドは以下のパラメータを受け付けます:
-
useEmbeddedSvg(bool)
: HTMLファイルにSVGを埋め込むかどうかを指定します。 -
useEmbeddedImg(bool)
: HTMLファイルに画像を埋め込むかどうかを示します。(このオプションは useEmbeddedSvg が False に設定されているときのみ動作します)。 -
maxPageOneFile(bool)
: 1つのHTMLファイルに含まれるページ数の上限を指定します。(このオプションはuseEmbeddedSvgがFalseに設定されているときのみ機能します)。 -
useHighQualityEmbeddedSvg(bool)
: HTML ファイルに高品質の埋め込み SVG を使うかどうかを示す。(このオプションは useEmbeddedSvg が True に設定されている時に動作します)。
Pythonコード:
from spire.pdf.common import *
from spire.pdf import *
# PDF文書を読み込む
pdf = PdfDocument()
pdf.LoadFromFile("file.pdf")
# HTMLファイルに画像を埋め込むように設定し、各ファイルには1ページのみを含める
pdfToHtmlOptions = pdf.ConvertOptions
pdfToHtmlOptions.SetPdfToHtmlOptions(False, True, 1, False)
# PDF文書をHTML形式に保存する
pdf.SaveToFile("PdfToHtmlWithOptions.html", FileFormat.HTML)
pdf.Close()
上記のサンプルコードを通して、Pythonで簡単にPDFをHTMLに変換することができました。PDF文書の変換機能については、こちらを参照してください:
赤い評価の警告を消す方法: