WordをHTMLに変換することで、ユーザーが特定のソフトウェアをインストールすることなく、ブラウザで直接文書を表示したり読んだりできるように、文書の内容をWebページで公開することができます。WordをWebページに変換すると、情報をオンラインで公開したり、オンライン・ドキュメント・ライブラリを作成したり、インタラクティブなWebアプリケーションを構築したりするのに便利です。
以下は、Pythonを使ってWordをHTMLに変換する方法の2つの例です。
- PythonでWord Doc/DocxをHTMLに変換する
- PythonでWordをHTMLに変換し、CSSスタイルや画像などを埋め込む
Python Wordライブラリのインストール
Word Doc/DocxからHTMLへの変換を行う前に、Spire.Doc for Pythonライブラリをインストールする必要があります。これは専門的なPython Word開発コンポーネントであり、簡単にWordドキュメントを作成、読み取り、編集、変換することができます。
ライブラリは以下のpipコマンドでインストールできます:
pip install Spire.Doc
PythonでWord Doc/DocxをHTMLに変換する
最初の例は特に簡単な変換方法です。.docまたは.docx文書を読み込み、Document.SaveToFile (FileName string, FileFormat.Html) メソッドを使用してWord文書をHtml形式で保存するだけです。
Pythonコードサンプル:
from spire.doc import *
from spire.doc.common import *
# Documentオブジェクトの作成
document = Document()
# docまたはdocxドキュメントの読み込み
document.LoadFromFile("Input.docx")
# HTMLファイルとして保存
document.SaveToFile("WordtoHtml.html", FileFormat.Html)
document.Close()
PythonでWordをHTMLに変換し、CSSスタイルや画像などを埋め込む
内部スタイルや外部スタイルなど、変換時に特定のCSSスタイルを埋め込みたい場合や、画像を埋め込む必要がある場合は、Spire.Doc for Pythonが提供するHtmlExportOptionsクラスを使用できます。
Pythonコードサンプル:
from spire.doc import *
from spire.doc.common import *
# Documentオブジェクトの作成
document = Document()
# docまたはdocxドキュメントの読み込み
document.LoadFromFile("Input.docx")
# CSSスタイルの埋め込み
document.HtmlExportOptions.CssStyleSheetFileName = "sample.css"
document.HtmlExportOptions.CssStyleSheetType = CssStyleSheetType.External
# 画像を埋め込むかどうかの設定
document.HtmlExportOptions.ImageEmbedded = False
document.HtmlExportOptions.ImagesPath = "Images/"
# フォームフィールドをプレーンテキストとしてエクスポートするかどうかを設定するdocument.HtmlExportOptions.IsTextInputFormFieldAsText = True
#ドキュメントをhtmlファイルとして保存する
document.SaveToFile("ToHtml.html", FileFormat.Html)
document.Close()
Spire.Doc for PythonのWordドキュメントの操作、編集、変換機能の詳細については、こちらをご覧ください:
https://www.e-iceblue.com/Tutorials/Python/Spire.Doc-for-Python/Program-Guide/Spire.Doc-for-Python-Program-Guide-Content.html