word文書(docx)ファイルをmarkdown形式に変換する

More than 1 year has passed since last update.


はじめに

pandocを使ってmarkdownをword文書に変換する方法はよく紹介されていますが、

過去の資産をmarkdown化するなどの動機で逆(docx→md)を実行したくなるときもあります。書式など色々設定していると中々きれいに変換できなかったのですが、pandocのオプションを適切に指定するとある程度うまくいくようです。


docx→md

pandocでdocxを変換する際、出力フォーマット指定でraw_html,native_divs,native_spansを抑止すればよいようです。

pandoc hoge.docx -t markdown-raw_html-native_divs-native_spans -o hoge.md 

参考:http://stackoverflow.com/questions/35807092


画像ファイル

本文に画像を含む場合、そのままではmedia/image1.wmfなどのリンクがあるだけで、画像ファイル自体は出力されません。以下の手順で、mediaフォルダをdocxファイルから抽出します。


  1. docxファイルの拡張子をzipに変えて解凍する

  2. 解凍されたフォルダのword/mediaフォルダを取得する

wmfファイルはAtomなどのエディタで表示できないようですので、jpegなりpngなりに一括すると良いです。私はMicrosoft Office Picture Managerを使いましたが、ファイル名(拡張子以外)そのままでwmfを一括で変換できるツールなら何でもいいと思います。


  1. wmfをpng/jpegに一括変換

  2. mdファイル中の.wmfを.png/.jpegに一括置換

以上