LoginSignup
68
78

More than 5 years have passed since last update.

word文書(docx)ファイルをmarkdown形式に変換する

Posted at

はじめに

pandocを使ってmarkdownをword文書に変換する方法はよく紹介されていますが、
過去の資産をmarkdown化するなどの動機で逆(docx→md)を実行したくなるときもあります。書式など色々設定していると中々きれいに変換できなかったのですが、pandocのオプションを適切に指定するとある程度うまくいくようです。

docx→md

pandocでdocxを変換する際、出力フォーマット指定でraw_html,native_divs,native_spansを抑止すればよいようです。

pandoc hoge.docx -t markdown-raw_html-native_divs-native_spans -o hoge.md 

参考:http://stackoverflow.com/questions/35807092

画像ファイル

本文に画像を含む場合、そのままではmedia/image1.wmfなどのリンクがあるだけで、画像ファイル自体は出力されません。以下の手順で、mediaフォルダをdocxファイルから抽出します。

  1. docxファイルの拡張子をzipに変えて解凍する
  2. 解凍されたフォルダのword/mediaフォルダを取得する

wmfファイルはAtomなどのエディタで表示できないようですので、jpegなりpngなりに一括すると良いです。私はMicrosoft Office Picture Managerを使いましたが、ファイル名(拡張子以外)そのままでwmfを一括で変換できるツールなら何でもいいと思います。

  1. wmfをpng/jpegに一括変換
  2. mdファイル中の.wmfを.png/.jpegに一括置換

以上

68
78
0

Register as a new user and use Qiita more conveniently

  1. You get articles that match your needs
  2. You can efficiently read back useful information
  3. You can use dark theme
What you can do with signing up
68
78