Qiita Teams that are logged in
You are not logged in to any team

Log in to Qiita Team
Community
OrganizationEventAdvent CalendarQiitadon (β)
Service
Qiita JobsQiita ZineQiita Blog
68
Help us understand the problem. What are the problem?

More than 5 years have passed since last update.

@kinagaki

word文書(docx)ファイルをmarkdown形式に変換する

はじめに

pandocを使ってmarkdownをword文書に変換する方法はよく紹介されていますが、
過去の資産をmarkdown化するなどの動機で逆(docx→md)を実行したくなるときもあります。書式など色々設定していると中々きれいに変換できなかったのですが、pandocのオプションを適切に指定するとある程度うまくいくようです。

docx→md

pandocでdocxを変換する際、出力フォーマット指定でraw_html,native_divs,native_spansを抑止すればよいようです。

pandoc hoge.docx -t markdown-raw_html-native_divs-native_spans -o hoge.md 

参考:http://stackoverflow.com/questions/35807092

画像ファイル

本文に画像を含む場合、そのままではmedia/image1.wmfなどのリンクがあるだけで、画像ファイル自体は出力されません。以下の手順で、mediaフォルダをdocxファイルから抽出します。

  1. docxファイルの拡張子をzipに変えて解凍する
  2. 解凍されたフォルダのword/mediaフォルダを取得する

wmfファイルはAtomなどのエディタで表示できないようですので、jpegなりpngなりに一括すると良いです。私はMicrosoft Office Picture Managerを使いましたが、ファイル名(拡張子以外)そのままでwmfを一括で変換できるツールなら何でもいいと思います。

  1. wmfをpng/jpegに一括変換
  2. mdファイル中の.wmfを.png/.jpegに一括置換

以上

Why not register and get more from Qiita?
  1. We will deliver articles that match you
    By following users and tags, you can catch up information on technical fields that you are interested in as a whole
  2. you can read useful information later efficiently
    By "stocking" the articles you like, you can search right away
68
Help us understand the problem. What are the problem?