きっかけ
markdownでの作文、ドキュメント管理を今後推奨していくにあたり、既存の文書データ(pdfとかword文書など)をmarkdownに変換できるツールないかなって探してるところでpandocに行き当たったので使ってみる。今回はあくまでお試し。
pandocについて
pandoc日本語ユーザーガイドはこちら
http://sky-y.github.io/site-pandoc-jp/users-guide/
以下引用
対応している入力形式は以下の通りです:
markdown Textile (のサブセット、以下同様) reStructuredText HTML LaTeX MediaWiki markup Haddock markup OPML Emacs Org-mode DocBook出力形式は以下の通りです:
プレーンテキスト markdown reStructuredText XHTML HTML 5 LaTeX (beamerスライドショーを含む) ConTeXt RTF OPML DocBook OpenDocument ODT Word docx GNU Texinfo MediaWiki markup EPUB (v2またはv3) FictionBook2 Textile groff manページ Emacs Org-Mode AsciiDoc InDesign ICML HTMLスライドショー:Slidy、Slideous、DZSlides、reveal.js、S5 PDF出力(LaTeXがインストールされているシステムで使用できます)pandocの入手方法
以下のURLから入手することができるそうです。
https://pandoc.org/installing.html
私はbrewでインストールすることができました。以下コマンド。
$ brew install pandoc
pandocの使い方
- ターミナルで目的のファイルのディレクトリに移る。
- マニュアルに従って入力、出力の形式やファイル名を指定。必要があればオプションを添える。
例…docxファイルのtest.docxをMarkdownに変換する場合:
$ pandoc -f docx -t markdown test.docx
markdown形式の出力がターミナル上で出力されます。
所感
今回お試しでやってみて、あまりちゃんとはリサーチしてないのですが、以下2点つまづきポイントが。
-
pdf→markdown変換について:
pdf形式の文書をmarkdownに変換できるかなと期待してたのですが、直接は無理でした。
仕方ないので、word文書に一回置き換えてからやってみたらいけました。 -
markdownファイルへの出力について:
任意のファイルとしてmarkdownファイル(.md)への出力はトライしてみましたが、以下のエラーを吐いてしまいそこから先が未解決です。。
couldn't unpack docx container: not enough bytes
参考
『pandocでmarkdown形式ファイルからwordドキュメント(*.docx)を作成する』
https://dev.classmethod.jp/articles/pandoc_markdown_to_docx/#toc-6