きっかけ
markdownでの作文、ドキュメント管理を今後推奨していくにあたり、既存の文書データ(pdfとかword文書など)をmarkdownに変換できるツールないかなって探してるところでpandocに行き当たったので使ってみる。今回はあくまでお試し。
pandocについて
pandoc日本語ユーザーガイドはこちら
http://sky-y.github.io/site-pandoc-jp/users-guide/
以下引用
対応している入力形式は以下の通りです:
markdown
Textile (のサブセット、以下同様)
reStructuredText
HTML
LaTeX
MediaWiki markup
Haddock markup
OPML
Emacs Org-mode
DocBook
出力形式は以下の通りです:
プレーンテキスト
markdown
reStructuredText
XHTML
HTML 5
LaTeX (beamerスライドショーを含む)
ConTeXt
RTF
OPML
DocBook
OpenDocument
ODT
Word docx
GNU Texinfo
MediaWiki markup
EPUB (v2またはv3)
FictionBook2
Textile
groff manページ
Emacs Org-Mode
AsciiDoc
InDesign ICML
HTMLスライドショー:Slidy、Slideous、DZSlides、reveal.js、S5
PDF出力(LaTeXがインストールされているシステムで使用できます)
pandocの入手方法
以下のURLから入手することができるそうです。
https://pandoc.org/installing.html
私はbrewでインストールすることができました。以下コマンド。
$ brew install pandoc
pandocの使い方
- ターミナルで目的のファイルのディレクトリに移る。
- マニュアルに従って入力、出力の形式やファイル名を指定。必要があればオプションを添える。
例…docxファイルのtest.docxをMarkdownに変換する場合:
$ pandoc -f docx -t markdown test.docx
markdown形式の出力がターミナル上で出力されます。
所感
今回お試しでやってみて、あまりちゃんとはリサーチしてないのですが、以下2点つまづきポイントが。
pdf→markdown変換について:
pdf形式の文書をmarkdownに変換できるかなと期待してたのですが、直接は無理でした。
仕方ないので、word文書に一回置き換えてからやってみたらいけました。markdownファイルへの出力について:
任意のファイルとしてmarkdownファイル(.md)への出力はトライしてみましたが、以下のエラーを吐いてしまいそこから先が未解決です。。
couldn't unpack docx container: not enough bytes
参考
『pandocでmarkdown形式ファイルからwordドキュメント(*.docx)を作成する』
https://dev.classmethod.jp/articles/pandoc_markdown_to_docx/#toc-6