0
2

More than 3 years have passed since last update.

ドキュメント変換ツールとしてpandocを使ってみる

Last updated at Posted at 2021-01-14

きっかけ

markdownでの作文、ドキュメント管理を今後推奨していくにあたり、既存の文書データ(pdfとかword文書など)をmarkdownに変換できるツールないかなって探してるところでpandocに行き当たったので使ってみる。今回はあくまでお試し。

pandocについて

pandoc日本語ユーザーガイドはこちら
http://sky-y.github.io/site-pandoc-jp/users-guide/

以下引用

対応している入力形式は以下の通りです:
markdown
Textile (のサブセット、以下同様)
reStructuredText
HTML
LaTeX
MediaWiki markup
Haddock markup
OPML
Emacs Org-mode
DocBook

出力形式は以下の通りです:
プレーンテキスト
markdown
reStructuredText
XHTML
HTML 5
LaTeX (beamerスライドショーを含む)
ConTeXt
RTF
OPML
DocBook
OpenDocument
ODT
Word docx
GNU Texinfo
MediaWiki markup
EPUB (v2またはv3)
FictionBook2
Textile
groff manページ
Emacs Org-Mode
AsciiDoc
InDesign ICML
HTMLスライドショー:Slidy、Slideous、DZSlides、reveal.js、S5
PDF出力(LaTeXがインストールされているシステムで使用できます)

pandocの入手方法

以下のURLから入手することができるそうです。
https://pandoc.org/installing.html
私はbrewでインストールすることができました。以下コマンド。

$ brew install pandoc

pandocの使い方

  • ターミナルで目的のファイルのディレクトリに移る。
  • マニュアルに従って入力、出力の形式やファイル名を指定。必要があればオプションを添える。

例…docxファイルのtest.docxをMarkdownに変換する場合:

$ pandoc -f docx -t markdown test.docx

markdown形式の出力がターミナル上で出力されます。

所感

今回お試しでやってみて、あまりちゃんとはリサーチしてないのですが、以下2点つまづきポイントが。

  • pdf→markdown変換について:
    pdf形式の文書をmarkdownに変換できるかなと期待してたのですが、直接は無理でした。
    仕方ないので、word文書に一回置き換えてからやってみたらいけました。

  • markdownファイルへの出力について:
    任意のファイルとしてmarkdownファイル(.md)への出力はトライしてみましたが、以下のエラーを吐いてしまいそこから先が未解決です。。
    couldn't unpack docx container: not enough bytes

参考

『pandocでmarkdown形式ファイルからwordドキュメント(*.docx)を作成する』
https://dev.classmethod.jp/articles/pandoc_markdown_to_docx/#toc-6

0
2
0

Register as a new user and use Qiita more conveniently

  1. You get articles that match your needs
  2. You can efficiently read back useful information
  3. You can use dark theme
What you can do with signing up
0
2