MarkItDownとは
Microsoft社が提供している、様々なファイル形式をMarkdownファイルに変換するライブラリのこと。対応しているファイル形式は以下の通り。
- PowerPoint
- Word
- Excel
- Images (EXIF metadata and OCR)
- Audio (EXIF metadata and speech transcription)
- HTML
- Text-based formats (CSV, JSON, XML)
- ZIP files (iterates over contents)
引用元: Github https://github.com/microsoft/markitdown/tree/main
今回はソースコードをローカル環境にダウンロードし、Docker環境を経由して実際にいくつかのファイルをMarkdown形式に変換することを試してみる。
環境
- Windows 11
前提
- Dockerインストール済
- Gitインストール済
- Python実行環境インストール済
手順
ソースコードをCloneする
git pull https://github.com/microsoft/markitdown.git
Dockerイメージをビルド
docker build -t markitdown:latest .
実際に色んなファイルをMarkdownに変換してみる
準備ができたので以下のコマンドで色々変換を試してみる。
幸いソースにテスト用ファイルがいくつか格納されているので、それらを使用して実際に変換を試してみる
docker run --rm -i markitdown:latest < 変換対象のファイルパス > 出力先のファイルパス
Wordファイル(.docx) → Markdown(.md)
変換前
変換後
画面左:出力されたmarkdownファイル原文 画面右:markdownプレビュー
タイトルの文字の大きさが反映されていないが、本文の構造はしっかりと反映されている。
PowerPointファイル(.pptx) → Markdown(.md)
変換前
スライド 1 | スライド 2 | スライド 3 | スライド 4 |
---|---|---|---|
変換後
画面左:出力されたmarkdownファイル原文 画面右:markdownプレビュー
スライド毎に<!-- Slide number: 1 -->
というコメントに区切られて出力され、棒グラフは表に変換される。スライド2に埋め込まれている画像はMarkdownには反映されない。
Excelファイル(.xlsx) → Markdown(.md)
変換前
シート 1 | シート 2 |
---|---|
変換後
画面左:出力されたmarkdownファイル原文 画面右:markdownプレビュー
シート毎に## シート名
というコメントに区切られて出力される。
HTMLファイル(.html) → Markdown(.md)
変換前
変換後
まとめ
今回はMicrosoft社が提供するMarkItDownを使用し、Wordファイル・PowerPointファイル・Excelファイル・HTMLファイルをマークダウンファイルに変換した。正直複雑に作りこんだMSオフィスのファイルをマークダウンに変換することはまだまだ難しいと思うが、簡易的なメモ程度ものや、HTMLファイルを変換する際には多少便利になるかと思われる。
関連記事
今回はコマンドライン上でMakeItDownを使用したが、ソースコード上でモジュールとして読み込んで使用する内容の記事がいくつか作成されているので、アプリに組み込みたい等の場合は以下記事を参照することをお薦めする。