RAG/LLMとPDF：PyMuPDFを使用したMarkdownテキストへの変換

Last updated at 2025-08-06Posted at 2024-04-18

はじめに

大規模言語モデル（LLMs）と検索増強生成（RAG） 環境の文脈において、Markdownテキスト形式でのデータ供給は重要な意味を持ちます。以下に詳細な考慮事項を示します。

LLMsは、一貫していて文脈に沿ったテキストを生成できる強力な言語モデルです。しかし、時には事実の正確さや文脈を欠いた応答を生成することがあります。検索ベースの手法（RAGなど）を取り入れることで、生成されたテキストの品質を向上させることができます。

RAGは、LLMのトレーニングデータに以前存在しなかった外部データをテキスト生成プロセスに統合することを可能にします。これを取り込むことで、「幻覚（ハルシネーション）」の問題を緩和し、テキスト応答の関連性を向上させることができます。

なぜLLMにMarkdownを使用するのか？

Markdownは、シンプルな構文を使ってプレーンテキストをフォーマットすることができる軽量なマークアップ言語です。GitHubやJupyterノートブック、さまざまなコンテンツ管理システムなど、構造化されたドキュメントを作成するために広く使用されています。LLMやRAGシステムにデータを供給する際に、Markdown形式を使用することにはいくつかの利点があります。

構造化されたコンテンツ：Markdownを使用すると、見出し、リスト、表などの構造化された要素に情報を整理できます。この構造は、理解を助け、コンテキストを保存するのに役立ちます。
リッチテキスト：Markdownは太字、斜体、リンク、コードブロックなどの基本的なフォーマットをサポートしています。入力データにリッチテキストを含めることで、言語モデルに対するコンテキストが強化されます。
リンクや参照の埋め込み：Markdownでは、ハイパーリンク、脚注、参照を埋め込むことができます。RAGのシナリオでは、外部ソースへの参照や追加のコンテキスト提供にこれが重要となる場合があります。
執筆の容易さ：Markdownは人間が読みやすく、書きやすい形式です。複雑なフォーマットツールなしで、著者は効率的にコンテンツを作成できます。
チャンキング：RAGシステムにとって不可欠なチャンキング（通称「分割」）は、大規模なドキュメントをより簡単に処理するために分解します。PyMuPDFデータ抽出がMD形式で利用可能なため、共通のコンテキストを持つテキストをまとめるためにチャンキングをサポートしています。重要なのは、PyMuPDFによるMD形式での抽出がレベル3のチャンキングを可能にすることです。

要約すると、LLMおよびRAG環境でのMarkdownテキスト形式の使用は、より正確かつ関連性の高い結果を保証します。なぜなら、より豊富なデータ構造と、LLMによるより関連性の高いデータチャンクのロードを提供するからです。

PDFのMarkdown変換のためのPyMuPDFサポート

PyMuPDFは創設以来、PDFページからテキスト、画像、ベクトルグラフィックを抽出できるようになりました。2023年8月以降、テーブルも抽出可能です。これらのオブジェクトタイプごとに抽出方法があります。テキスト用のもの、およびテーブル、画像、ベクトルグラフィック用のそれぞれ異なるものがあります。RAGの要件を満たすために、これらの異なる抽出を統合し、ページのコンテンツ全体を一貫して表す共通の統一されたMarkdown文字列を生成しました。

これはすべて1つのPythonスクリプトとして実装されています。他のスクリプトからモジュールとしてインポートしたり、次のようにターミナルウィンドウでコマンドラインとして呼び出すことができます：

$ python pymupdf_rag.py input.pdf [-pages PAGES]

Markdown形式のテキストファイル（input.mdと呼ばれる）が生成されます。オプションのパラメータPAGESを使用すると、PDFの総ページ数の一部に変換を制限できます。省略すると、全体のPDFが処理されます。

Markdownの作成詳細

考慮するページの選択

"-pages"パラメータは、Markdown変換に考慮するページ番号（1から始まる）からなる文字列です。複数のページ番号仕様をカンマで区切って指定できます。各仕様は、1つの整数または"-"ハイフンで区切られた2つの整数のいずれかであり、ページの範囲を指定します。以下に例を示します：

“-pages 1-10,15,20-N”

これには、1ページから10ページ、15ページ、および20ページからファイルの最後までのページ（大文字の「N」は最後のページの番号として扱われます）が含まれます。

ヘッダーの特定

起動時、プログラムは指定されたページのすべてのテキストを調べ、最も頻繁に使用されるフォントサイズを見つけます。この値（およびそれより小さいフォントサイズすべて）は本文テキストを表すと見なされます。より大きなフォントサイズはヘッダーテキストを表すと見なされます。

フォントサイズの階層での相対的な位置に応じて、ヘッダーテキストは1つ以上のMarkdownヘッダー #-tag 文字で接頭辞が付けられます。

ページの各領域ごとの処理モードの識別

各ページのすべてのテキストは、まず標準テキストかテーブルテキストかに分類されます。その後、ページの内容が上から下に向かってマークダウン形式に変換されます。

これは例を示すのが最も理解しやすいです：

このページには、典型的な状況を表すコンテンツが表示されます：

一部が重なっている2つのテーブル。1つのテーブルにはヘッダーがありませんが、もう1つには外部列ヘッダーがあります。
タイトル行と複数レベルのヘッダーがあります。
本文には、太字、斜体、インラインコードなどのさまざまなスタイルの詳細が含まれています。
順序付きおよび順序なしリスト
コードスニペット

レイアウト解析では、3つのエリアが特定され、適切な処理モードが選択されます：（1）テキスト、<（2）テーブル、（3）テキスト。

生成されたMarkdownテキストは、できる限りそのままに反映されます。

例として、外部ヘッダーを持つテーブルの出力を見てみましょう：

|Column1|Column2|

|---|---|

|Cell (0, 0)|Cell (0, 1)|

|Cell (1, 0)|Cell (1, 1)|

|Cell (2, 0)|Cell (2, 1)|

これは、可能な限りトークンのサイズを最小限に抑えた、GitHub互換の形式です。これは、RAGシステムへのフィードを小さく保つために重要な側面です。

列の境界は「|」文字で示されます。テキスト行は、「|---|---| …」の形式の行が続く場合、テーブルのヘッダーであると見なされます。完全なテーブル定義は、少なくとも1つの空行で囲まれる必要があります。

技術的な理由から、Markdownテーブルにはヘッダーが必要であり、外部ヘッダーが利用できない場合は最初のテーブル行が選択されます。

全体の忠実度を確認するために、ここにいくつかのMarkdownパーサーがページ全体を処理する方法が示されています：

PyMuPDF4LLM

マークダウンコンバーターをプログラムから呼び出すことができます

コマンドラインでプログラムを実行する代わりに、プログラムからもマークダウン変換を要求できます。

pip install pymupdf4llm

import pymupdf4llm
md_text = pymupdf4llm.to_markdown("input.pdf")

# write markdown string to some file
output = open("out-markdown.md", "w")
output.write(md_text)
output.close()

結論

PyMuPDFの抽出方法を統合することで、PDFページの内容は忠実にMarkdownテキストに変換され、RAGチャットボットの入力として使用できます。

成功するRAGチャットボットの鍵は、アクセスできる情報の質と完全性にあります。

PyMuPDFによるMarkdown抽出は、PDFからの情報が可能であるだけでなく、簡単であることを保証し、ライブラリの強みと開発者向けの利便性を示しています。幸せなコーディングを！

ソースコード

RAG/helpers/pymupdf_rag.py

参考文献

5つのテキスト分割のレベル