PDFを解析する。LLMを強化する。
あらゆるRAGパイプライン、ファインチューニングデータセット、ドキュメント対応エージェントは、同じ問題にぶつかってきました。入力がPDFであり、PDFは本当の意味でのドキュメントではないという問題です。PDFはレンダラーのための描画命令の集合体です。ファイルの中に「見出し」も「表」も読み順もなく、あるのは座標とフォントとグリフだけ——読者ではなくレンダラーのために配置されています。何を作るにしても、モデルが最初のトークンを見る前に、そこから意味を再構築する必要があります。
それを担うのが「LLM前処理ドキュメント処理レイヤー」であり、PDF4LLM はまさにそのために作られています。
LLM前処理レイヤーが行うこと
モデルが介入する前に必要な作業がすべてここにあります:
- カラム・サイドバー・脚注を横断した読み順の解決——レンダラーが描画した順序ではなく、人間が読む順序で
- 表を表として再構築——行と列を保持したまま、数字の羅列にフラット化しない
- 階層構造の保持——見出しは見出しのまま、リストはリストのまま、コードブロックはコードブロックのまま
- 画像とバウンディングボックスの特定とタグ付け——ページ上のすべての要素の位置を把握できるように
出力されるのは、構造を失わずにチャンク化・埋め込み・推論できる、クリーンなMarkdownです。
このレイヤーをスキップすると、コストは下流で現れます。モデルが乱雑なテキストとフラット化された表を処理するか、あるいは最近よく見られるように、生のページをビジョンモデルに渡してビジョントークンレートで課金される事態になります。VLM経由では1,000ページあたり約14.40ドルかかるのに対し、PDF4LLMなら0.06ドルです。大規模になるとこの差は大きくなります——そして回避できます!
ほとんどのPDFパーサーはこの用途向けに作られていません。LLMが登場する前に、人間やキーワードインデックスのために設計されたものです。PDF4LLMは新しい利用者のために作られています。
ひとつのレイヤー、3つのランタイム
私たちは開発者が必要とする言語でこの機能を提供してきました。現在はすべてが「PDF4LLM」という一つの名前のもと、pdf4llm.comに集約されています:
-
PyMuPDF4LLM:PythonのAI/MLエコシステム向け。RAG・ファインチューニング・評価作業をPythonで行っているなら、これが最適です。レイアウト対応の抽出、ページチャンキング、表・画像の抽出に対応。
pip install pymupdf4llmで始められます。 - PDF4LLM(.NET):.NET 8+向けのエンタープライズグレードのPDFインテリジェンス。C#開発者向けのアーキテクチャ。同じMuPDFエンジンが基盤にあり、同じ抽出品質を実現。さらにバーコード解析が組み込まれています。パリティを得るためにPythonプロセスをブリッジする必要はもうありません。
- PDF4LLM(JS):近日公開。NodeとブラウザのためのWASMビルド。サーバーレスファースト、サーバーのラウンドトリップ不要、オーバーラップ付きのRAG対応チャンキング。JSを離れることなく、この品質の抽出を待ち望んでいたJavaScriptエコシステムに向けた製品です。
RAGパイプライン・カスタムドキュメントインテリジェンスシステム・データ抽出ワークフロー、何を構築していても、PDF4LLMは一貫したAPIで必要なフォーマットを提供します。
Markdown
LLMへの入力、RAGパイプライン、構造を保持した人間が読みやすい出力に。
JSON
バウンディングボックス、フォントデータ、ブロックごとのレイアウトメタデータが必要なカスタムパイプラインに。
プレーンテキスト
検索インデックス、NLP前処理、フォーマットを必要としないツールに。
WebViewer 4LLM
ドキュメントを解析するだけでなく、表示したいときに
ライブラリには専用のコンパニオンがあります:MuPDF WebViewer は、ブラウザでユーザーにPDFをレンダリングします。ビューワーとPDF4LLMは同じMuPDF Cコアで動作しているため、抽出はすべてのテキストブロックの正確な座標を保持します——LLMが回答を返すと、ソースの文節をビューワー上で直接特定できます。ドキュメントの表示と理解のために、AIによる引用でつながれたひとつのエンジン。
ドキュメントが中心のワークフロー(法律・金融・コンプライアンス・研究)では、ユーザーは流暢な回答だけでなく、追跡可能性を必要としています。
AIサイテーションはその問題を解決します:
- LLMが提供したソースの引用テキストを受け取り
- そのテキストをドキュメントのテキストレイヤーで特定
- WebViewer上にハイライト矩形を直接レンダリング
- 特定・ハイライトのステップに追加のLLM呼び出しは不要——無駄なトークン消費もなし
クリーンなドキュメントから始める
その後のすべてが楽になります。どのランタイムを使っていても、今やツールを見つける場所はひとつ、ドキュメントを読む場所はひとつ、覚える名前はひとつです。
PDF4LLMへようこそ!
詳細はこちら:
