はじめに
検索増強生成(RAG)技術とChatGPTの先端API、そしてPyMuPDFの効率的なPDF操作機能を組み合わせることは、知的なチャットボットを作成するための新たなフロンティアを提供します。
これらのチャットボットは、PDF文書に保存された膨大な知識を活用し、文脈を考慮しただけでなく、情報と洞察に富んだ応答を提供することができます。
このチュートリアルでは、ChatGPT APIを利用して応答を生成し、ドキュメント処理にPyMuPDFを利用するRAGチャットボットの作成方法を案内します。これにより、これらの強力なツールを統合する際の強みと簡便さが強調されます。
PyMuPDFを使用したチャットボットの設定
チャットボットの目的
私たちは、世界の国々、その首都、人口規模などについて知っているチャットボットを作成したいと考えています。私たちが利用できるデータベースは、約200行のテーブルを含む6ページのPDFです。各行には、国名、その国の首都の名前、首都の人口、国の人口に対する割合、およびこの情報の年齢が含まれています。
このデータに関する質問に答えるだけでなく、地理的および人口統計的な文脈が及ぶ範囲まで、できる限りさらに進んでチャットボットが応答できるようにしたいと考えています。
チャットボットの作成
ターミナルウィンドウのコマンドラインで実行されるアプリケーションを作成します。
以下の説明の基礎は、PyMuPDFを使用したRAG(Retrieval-Augmented Generation)チャットボットの例を集めたリポジトリPyMuPDF/RAG: RAG Chatbot Examples Using PyMuPDF 内の既存の例です。私たちの例を見るには、フォルダー「country-capitals」をご覧ください。
実際にコーディングを開始する前に、事前の手順があります:
- OpenAIは、アプリケーションがAPIキーを介して認証されることを要求しています。まだ持っていない場合は、OpenAIのウェブサイトに登録し、テスト目的でAPIキーをリクエストしてください。
- スクリプトのソースを編集し、OpenAIのAPIキーを入力してください。
- 以下のPythonパッケージをインストールまたは更新してください:
python pip install -U pip
python pip install -U **PyMuPDF**
python pip install -U **OpenAI**
私たちのアプリケーションは、「REPL」モードで動作します。つまり、Read-Evaluate-Process Loop(読み取り、評価、処理のループ)で動作します。
起動すると、PyMuPDFを1回呼び出してテキスト情報を抽出します。このテキスト文字列は、ユーザーからのすべての後続の質問の基礎として使用されます。
すべてのチャットボットと同様に、これらのテキスト文字列のサイズに制限があります。これらの制限は、APIキーがテスト用または本番用などの目的であるかどうかによって異なる場合があります。
いずれの場合でも、PDFのコンテンツを読み取るためにPyMuPDFを呼び出す関数は、小さなサイズに最適化されています。つまり、テーブルの行のみを読み取ります - ページ全体のテキストは読み取りません。
スクリプトのPythonコードをご覧ください - 基本的には3つの部分で構成されています:
- 関数
extract_text_from_pdf(pdf_path)
。 先述のように、PDFの完全なファイル名を一度だけ引数として呼び出されます。すべてのテーブル行からなるテキスト文字列を返します。改行文字で区切られます。 - 関数
generate_response_with_ChatGPT(prompt)
。 この関数は、ユーザーが質問を入力した後に毎回チャットボットにアクセスします。パラメーター「prompt」は、実際の質問とPyMuPDF関数の初期テキストの組み合わせです。 - ユーザーの質問を受け入れ、チャットボット関数を呼び出して応答を端末ウィンドウに出力する無限ループ(「
while True: ...
」)です。
このフローチャートは、これらの構成要素間の相互作用を示しています。
チャットボットの使用
すべての準備ステップが成功裏に実行された場合、チャットボットは次のような振る舞いを示します。
アプリケーションが質問を受け付ける準備ができると、"==>
"が表示され、ENTERキーを押して入力し、送信することができます。しばらくすると、いくつかの応答が表示され、ハイフンの行 "----------
" で終了します。
明確さのために、質問は赤色、応答は青色で色付けしています。
$ python country-capitals.py
ファイル 'national-capitals.pdf' から204行のテーブルが読み込まれました。
準備完了 - 質問するか、q/Qで終了します:
==> ドイツの首都は何ですか?
応答:
ドイツの首都はベルリンです。
----------
==> ベルリンの人口、絶対数と相対数は?
応答:
2021年時点のベルリンの人口は3,677,472人です。これはドイツの総人口の約4.4%を占めます。
----------
上記の応答は、PDFのデータに基づいているため、驚きはありません。
しかし、以下の応答は、チャットボットが実際に人口統計および地理的な文脈を把握しており、PDFのデータだけでは答えられない質問に対して、インターネットで追加の情報源を積極的に検索していることを示しています。
==> Vaduzはテキストの一部ではありませんか? もしそうでなければ、それについて知っていますか?
応答:
いいえ、Vaduzはテキストの一部ではありません。それはリヒテンシュタインの首都です。
----------
PDFにはリヒテンシュタインとその首都ヴァドゥーツが含まれていないため、チャットボットは自動的に、「Vaduz」という単語が都市であり、リヒテンシュタインの国都であると判断しました。
別の例:PDFデータを使用して回答できる質問をします:
==> 人口規模で見たときの最も小さい首都10都市は何ですか?
応答:
- バチカン市国(バチカン市国)- 453
- ニュエルムード(パラオ)- 271
- アダムズタウン(ピトケアン諸島)- 40
- フナフティ(ツバル)- 6,320
- アロフィ(ニウエ)- 597
- ナレン(ナウル)- 747
- サウスタラワ(キリバス)- 50,182
- スタンリー(フォークランド諸島)- 2,460
- フライングフィッシュコーヴ(クリスマス島)- 1,599
- ロゾー(ドミニカ)- 14,725
----------
しかしながら、次の質問は、その面積(平方キロメートル)における最も小さな10の都市を尋ねると解釈されます。この情報は完全にインターネットのデータから引き出す必要があります。
==> 世界で最も小さな10の首都は何ですか?
応答:
- バチカン市国(0.44 km²)
- モナコ(2.02 km²)
- ナウル(21 km²)
- ツバル(26 km²)
- サンマリノ(61 km²)
- リヒテンシュタイン(160 km²)
- マーシャル諸島(181 km²)
- セントクリストファー・ネイビス(261 km²)
- モルディブ(298 km²)
- マルタ(316 km²)
----------
結論
PyMuPDFをRAGフレームワークに統合することで、情報提供が豊富で文脈に即した応答を行う強力なチャットボットを構築することができます。このチュートリアルは可能性の表面をほんの一部しか触れていません。PyMuPDFや生成モデルにより慣れてくると、チャットボットの能力を向上させるさまざまな方法が見つかるでしょう。これにより、ユーザーと効果的にコミュニケーションを取り、彼らの問いに答えるための貴重なツールとなります。
成功するRAGチャットボットの鍵は、アクセスできる情報の質にあります。PyMuPDFは、PDFからこの情報を抽出することが可能であり、かつ簡単であることを保証し、ライブラリの強さと開発者向けの使いやすさを示しています。幸せなコーディングを!
ソースコード
関連ブログ
RAG/LLMとPDF:PyMuPDFを使用したMarkdownテキストへの変換