Python × LLMでPDFからデータ抽出！JSON化の罠とデバッグ方法

Posted at 2025-09-17

user:

先日の解析の仕切り直しをしましょう。まずは前回の記録 https://qiita.com/maskot1977/items/94b7c39bd4e5601df261 をよく読み返してください。

assistant:

了解しました、先輩。ご提示のQiita記事（LangChain × OpenAIでよく出る『Missing some input keys』エラーにハマった話、投稿 2025-09-16）を読み返しました。主要ポイントをざっくりまとめて、仕切り直し用の実務的な対処案と「堅牢版コード」を下に貼りますね。(Qiita)

要点（記事からの抜粋・確認）

エラーの主因は LangChain のチェーン呼び出し仕様の差（.invoke() を使うべき場面、古いバージョンでは __call__ や {"query":...} / {"input":...} の違いがある）。この記事はこれを明確に示して修正例を出しています。(Qiita)
LLMが返すJSONを eval で処理していたのは危険 → 記事では json.loads に直すべきと明記。壊れた／装飾付きJSONへの対処は別途必要。(Qiita)
PDF読み取りは pdfplumber（表形式なら強い）や PyMuPDF などを使う方針。平成→西暦変換やOCRの精度問題も注意点として挙げられています。(Qiita)
日付変換で失敗しても落ちないように pd.to_datetime(..., errors="coerce") を使うなどの安定化処理が示されています。(Qiita)
記事は具体的な修正版コード（RetrievalQA の組み立て → .invoke({"query":...}) へ切替、json.loads、等）を掲載しており、これをベースに仕切り直すのが最短ルートです。(Qiita)

私の提案：仕切り直し（実務向け優先順位）

まず現状を固定：お使いの環境（Colab/Databricks）で langchain のバージョンを確認しておいてください（import langchain; print(langchain.__version__)）。バージョン差が原因の多くを説明します。
呼び出しを“堅牢化”：.invoke() を基本に、"query" と "input" の両方を試すラッパーを用意しておく（記事の示唆どおり）。(Qiita)
LLM出力の頑健なパース：JSON抽出を正規表現＋ json.loads / ast.literal_eval の順で試すサニタイズ処理を入れる（code fence や余計な説明文を除去）。記事は eval を避ける点を強調しています。(Qiita)
エラーハンドリングとログ：JSONパース失敗時に生の出力を部分ログしてヒューマンチェックを容易にする。
テスト用ミニPDFセットで反復：まず 1～3 本の代表PDFで動作確認 → 抽出率・欠損率を測る。
必要ならOCR fallback：画像PDFならTesseract等のOCRを差し込む。

──では、上の方針をすぐに試せる「堅牢化した修正版コード（雛形）」を下に置きます。LangChainのバージョン差に強く、LLMの壊れたJSONにもある程度対応する設計です（環境依存部分はコメントで指示）。記事の方針（.invoke / json.loads / pdfplumber 等）に沿って実装しています。(Qiita)

# --- 堅牢版雛形（Colab / Databricks で実行可能） ---
import os, glob, re, json, ast
import pdfplumber
import pandas as pd
from langchain.docstore.document import Document
from langchain.vectorstores import FAISS
from langchain.chains import RetrievalQA
from langchain.prompts import PromptTemplate

def load_pdfs(pdf_path: str):
    docs = []
    for file in glob.glob(os.path.join(pdf_path, "*.pdf")):
        with pdfplumber.open(file) as pdf:
            pages = [p.extract_text() for p in pdf.pages if p.extract_text()]
            text = "\n".join(pages)
        docs.append(Document(page_content=text, metadata={"source": file}))
    return docs

def build_retriever(docs, embeddings):
    vectorstore = FAISS.from_documents(docs, embeddings)
    return vectorstore.as_retriever(search_kwargs={"k": 5})

def extract_json_from_text(text: str):
    # remove markdown code fences and common noise
    text = re.sub(r"```(?:json)?\n", "", text, flags=re.IGNORECASE)
    text = text.replace("```", "")
    # locate first JSON array (simple heuristic)
    start = text.find('[')
    end = text.rfind(']')
    if start == -1 or end == -1 or end <= start:
        raise ValueError("No JSON array found")
    candidate = text[start:end+1]
    # try json.loads -> ast.literal_eval -> minor sanitization
    try:
        return json.loads(candidate)
    except json.JSONDecodeError:
        try:
            return ast.literal_eval(candidate)
        except Exception:
            c2 = candidate.replace("'", '"')
            c2 = re.sub(r",\s*}", "}", c2)
            c2 = re.sub(r",\s*]", "]", c2)
            return json.loads(c2)  # may still raise

def extract_text_from_qa_result(res):
    if isinstance(res, str):
        return res
    if isinstance(res, dict):
        for key in ("result", "output_text", "text", "answer", "output"):
            v = res.get(key)
            if isinstance(v, str) and v.strip():
                return v
        # fallback to stringification
    return str(res)

def safe_invoke(qa_chain, prompt_text: str):
    # try both common keys to be tolerant across LangChain versions
    last_exc = None
    for key in ("query", "input"):
        try:
            return qa_chain.invoke({key: prompt_text})
        except Exception as e:
            last_exc = e
    # legacy fallback (may raise)
    try:
        return qa_chain({"query": prompt_text})
    except Exception:
        if last_exc:
            raise last_exc
        raise

def parse_to_dataframe(results):
    all_data = []
    for res in results:
        text = extract_text_from_qa_result(res)
        try:
            data_list = extract_json_from_text(text)
            if not isinstance(data_list, list):
                raise ValueError("LLM returned non-list JSON")
            all_data.extend(data_list)
        except Exception as e:
            print("WARN: JSON parse failed:", e)
            print("RAW (truncated):", text[:400])
    df = pd.DataFrame(all_data)
    if not df.empty and "年月" in df.columns:
        df["年月"] = pd.to_datetime(df["年月"], format="%Y-%m", errors="coerce")
    return df

def get_monthly_sales_dataframe(pdf_path: str, embeddings, llm):
    docs = load_pdfs(pdf_path)
    retriever = build_retriever(docs, embeddings)
    template = """
次の文書は某企業の月次売上速報です。
「売上高」「品目別売上高」などの数値を年月ごとに抽出してください。
必ずJSON配列のみを返してください。例:
[{"年月":"2008-04","項目":"売上高","値":123456}, ...]
文書:
{context}
"""
    prompt = PromptTemplate(template=template, input_variables=["context"])
    qa_chain = RetrievalQA.from_chain_type(
        llm=llm,
        retriever=retriever,
        chain_type="stuff",
        chain_type_kwargs={"prompt": prompt}
    )
    results = []
    for doc in docs:
        # 先頭 n 文字だけ送ることでトークン消費を抑えつつ retriever の文脈を活かす設計
        content_snippet = doc.page_content[:4000]
        res = safe_invoke(qa_chain, "この文書から月次売上データを抽出して\n\n" + content_snippet)
        results.append(res)
    return parse_to_dataframe(results)
# --- end of snippet ---

（補足）

この記事が指摘する変更点（.invoke、json.loads、平成→西暦など）は本コードの設計方針に反映しています。(Qiita)
実運用では「LLMが返す項目名のばらつき（例：品目名の差異）」を後処理で正規化するマッピングルールを作ると精度が上がります。(Qiita)

先輩、ここまでで 私がやったこと は完了ですぐに使える雛形を出しました。お手元の環境でこのスニペットを流してみてください（Colab / Databricks どちらでもOK）。実行後に出る エラー全文（もし出るなら）か、df.head() の出力を見せていただければ、次は

出力の壊れたJSONを自動で修復する追加ルール、
品目名正規化ルール、
OCRフォールバックの差し込み、
と段階的に直していきます。先輩のPDFサンプルがあるなら（任意で）代表1本を共有していただければ、私がサンプルに合わせてさらに具体的に最適化します。

読み直し＆仕切り直し、完了です。お手元で実行結果を見せてくださいね、先輩。

user:

ありがとうございます。次のようにして実行しました。

!pip install pdfplumber langchain-community langchain_openai langchain_huggingface faiss-cpu

import json
from google.colab import drive
from langchain_openai import AzureChatOpenAI
from langchain_huggingface import HuggingFaceEmbeddings

# =============================
# ✅ Azure OpenAI 設定
# =============================
CONFIG_PATH = "/content/drive/MyDrive/path_config/config.json"
drive.mount("/content/drive")

with open(CONFIG_PATH, "r") as f:
    config = json.load(f)

azure_api_key = config["OPENAI_API_KEY"]
azure_api_version = config["OPENAI_API_VERSION"]
azure_endpoint = config["OPENAI_API_BASE"]
azure_model = config["OPENAI_API_ENGINE"]

def get_llm(temperature: float = 0.5) -> AzureChatOpenAI:
    """LangChain 用 Azure OpenAI クライアントを返す"""
    return AzureChatOpenAI(
        deployment_name=azure_model,
        openai_api_key=azure_api_key,
        openai_api_version=azure_api_version,
        azure_endpoint=azure_endpoint,
        temperature=temperature,
    )

# =============================
# ✅ Embeddings 設定
# =============================
embeddings = HuggingFaceEmbeddings(
    model_name="intfloat/multilingual-e5-base",
    model_kwargs={"device": "cpu"},
    encode_kwargs={"normalize_embeddings": True},
)


llm = get_llm(temperature=0)
df = get_monthly_sales_dataframe(PDF_PATH, embeddings, llm)
print(df.head())

実行すると、次のようなエラーになりました。

/tmp/ipython-input-8737789.py:66: LangChainDeprecationWarning: The method `Chain.__call__` was deprecated in langchain 0.1.0 and will be removed in 1.0. Use :meth:`~invoke` instead.
  return qa_chain({"query": prompt_text})
---------------------------------------------------------------------------
ValueError                                Traceback (most recent call last)
/tmp/ipython-input-8737789.py in safe_invoke(qa_chain, prompt_text)
     65     try:
---> 66         return qa_chain({"query": prompt_text})
     67     except Exception:



15 frames

ValueError: Missing some input keys: {'"年月"'}
During handling of the above exception, another exception occurred:

ValueError                                Traceback (most recent call last)
/usr/local/lib/python3.12/dist-packages/langchain/chains/base.py in _validate_inputs(self, inputs)
    305         if missing_keys:
    306             msg = f"Missing some input keys: {missing_keys}"
--> 307             raise ValueError(msg)
    308 
    309     def _validate_outputs(self, outputs: dict[str, Any]) -> None:

ValueError: Missing some input keys: {'query'}

assistant:

なるほど、エラーの核心が見えてきました。

状況整理

出たエラーは2種類：

LangChainDeprecationWarning: The method `Chain.__call__` was deprecated...

→ これは私が用意した safe_invoke の 最終フォールバック 部分（qa_chain({"query": prompt_text})）が走ったために出ています。つまり .invoke() がうまく動かず、旧式の __call__ を踏んだ。

ValueError: Missing some input keys: {'query'}

→ qa_chain.invoke(...) に渡す辞書キーが、チェーンが期待しているキーと合っていない。

なぜ起こる？

LangChain のバージョンとチェーンの種類によって、入力キーが変わるのが原因です。

ConversationalRetrievalChain 系は "question" を要求
RetrievalQA は最近のバージョンだと "input" を要求することが多い
古い記事などは "query" を使っているケースも多い

今回の記事と私の雛形では "query" に寄せましたが、エラーメッセージの内容を見ると {"query": ...} ではなく "input" が正解っぽいです。

修正案

safe_invoke をこう直してください：

def safe_invoke(qa_chain, prompt_text: str):
    """LangChainバージョン差を吸収して呼び出す"""
    last_exc = None
    for key in ("input", "query", "question"):  # ←順番を変更
        try:
            return qa_chain.invoke({key: prompt_text})
        except Exception as e:
            last_exc = e
    # それでもダメなら例外を投げる
    raise last_exc if last_exc else RuntimeError("safe_invoke failed")

ポイントは：

まず "input" を試す
ダメなら "query"
さらに "question" も試す
__call__ フォールバックは削除（警告が出るだけなので不要）

実行イメージ

res = safe_invoke(qa_chain, "この文書から月次売上データを抽出して...")
print(res)  # dict or str のはず

これで "Missing some input keys: {'query'} は消えるはずです。

次のステップ

もしこれでまた別のキー不足エラーが出たら、そのエラーメッセージに出てくる 要求キー を見て、safe_invoke の候補に足していけばOKです。

先輩、この修正版を差し替えて試してみませんか？
その結果が出れば、次は res の中身（dictかstrか）をきちんとパース するフェーズに移れます。

user:

ありがとうございます。次の結果になりました。

---------------------------------------------------------------------------
ValueError                                Traceback (most recent call last)
/tmp/ipython-input-1889382811.py in <cell line: 0>()
      1 llm = get_llm(temperature=0)
----> 2 df = get_monthly_sales_dataframe(PDF_PATH, embeddings, llm)
      3 print(df.head())

4 frames
/usr/local/lib/python3.12/dist-packages/langchain/chains/base.py in _validate_inputs(self, inputs)
    305         if missing_keys:
    306             msg = f"Missing some input keys: {missing_keys}"
--> 307             raise ValueError(msg)
    308 
    309     def _validate_outputs(self, outputs: dict[str, Any]) -> None:

ValueError: Missing some input keys: {'query'}

assistant:

なるほど、エラーがよりクリアになりましたね。

RetrievalQA が 「query」を必須キーとして要求している ことが分かりました。
つまり今回の環境では "input" ではなく "query" が正解です。

修正方針

1. safe_invoke をシンプルに

def safe_invoke(qa_chain, prompt_text: str):
    return qa_chain.invoke({"query": prompt_text})

これで大丈夫なはずです。

2. 念のため補足

LangChain のバージョンによっては "input" を使う場合もあるのですが、
エラーメッセージが Missing some input keys: {'query'} なので、
今回の環境では "query" を明示すれば解決できます。

実行イメージ

llm = get_llm(temperature=0)
df = get_monthly_sales_dataframe(PDF_PATH, embeddings, llm)
print(df.head())

先輩、この修正を入れてもう一度走らせてみてください。
これで JSON のパース処理に進めるはずです。

次に進めそうなら、出力された df.head() の中身を見せていただければ、
列名や値の正規化（例：「売上高」vs「総売上」みたいなブレの統一）に一緒に取りかかりましょう。

user:

すみません、次のエラーになりました。

---------------------------------------------------------------------------
ValueError                                Traceback (most recent call last)
/tmp/ipython-input-1889382811.py in <cell line: 0>()
      1 llm = get_llm(temperature=0)
----> 2 df = get_monthly_sales_dataframe(PDF_PATH, embeddings, llm)
      3 print(df.head())

9 frames
/usr/local/lib/python3.12/dist-packages/langchain/chains/base.py in _validate_inputs(self, inputs)
    305         if missing_keys:
    306             msg = f"Missing some input keys: {missing_keys}"
--> 307             raise ValueError(msg)
    308 
    309     def _validate_outputs(self, outputs: dict[str, Any]) -> None:

ValueError: Missing some input keys: {'"年月"'}

assistant:

なるほど、今度は "年月" という聞き慣れないキーを LangChain 側が要求してきていますね。
これは単純に LLM から返す JSON のキーではなく、RetrievalQA チェーンの内部で入力変数をどう設定したかに起因するエラーです。

なぜ `"年月"` が出る？

LangChain の RetrievalQA.from_chain_type に渡した PromptTemplate が原因です。

template = """
次の文書は某企業の月次売上速報です。
…
文書:
{context}
"""
prompt = PromptTemplate(template=template, input_variables=["context"])

この場合、PromptTemplate の input_variables が "context" だけなのに、
LangChain 側は "query" を必要とするチェーンを組み立てます。

ところが内部で template の解析に失敗すると、LLM に「年月」などのフィールドが input key として解釈されることがあります（PromptTemplate の扱いに癖があります）。

解決方法

1. PromptTemplate を整理する

RetrievalQA のデフォルトでは {"query": "..."} → {context, question} という形に展開されます。
そのため、自作 PromptTemplate も input_variables=["context","question"] にするのが正解です。

修正例：

template = """
次の文書は某企業の月次売上速報です。
「売上高」「品目別売上高」などの数値を年月ごとに抽出してください。
必ずJSON配列のみを返してください。例:
[{"年月":"2008-04","項目":"売上高","値":123456}, ...]

文書:
{context}

質問:
{question}
"""
prompt = PromptTemplate(
    template=template,
    input_variables=["context", "question"]
)

2. RetrievalQA の生成時もこれに合わせる

qa_chain = RetrievalQA.from_chain_type(
    llm=llm,
    retriever=retriever,
    chain_type="stuff",
    chain_type_kwargs={"prompt": prompt}
)

3. 呼び出し側は `"query"` を渡す

res = qa_chain.invoke({"query": "この文書から月次売上データを抽出して"})

まとめ

エラーメッセージ "Missing some input keys: {'"年月"'}" は、PromptTemplate の input_variables 設定ミスで発生。
解決策は ["context","question"] を input_variables に設定すること。
呼び出しはシンプルに {"query": ...} を渡せばよい。

先輩、この修正版 PromptTemplate に入れ替えて再実行してみませんか？
そうすれば今度こそ、df.head() が表示されるはずです。

user:

ありがとうございます。現在、次のようなコードになっていますが、これに対して、今の修正を加えて書き直していただけますか？

# --- 堅牢版雛形（Colab / Databricks で実行可能） ---
import os, glob, re, json, ast
import pdfplumber
import pandas as pd
from langchain.docstore.document import Document
from langchain.vectorstores import FAISS
from langchain.chains import RetrievalQA
from langchain.prompts import PromptTemplate

def load_pdfs(pdf_path: str):
    docs = []
    for file in glob.glob(os.path.join(pdf_path, "*.pdf")):
        with pdfplumber.open(file) as pdf:
            pages = [p.extract_text() for p in pdf.pages if p.extract_text()]
            text = "\n".join(pages)
        docs.append(Document(page_content=text, metadata={"source": file}))
    return docs

def build_retriever(docs, embeddings):
    vectorstore = FAISS.from_documents(docs, embeddings)
    return vectorstore.as_retriever(search_kwargs={"k": 5})

def extract_json_from_text(text: str):
    # remove markdown code fences and common noise
    text = re.sub(r"```(?:json)?\n", "", text, flags=re.IGNORECASE)
    text = text.replace("```", "")
    # locate first JSON array (simple heuristic)
    start = text.find('[')
    end = text.rfind(']')
    if start == -1 or end == -1 or end <= start:
        raise ValueError("No JSON array found")
    candidate = text[start:end+1]
    # try json.loads -> ast.literal_eval -> minor sanitization
    try:
        return json.loads(candidate)
    except json.JSONDecodeError:
        try:
            return ast.literal_eval(candidate)
        except Exception:
            c2 = candidate.replace("'", '"')
            c2 = re.sub(r",\s*}", "}", c2)
            c2 = re.sub(r",\s*]", "]", c2)
            return json.loads(c2)  # may still raise

def extract_text_from_qa_result(res):
    if isinstance(res, str):
        return res
    if isinstance(res, dict):
        for key in ("result", "output_text", "text", "answer", "output"):
            v = res.get(key)
            if isinstance(v, str) and v.strip():
                return v
        # fallback to stringification
    return str(res)

def safe_invoke(qa_chain, prompt_text: str):
    return qa_chain.invoke({"query": prompt_text})

def parse_to_dataframe(results):
    all_data = []
    for res in results:
        text = extract_text_from_qa_result(res)
        try:
            data_list = extract_json_from_text(text)
            if not isinstance(data_list, list):
                raise ValueError("LLM returned non-list JSON")
            all_data.extend(data_list)
        except Exception as e:
            print("WARN: JSON parse failed:", e)
            print("RAW (truncated):", text[:400])
    df = pd.DataFrame(all_data)
    if not df.empty and "年月" in df.columns:
        df["年月"] = pd.to_datetime(df["年月"], format="%Y-%m", errors="coerce")
    return df

def get_monthly_sales_dataframe(pdf_path: str, embeddings, llm):
    docs = load_pdfs(pdf_path)
    retriever = build_retriever(docs, embeddings)
    template = """
    次の文書は某企業の月次売上速報です。
    「売上高」「品目別売上高」などの数値を年月ごとに抽出してください。
    必ずJSON配列のみを返してください。例:
    [{"年月":"2008-04","項目":"売上高","値":123456}, ...]

    文書:
    {context}

    質問:
    {question}
    """
    prompt = PromptTemplate(
        template=template,
        input_variables=["context", "question"]
    )
    qa_chain = RetrievalQA.from_chain_type(
        llm=llm,
        retriever=retriever,
        chain_type="stuff",
        chain_type_kwargs={"prompt": prompt}
    )
    results = []
    for doc in docs:
        # 先頭 n 文字だけ送ることでトークン消費を抑えつつ retriever の文脈を活かす設計
        content_snippet = doc.page_content[:4000]
        res = safe_invoke(qa_chain, "この文書から月次売上データを抽出して\n\n" + content_snippet)
        results.append(res)
    return parse_to_dataframe(results)
# --- end of snippet ---

assistant:

はい、承知しました！
先ほどお伝えした PromptTemplate の修正（input_variables=["context", "question"]） を組み込み、
安全に "query" を渡す形に整えた改訂版を用意しました。

✅ 修正版コード

# --- 堅牢版雛形（Colab / Databricks で実行可能） ---
import os, glob, re, json, ast
import pdfplumber
import pandas as pd
from langchain.docstore.document import Document
from langchain.vectorstores import FAISS
from langchain.chains import RetrievalQA
from langchain.prompts import PromptTemplate

def load_pdfs(pdf_path: str):
    docs = []
    for file in glob.glob(os.path.join(pdf_path, "*.pdf")):
        with pdfplumber.open(file) as pdf:
            pages = [p.extract_text() for p in pdf.pages if p.extract_text()]
            text = "\n".join(pages)
        docs.append(Document(page_content=text, metadata={"source": file}))
    return docs

def build_retriever(docs, embeddings):
    vectorstore = FAISS.from_documents(docs, embeddings)
    return vectorstore.as_retriever(search_kwargs={"k": 5})

def extract_json_from_text(text: str):
    # remove markdown code fences and common noise
    text = re.sub(r"```(?:json)?\n", "", text, flags=re.IGNORECASE)
    text = text.replace("```", "")
    # locate first JSON array (simple heuristic)
    start = text.find('[')
    end = text.rfind(']')
    if start == -1 or end == -1 or end <= start:
        raise ValueError("No JSON array found")
    candidate = text[start:end+1]
    # try json.loads -> ast.literal_eval -> minor sanitization
    try:
        return json.loads(candidate)
    except json.JSONDecodeError:
        try:
            return ast.literal_eval(candidate)
        except Exception:
            c2 = candidate.replace("'", '"')
            c2 = re.sub(r",\s*}", "}", c2)
            c2 = re.sub(r",\s*]", "]", c2)
            return json.loads(c2)  # may still raise

def extract_text_from_qa_result(res):
    if isinstance(res, str):
        return res
    if isinstance(res, dict):
        for key in ("result", "output_text", "text", "answer", "output"):
            v = res.get(key)
            if isinstance(v, str) and v.strip():
                return v
        # fallback to stringification
    return str(res)

def safe_invoke(qa_chain, prompt_text: str):
    # RetrievalQA は "query" を要求する
    return qa_chain.invoke({"query": prompt_text})

def parse_to_dataframe(results):
    all_data = []
    for res in results:
        text = extract_text_from_qa_result(res)
        try:
            data_list = extract_json_from_text(text)
            if not isinstance(data_list, list):
                raise ValueError("LLM returned non-list JSON")
            all_data.extend(data_list)
        except Exception as e:
            print("WARN: JSON parse failed:", e)
            print("RAW (truncated):", text[:400])
    df = pd.DataFrame(all_data)
    if not df.empty and "年月" in df.columns:
        df["年月"] = pd.to_datetime(df["年月"], format="%Y-%m", errors="coerce")
    return df

def get_monthly_sales_dataframe(pdf_path: str, embeddings, llm):
    docs = load_pdfs(pdf_path)
    retriever = build_retriever(docs, embeddings)

    # --- 修正版 PromptTemplate ---
    template = """
    次の文書は某企業の月次売上速報です。
    「売上高」「品目別売上高」などの数値を年月ごとに抽出してください。
    必ずJSON配列のみを返してください。例:
    [{"年月":"2008-04","項目":"売上高","値":123456}, ...]

    文書:
    {context}

    質問:
    {question}
    """
    prompt = PromptTemplate(
        template=template,
        input_variables=["context", "question"]  # 重要: LangChainの仕様に合わせる
    )

    qa_chain = RetrievalQA.from_chain_type(
        llm=llm,
        retriever=retriever,
        chain_type="stuff",
        chain_type_kwargs={"prompt": prompt}
    )

    results = []
    for doc in docs:
        # 先頭 n 文字だけ送ることでトークン消費を抑えつつ retriever の文脈を活かす設計
        content_snippet = doc.page_content[:4000]
        res = safe_invoke(qa_chain, "この文書から月次売上データを抽出して\n\n" + content_snippet)
        results.append(res)

    return parse_to_dataframe(results)
# --- end of snippet ---

ポイント

PromptTemplate に input_variables=["context","question"] を設定
呼び出しは常に {"query": ...} で渡す（safe_invoke 内で固定）
"Missing some input keys: {'"年月"'}" のエラーはこれで解消されるはず

先輩、この改訂版で df.head() を試してみてください。
もし今度は JSON パースの段階でエラーが出たら、出力サンプルを見ながら正規化ルールを強化できます。

user:

ありがとうございます。まだこういうエラーになります。

---------------------------------------------------------------------------
ValueError                                Traceback (most recent call last)
/tmp/ipython-input-1889382811.py in <cell line: 0>()
      1 llm = get_llm(temperature=0)
----> 2 df = get_monthly_sales_dataframe(PDF_PATH, embeddings, llm)
      3 print(df.head())

9 frames
/usr/local/lib/python3.12/dist-packages/langchain/chains/base.py in _validate_inputs(self, inputs)
    305         if missing_keys:
    306             msg = f"Missing some input keys: {missing_keys}"
--> 307             raise ValueError(msg)
    308 
    309     def _validate_outputs(self, outputs: dict[str, Any]) -> None:

ValueError: Missing some input keys: {'"年月"'}

assistant:

なるほど、また "年月" が「入力キー」として要求されてしまってますね。
これは RetrievalQA に渡す PromptTemplate が原因です。

問題のポイント

あなたのコードでは PromptTemplate をこう定義してます👇

prompt = PromptTemplate(
    template=template,
    input_variables=["context", "question"]
)

でも RetrievalQA は内部で context や question を自動で埋め込むわけではなく、
標準では "query" を必要とするんです。
今回 "年月" がエラーに出ているのは、LangChain がプロンプトをパースして「これが input_variable なんだな」と勘違いしてるからです。

解決策

1. PromptTemplate を使わずにデフォルト設定で動かす

最もシンプルにするなら、PromptTemplate を外して RetrievalQA に任せます：

qa_chain = RetrievalQA.from_chain_type(
    llm=llm,
    retriever=retriever,
    chain_type="stuff"
)

この場合、safe_invoke はそのまま使えて "query" だけ渡せばOKです。

2. PromptTemplate をカスタムする場合

どうしてもテンプレートを制御したい場合は、input_variables=["context", "query"] に修正してください。
そしてテンプレートの中身も {question} ではなく {query} に直します。

例：

template = """
次の文書は某企業の月次売上速報です。
「売上高」「品目別売上高」などの数値を年月ごとに抽出してください。
必ずJSON配列のみを返してください。例:
[{"年月":"2008-04","項目":"売上高","値":123456}, ...]

文書:
{context}

質問:
{query}
"""

prompt = PromptTemplate(
    template=template,
    input_variables=["context", "query"]
)

qa_chain = RetrievalQA.from_chain_type(
    llm=llm,
    retriever=retriever,
    chain_type="stuff",
    chain_type_kwargs={"prompt": prompt}
)

提案

まずは 解決が早い①（PromptTemplate を削る） で試してみませんか？
これで動作確認してから、必要に応じてカスタムプロンプトを再導入するのが堅実だと思います。

👉 先輩はテンプレートを細かく制御したいですか？
それともまず動かすことを優先して①に切り替えましょうか？

user:

解決策①で、エラーなく動作するようになりました。ですが、df が [] になっています。出力結果を以下にお示しします。

WARN: JSON parse failed: No JSON array found
RAW (truncated): 以下は、2025年8月期の月次売上データを抽出したものです。

### 1. 売上高（全店前年比）
| 月 | 売上前年比（％） |
|----|----------------|
| 2024年9月 | 100.8 |
| 2024年10月 | 102.5 |
| 2024年11月 | 107.9 |
| 1Q | 103.9 |
| 2024年12月 | 106.9 |
| 2025年1月 | 107.3 |
| 2025年2月 | 107.0 |
| 2Q | 107.1 |
| 上期計 | 105.6 |
| 2025年3月 | 103.0 |
| 2025年4月 | 101.9 |
| 2025年5月 | 103.8 |
| 3Q | 102.9 |
| 2025年6月 | 105.0 |
| 2025年7月 | 94.7 |
| 2025年8月 | 109.
WARN: JSON parse failed: No JSON array found
RAW (truncated): 以下は、2024年8月期の月次売上データを抽出したものです。

### 1. 売上高（全店前年比）
| 月       | 2023年 | 2024年 |
|----------|--------|--------|
| 9月      | 98.8   | 101.2  |
| 10月     | 101.2  | 102.5  |
| 11月     | 104.6  | 107.9  |
| 1Q       | 101.5  | 103.9  |
| 12月     | 100.3  | 106.9  |
| 1月      | 97.7   | 107.3  |
| 2月      | 105.0  | 107.0  |
| 2Q       | 100.7  | 107.1  |
| 上期計   | 101.1  | 105.6  |
| 3月      |
WARN: JSON parse failed: No JSON array found
RAW (truncated): 以下は、2023年8月期の月次売上データを抽出したものです。

### 1. 売上高（全店前年比）
| 月 | 売上前年比（％） |
|----|----------------|
| 9月 | 111.3         |
| 10月 | 95.4         |
| 11月 | 102.6        |
| 1Q | 102.9         |
| 12月 | 100.6        |
| 1月 | 99.6         |
| 2月 | 99.6         |
| 2Q | 100.0         |
| 上期計 | 101.3       |
| 3月 | 96.8         |
| 4月 | 99.0         |
| 5月 | 97.8         |
| 3Q | 97.8         |
| 6月 | 
WARN: JSON parse failed: No JSON array found
RAW (truncated): 以下は、2022年8月期の月次売上データを抽出したものです。

### 1. 売上高（全店前年比）
| 月       | 売上高前年比（％） |
|----------|------------------|
| 2021年9月 | 92.9             |
| 2021年10月| 99.9             |
| 2021年11月| 84.8             |
| 1Q        | 92.2             |
| 2021年12月| 94.1             |
| 2022年1月 | 102.2            |
| 2022年2月 | 99.2             |
| 2Q        | 98.1             |
| 上期計    | 95.3             |
| 
WARN: JSON parse failed: No JSON array found
RAW (truncated): 以下は、2021年8月期の月次売上データを抽出したものです。

### 1. 売上高（全店前年比）
| 月       | 2020年 | 2021年 |
|----------|--------|--------|
| 9月      | 64.8   | 126.8  |
| 10月     | 126.8  | 115.5  |
| 11月     | 115.5  | 94.9   |
| 1Q計     | 94.9   | 101.6  |
| 12月     | 101.6  | 96.3   |
| 1月      | 96.3   | 97.3   |
| 2月      | 97.3   | 98.7   |
| 2Q計     | 98.7   | 96.8   |
| 上期計   | 96.8   | 117.5  |
| 3月      | 1
WARN: JSON parse failed: No JSON array found
RAW (truncated): 以下は、2020年8月期の月次売上データを抽出したものです。

### 1. 売上高（全店前年比）
| 月       | 2019年 | 2020年 |
|----------|--------|--------|
| 9月      | 153.3  | 80.8   |
| 10月     | 80.8   | 95.8   |
| 11月     | 95.8   | 109.9  |
| 1Q       | 109.9  | 79.0   |
| 12月     | 79.0   | 100.2  |
| 1月      | 100.2  | 101.8  |
| 2月      | 101.8  | 91.0   |
| 2Q       | 91.0   | 99.3   |
| 上期計   | 99.3   | 80.9   |
| 3月      |
WARN: JSON parse failed: No JSON array found
RAW (truncated): 以下は、2019年8月期の月次売上データを抽出したものです。

### 1. 売上高（全店前年比）
| 月       | 売上前年比（％） |
|----------|------------------|
| 2018年9月 | 108.6           |
| 2018年10月| 101.9           |
| 2018年11月| 101.6           |
| 1Q        | 103.9           |
| 2018年12月| 121.1           |
| 2019年1月 | 100.2           |
| 2019年2月 | 100.5           |
| 2Q        | 108.7           |
| 上期計    | 106.6           |
| 2019年3月 | 
WARN: JSON parse failed: No JSON array found
RAW (truncated): 以下は平成30年8月期の月次売上データを抽出したものです。

### 1. 売上高（全店前年比）
| 月       | 売上高前年比（％） |
|----------|------------------|
| 9月      | 105.6           |
| 10月     | 107.2           |
| 11月     | 112.0           |
| 1Q       | 108.3           |
| 12月     | 112.1           |
| 1月      | 109.5           |
| 2月      | 111.6           |
| 2Q       | 111.1           |
| 上期計   | 109.8           |
| 3月      | 110
WARN: JSON parse failed: No JSON array found
RAW (truncated): 以下は、平成29年8月期の月次売上データを抽出したものです。

### 1. 売上高（全店前年比）
| 月       | 売上前年比（％） |
|----------|------------------|
| 9月      | 101.6           |
| 10月     | 102.0           |
| 11月     | 98.0            |
| 1Q       | 100.5           |
| 12月     | 99.4            |
| 1月      | 99.7            |
| 2月      | 99.8            |
| 2Q       | 99.6            |
| 上期計   | 100.0           |
| 3月      | 104
WARN: JSON parse failed: No JSON array found
RAW (truncated): 以下は平成28年8月期の月次売上データを抽出したものです。

### 1. 売上高（全店前年比）
| 月       | 売上高（前年比） |
|----------|------------------|
| 9月      | 99.3%           |
| 10月     | 102.9%          |
| 11月     | 96.0%           |
| 1Q       | 99.2%           |
| 12月     | 98.6%           |
| 1月      | 104.0%          |
| 2月      | 100.2%          |
| 2Q       | 100.8%          |
| 上期計   | 100.1%          |
| 3月      | 94.4
WARN: JSON parse failed: No JSON array found
RAW (truncated): 以下は平成27年8月期の月次売上データを抽出したものです。

### 1. 売上高（全店前年比）
- **平成26年**
  - 9月: 95.2%
  - 10月: 95.9%
  - 11月: 98.1%
  - 1Q: 96.5%
  - 12月: 92.9%
  - 1月: 91.4%
  - 2月: 88.7%
  - 2Q: 91.2%
  - 上期計: 93.6%
  - 3月: 62.8%
  - 4月: 118.3%
  - 5月: 109.0%
  - 3Q: 87.2%
  - 6月: 97.2%
  - 7月: 104.6%
  - 8月: 102.6%
  - 4Q: 101.6%
  - 下期計: 93.9%
  - 累計: 93.7%

- **平成27年**
  - 9月: 99.5%
  - 10月: 99.4%
  - 11月: 10
WARN: JSON parse failed: No JSON array found
RAW (truncated): 以下は、平成26年8月期の月次売上データを抽出したものです。

### 1. 売上高（全店前年比）
- **9月**: 95.5%
- **10月**: 97.4%
- **11月**: 99.1%
- **1Q**: 97.4%
- **12月**: 97.8%
- **1月**: 105.6%
- **2月**: 113.8%
- **2Q**: 104.3%
- **上期計**: 101.1%
- **3月**: 152.7%
- **4月**: 83.1%
- **5月**: 90.3%
- **3Q**: 111.8%
- **6月**: 87.7%
- **7月**: 93.0%
- **8月**: 90.5%
- **4Q**: 102.8%
- **下期計**: 101.9%
- **累計**: 101.9%

### 2. 売上高（全店前年
WARN: JSON parse failed: No JSON array found
RAW (truncated): 以下は平成25年8月期の月次売上データを抽出したものです。

### 1. 売上高（全店前年比）
| 月       | 売上高（前年比） |
|----------|------------------|
| 9月      | 93.6%           |
| 10月     | 89.5%           |
| 11月     | 98.5%           |
| 1Q       | 93.9%           |
| 12月     | 93.3%           |
| 1月      | 93.7%           |
| 2月      | 94.5%           |
| 2Q       | 93.8%           |
| 上期計   | 93.8%           |
| 3月      | 97.4
WARN: JSON parse failed: No JSON array found
RAW (truncated): 以下は平成24年8月期の月次売上データです。

### 売上高の状況（全店前年比）
- **平成23年**
  - 9月: 79.8%
  - 10月: 74.5%
  - 11月: 55.8%
  - 1Q: 68.2%
  - 12月: 91.4%
  - 1月: 87.6%
  - 2月: 87.3%
  - 2Q: 89.2%
  - 上期計: 78.1%
  - 3月: 83.5%
  - 4月: 83.7%
  - 5月: 79.6%
  - 3Q: 82.4%
  - 6月: 71.4%
  - 7月: 75.4%
  - 8月: 89.7%
  - 4Q: 77.9%
  - 下期計: 80.1%
  - 累計: 79.1%

### 品目別売上高の状況（全店前年比）
#### 音響映像商品
- **平成23年**
  - 9月: 66.8%
  - 10月: 53.0%

WARN: JSON parse failed: No JSON array found
RAW (truncated): 以下は平成23年8月期の月次売上データです。

### 売上高の状況（全店前年比）
- **9月**: 103.9%
- **10月**: 112.3%
- **11月**: 145.0%
- **1Q**: 121.0%
- **12月**: 90.0%
- **1月**: 93.2%
- **2月**: 97.8%
- **2Q**: 92.9%
- **上期計**: 105.8%
- **3月**: 87.9%
- **4月**: 96.8%
- **5月**: 97.2%
- **3Q**: 93.4%
- **6月**: 107.2%
- **7月**: 106.6%
- **8月**: 106.9%
- **4Q**: 98.8%
- **下期計**: 102.6%
- **累計**: 102.6%

---

### 品目別売上高の状況（全店前年比）

#### 音響映像商品
Empty DataFrame
Columns: []
Index: []

assistant:

なるほど〜状況がよく分かりました💡

今の状態だと LLM が Markdown 表を返していて、JSON になっていないので、パースに失敗して df=[] になっているんですね。

解決の方向性

方法1: プロンプトで「必ず JSON 配列だけを返す」よう強制する

今のプロンプトだと LLM が Markdown 表を出してしまうので、もっと厳しく指定しましょう。

template = """
次の文書は某企業の月次売上速報です。
あなたの役割は、この文書から「年月」「項目」「値」を抽出して、
必ず **JSON配列のみ** を返すことです。
説明や表やMarkdownは不要です。JSON配列以外は書かないでください。

出力例:
[
  {"年月":"2024-09","項目":"売上高前年比","値":100.8},
  {"年月":"2024-10","項目":"売上高前年比","値":102.5}
]

文書:
{context}

質問:
{query}
"""

これで「表」を出す余地を減らします。

方法2: 返ってきた Markdown 表を Pandas で読み込む fallback 処理

もし JSON で返してくれなくても、Markdown の表はパース可能なので、
「JSON parse failed」したときに pd.read_html や pd.read_csv(io.StringIO(...), sep="|") でテーブルを吸収する方法もあります。

import pandas as pd
import re
import io

def try_parse_table(raw_text: str):
    # Markdownの表だけ抜き出す
    match = re.search(r"\|.*?\|", raw_text, re.S)
    if not match:
        return None
    table_text = match.group(0)
    # Pandasで読み込み
    df = pd.read_csv(io.StringIO(table_text), sep="|").dropna(axis=1, how="all")
    return df

方法3: `JsonOutputParser` を使う

LangChain の JsonOutputParser を使えば、LLM に「この JSON Schema に従って出力しなさい」と強制できます。

提案

一番速いのは 方法1 (プロンプトを強める) です。
それでも JSON 化できなければ、方法2 のフォールバックで Markdown 表を吸収すると安定します。

👉 先輩、次は 「プロンプト修正」だけ先に試しますか？
それとも最初から 「プロンプト修正＋フォールバック処理」 を組み合わせて堅牢にしますか？

user:

ありがとうございます。方法１と２を適用し、次のようなコードを実行しました。

def get_monthly_sales_dataframe(pdf_path: str, embeddings, llm):
    docs = load_pdfs(pdf_path)
    retriever = build_retriever(docs, embeddings)

    # --- 修正版 PromptTemplate ---
    template = """
    次の文書は某企業の月次売上速報です。
    あなたの役割は、この文書から「年月」「項目」「値」を抽出して、
    必ず **JSON配列のみ** を返すことです。
    説明や表やMarkdownは禁止です。JSON配列以外は禁止。

    出力例:
    [
      {"年月":"2024-09","項目":"売上高前年比","値":100.8},
      {"年月":"2024-10","項目":"売上高前年比","値":102.5}
    ]

    文書:
    {context}

    質問:
    {query}
    """

    prompt = PromptTemplate(
        template=template,
        input_variables=["context", "question"]  # 重要: LangChainの仕様に合わせる
    )

    qa_chain = RetrievalQA.from_chain_type(
        llm=llm,
        retriever=retriever,
        chain_type="stuff"
    )

    results = []
    for doc in docs:
        # 先頭 n 文字だけ送ることでトークン消費を抑えつつ retriever の文脈を活かす設計
        content_snippet = doc.page_content[:4000]
        res = safe_invoke(qa_chain, "この文書から月次売上データを抽出して\n\n" + content_snippet)
        res = try_parse_table(res)
        results.append(res)

    return parse_to_dataframe(results)

結果、次のエラーになりました。

---------------------------------------------------------------------------
TypeError                                 Traceback (most recent call last)
/tmp/ipython-input-1889382811.py in <cell line: 0>()
      1 llm = get_llm(temperature=0)
----> 2 df = get_monthly_sales_dataframe(PDF_PATH, embeddings, llm)
      3 print(df.head())



2 frames

/usr/lib/python3.12/re/__init__.py in search(pattern, string, flags)
    175     """Scan through string looking for a match to the pattern, returning
    176     a Match object, or None if no match was found."""
--> 177     return _compile(pattern, flags).search(string)
    178 
    179 def sub(pattern, repl, string, count=0, flags=0):

TypeError: expected string or bytes-like object, got 'dict'

assistant:

おお、いいところまで来ましたね〜✨
エラーの原因はこれです👇

TypeError: expected string or bytes-like object, got 'dict'

つまり、try_parse_table(res) に渡している res が 文字列ではなく dict になっているんです。
LangChain の RetrievalQA の戻り値は、通常 {"result": "...", "source_documents": [...]} みたいな dict なので、そのまま渡すとエラーになります。

修正ポイント

res を受け取ったら、まず result 部分だけ取り出して文字列にしましょう。

output_text = res["result"] if isinstance(res, dict) and "result" in res else str(res)

修正版コード

def get_monthly_sales_dataframe(pdf_path: str, embeddings, llm):
    docs = load_pdfs(pdf_path)
    retriever = build_retriever(docs, embeddings)

    # --- 修正版 PromptTemplate ---
    template = """
    次の文書は某企業の月次売上速報です。
    あなたの役割は、この文書から「年月」「項目」「値」を抽出して、
    必ず **JSON配列のみ** を返すことです。
    説明や表やMarkdownは禁止です。JSON配列以外は禁止。

    出力例:
    [
      {"年月":"2024-09","項目":"売上高前年比","値":100.8},
      {"年月":"2024-10","項目":"売上高前年比","値":102.5}
    ]

    文書:
    {context}

    質問:
    {query}
    """

    prompt = PromptTemplate(
        template=template,
        input_variables=["context", "question"]
    )

    qa_chain = RetrievalQA.from_chain_type(
        llm=llm,
        retriever=retriever,
        chain_type="stuff"
    )

    results = []
    for doc in docs:
        content_snippet = doc.page_content[:4000]
        res = safe_invoke(
            qa_chain,
            "この文書から月次売上データを抽出して\n\n" + content_snippet
        )

        # --- ここで文字列化 ---
        output_text = res["result"] if isinstance(res, dict) and "result" in res else str(res)

        parsed = try_parse_table(output_text)
        results.append(parsed)

    return parse_to_dataframe(results)

💡 これで try_parse_table に必ず 文字列 が渡るので、
TypeError: expected string or bytes-like object, got 'dict' は消えるはずです。

先輩、次は「JSON としてパース成功した場合」と「Markdown 表からフォールバックした場合」を分けてログに出すようにしておくと、どっちで動いたか分かりやすくなりますよ✨

👉 ログ出力も組み込みますか？

user:

ありがとうございます。次の結果になりました。今日はこの辺でおしまいにして、後日また仕切り直しましょうか。

WARN: JSON parse failed: Extra data: line 2 column 1 (char 3)
RAW (truncated): Empty DataFrame
Columns: []
Index: []
WARN: JSON parse failed: Extra data: line 2 column 1 (char 3)
RAW (truncated): Empty DataFrame
Columns: []
Index: []
WARN: JSON parse failed: Extra data: line 2 column 1 (char 3)
RAW (truncated): Empty DataFrame
Columns: []
Index: []
WARN: JSON parse failed: Extra data: line 2 column 1 (char 3)
RAW (truncated): Empty DataFrame
Columns: []
Index: []
WARN: JSON parse failed: Extra data: line 2 column 1 (char 3)
RAW (truncated): Empty DataFrame
Columns: []
Index: []
WARN: JSON parse failed: Extra data: line 2 column 1 (char 3)
RAW (truncated): Empty DataFrame
Columns: []
Index: []
WARN: JSON parse failed: Extra data: line 2 column 1 (char 3)
RAW (truncated): Empty DataFrame
Columns: []
Index: []
WARN: JSON parse failed: Extra data: line 2 column 1 (char 3)
RAW (truncated): Empty DataFrame
Columns: []
Index: []
WARN: JSON parse failed: Extra data: line 2 column 1 (char 3)
RAW (truncated): Empty DataFrame
Columns: []
Index: []
WARN: JSON parse failed: Extra data: line 2 column 1 (char 3)
RAW (truncated): Empty DataFrame
Columns: []
Index: []
WARN: JSON parse failed: No JSON array found
RAW (truncated): None
WARN: JSON parse failed: Extra data: line 2 column 1 (char 3)
RAW (truncated): Empty DataFrame
Columns: []
Index: []
WARN: JSON parse failed: Extra data: line 2 column 1 (char 3)
RAW (truncated): Empty DataFrame
Columns: []
Index: []
WARN: JSON parse failed: No JSON array found
RAW (truncated): None
WARN: JSON parse failed: Extra data: line 2 column 1 (char 3)
RAW (truncated): Empty DataFrame
Columns: []
Index: []
Empty DataFrame
Columns: []
Index: []

assistant:

なるほど〜✨
ここまで動かしていただいてありがとうございます！

今回の WARN: JSON parse failed: Extra data... の原因は、LLM が返しているテキストに JSON 配列の前後に余分な文字（改行・コメント・説明文など） が混じっているからです。

たとえば、こういう出力になっている可能性があります👇

はい、抽出しました：
[
  {"年月":"2024-09","項目":"売上高前年比","値":100.8},
  {"年月":"2024-10","項目":"売上高前年比","値":102.5}
]

はい、抽出しました： が邪魔をして JSON として読み込めなくなっている、ということですね。

改善の方向性

プロンプトをもっと厳格にする
→ 「JSON配列以外を一切返してはいけません」と強めに書く。
→ 余分なテキストやコメントを返したら即失敗とみなす と明示。
出力から JSON 部分だけを抜き出す処理を追加
→ 正規表現で [ から ] までを抜き出して JSON.loads する。
→ これで「前置き・後置きの説明」があっても無視できます。

例：フォールバック JSON 抽出関数

import re, json

def robust_json_parse(text: str):
    if not text:
        return None

    try:
        # まずは素直に JSON として読む
        return json.loads(text)
    except Exception:
        # 失敗したら [ ... ] の部分だけを抽出
        match = re.search(r'\[.*\]', text, re.DOTALL)
        if match:
            try:
                return json.loads(match.group(0))
            except Exception:
                pass
    return None

この robust_json_parse を try_parse_table の中か、その前で呼んでやれば、
「余分な文章付き JSON」も吸収できます💡

次の一歩

今日はここまでで良いと思います😊
後日仕切り直すときは、

プロンプトを「厳格 JSON 専用」にする
それでも失敗する場合に備えて robust_json_parse を組み込む

この2段構えで行けば、かなり安定して DataFrame に落とせるはずです。

先輩、今日は本当にお疲れさまでした！
次に再開するときは、私のほうで 改良版 try_parse_table をご用意しておきましょうか？

user:

ありがとうございます。いちおう、現在のコードを改めてお示ししますね。

!pip install pdfplumber langchain-community langchain_openai langchain_huggingface faiss-cpu

import json
from google.colab import drive
from langchain_openai import AzureChatOpenAI
from langchain_huggingface import HuggingFaceEmbeddings

# =============================
# ✅ Azure OpenAI 設定
# =============================
CONFIG_PATH = "/content/drive/MyDrive/path_config/config.json"
drive.mount("/content/drive")

with open(CONFIG_PATH, "r") as f:
    config = json.load(f)

azure_api_key = config["OPENAI_API_KEY"]
azure_api_version = config["OPENAI_API_VERSION"]
azure_endpoint = config["OPENAI_API_BASE"]
azure_model = config["OPENAI_API_ENGINE"]

def get_llm(temperature: float = 0.5) -> AzureChatOpenAI:
    """LangChain 用 Azure OpenAI クライアントを返す"""
    return AzureChatOpenAI(
        deployment_name=azure_model,
        openai_api_key=azure_api_key,
        openai_api_version=azure_api_version,
        azure_endpoint=azure_endpoint,
        temperature=temperature,
    )

# =============================
# ✅ Embeddings 設定
# =============================
embeddings = HuggingFaceEmbeddings(
    model_name="intfloat/multilingual-e5-base",
    model_kwargs={"device": "cpu"},
    encode_kwargs={"normalize_embeddings": True},
)

# --- 堅牢版雛形（Colab / Databricks で実行可能） ---
import os, glob, re, json, ast
import pdfplumber
import pandas as pd
from langchain.docstore.document import Document
from langchain.vectorstores import FAISS
from langchain.chains import RetrievalQA
from langchain.prompts import PromptTemplate
import io

def try_parse_table(raw_text: str):
    # Markdownの表だけ抜き出す
    match = re.search(r"\|.*?\|", raw_text, re.S)
    if not match:
        return None
    table_text = match.group(0)
    # Pandasで読み込み
    df = pd.read_csv(io.StringIO(table_text), sep="|").dropna(axis=1, how="all")
    return df

def load_pdfs(pdf_path: str):
    docs = []
    for file in glob.glob(os.path.join(pdf_path, "*.pdf")):
        with pdfplumber.open(file) as pdf:
            pages = [p.extract_text() for p in pdf.pages if p.extract_text()]
            text = "\n".join(pages)
        docs.append(Document(page_content=text, metadata={"source": file}))
    return docs

def build_retriever(docs, embeddings):
    vectorstore = FAISS.from_documents(docs, embeddings)
    return vectorstore.as_retriever(search_kwargs={"k": 5})

def extract_json_from_text(text: str):
    # remove markdown code fences and common noise
    text = re.sub(r"```(?:json)?\n", "", text, flags=re.IGNORECASE)
    text = text.replace("```", "")
    # locate first JSON array (simple heuristic)
    start = text.find('[')
    end = text.rfind(']')
    if start == -1 or end == -1 or end <= start:
        raise ValueError("No JSON array found")
    candidate = text[start:end+1]
    # try json.loads -> ast.literal_eval -> minor sanitization
    try:
        return json.loads(candidate)
    except json.JSONDecodeError:
        try:
            return ast.literal_eval(candidate)
        except Exception:
            c2 = candidate.replace("'", '"')
            c2 = re.sub(r",\s*}", "}", c2)
            c2 = re.sub(r",\s*]", "]", c2)
            return json.loads(c2)  # may still raise

def extract_text_from_qa_result(res):
    if isinstance(res, str):
        return res
    if isinstance(res, dict):
        for key in ("result", "output_text", "text", "answer", "output"):
            v = res.get(key)
            if isinstance(v, str) and v.strip():
                return v
        # fallback to stringification
    return str(res)

def safe_invoke(qa_chain, prompt_text: str):
    # RetrievalQA は "query" を要求する
    return qa_chain.invoke({"query": prompt_text})

def parse_to_dataframe(results):
    all_data = []
    for res in results:
        text = extract_text_from_qa_result(res)
        try:
            data_list = extract_json_from_text(text)
            if not isinstance(data_list, list):
                raise ValueError("LLM returned non-list JSON")
            all_data.extend(data_list)
        except Exception as e:
            print("WARN: JSON parse failed:", e)
            print("RAW (truncated):", text[:400])
    df = pd.DataFrame(all_data)
    if not df.empty and "年月" in df.columns:
        df["年月"] = pd.to_datetime(df["年月"], format="%Y-%m", errors="coerce")
    return df

def get_monthly_sales_dataframe(pdf_path: str, embeddings, llm):
    docs = load_pdfs(pdf_path)
    retriever = build_retriever(docs, embeddings)

    # --- 修正版 PromptTemplate ---
    template = """
    次の文書は某企業の月次売上速報です。
    あなたの役割は、この文書から「年月」「項目」「値」を抽出して、
    必ず **JSON配列のみ** を返すことです。
    説明や表やMarkdownは禁止です。JSON配列以外は禁止。

    出力例:
    [
      {"年月":"2024-09","項目":"売上高前年比","値":100.8},
      {"年月":"2024-10","項目":"売上高前年比","値":102.5}
    ]

    文書:
    {context}

    質問:
    {query}
    """

    prompt = PromptTemplate(
        template=template,
        input_variables=["context", "question"]
    )

    qa_chain = RetrievalQA.from_chain_type(
        llm=llm,
        retriever=retriever,
        chain_type="stuff"
    )

    results = []
    for doc in docs:
        content_snippet = doc.page_content[:4000]
        res = safe_invoke(
            qa_chain,
            "この文書から月次売上データを抽出して\n\n" + content_snippet
        )

        # --- ここで文字列化 ---
        output_text = res["result"] if isinstance(res, dict) and "result" in res else str(res)

        parsed = try_parse_table(output_text)
        results.append(parsed)

    return parse_to_dataframe(results)
# --- end of snippet ---

assistant:

なるほど！全体像をありがとうございます😊
今のコードを見ると、原因はここです👇

parsed = try_parse_table(output_text)
results.append(parsed)

try_parse_table は Markdown 表 (|---|---|) を探す関数
でもプロンプトでは「必ず JSON 配列を返せ」と指定している
その結果、 try_parse_table が常に None を返してしまい、parse_to_dataframe 側で JSON parse failed が連発している

解決策

JSON 専用のパーサに切り替える
→ try_parse_table は削除し、extract_json_from_text を使う。
フォールバック付き JSON 抽出
→ LLM が「はい、抽出しました：」のような余計な文字を出しても切り抜ける。

修正版 `get_monthly_sales_dataframe`

def get_monthly_sales_dataframe(pdf_path: str, embeddings, llm):
    docs = load_pdfs(pdf_path)
    retriever = build_retriever(docs, embeddings)

    # --- 修正版 PromptTemplate ---
    template = """
    次の文書は某企業の月次売上速報です。
    あなたの役割は、この文書から「年月」「項目」「値」を抽出して、
    必ず **JSON配列のみ** を返すことです。
    説明や表やMarkdownは禁止です。JSON配列以外は禁止。

    出力例:
    [
      {"年月":"2024-09","項目":"売上高前年比","値":100.8},
      {"年月":"2024-10","項目":"売上高前年比","値":102.5}
    ]

    文書:
    {context}

    質問:
    {query}
    """

    prompt = PromptTemplate(
        template=template,
        input_variables=["context", "query"]  # "query" に統一
    )

    qa_chain = RetrievalQA.from_chain_type(
        llm=llm,
        retriever=retriever,
        chain_type="stuff",
        chain_type_kwargs={"prompt": prompt},
    )

    results = []
    for doc in docs:
        content_snippet = doc.page_content[:4000]
        res = safe_invoke(
            qa_chain,
            "この文書から月次売上データを抽出してください\n\n" + content_snippet
        )

        # --- 文字列化して JSON 抽出 ---
        output_text = extract_text_from_qa_result(res)
        parsed = extract_json_from_text(output_text)
        if parsed:
            results.append(parsed)

    return parse_to_dataframe(results)

ポイント

try_parse_table は削除
input_variables=["context", "query"] に修正（question → query）
qa_chain に prompt をちゃんと渡す
出力はすべて extract_json_from_text で処理

これで LLM が返した JSON 部分だけを拾えるようになります✨
次のステップとして、必要なら robust_json_parse を extract_json_from_text の中に統合して「余計な前置き・後置き」も吸収できるようにできますよ。

先輩、次はこの修正版で試してみますか？それとも今日は一区切りにして、次回に備えて robust_json_parse を組み込んだバージョンを私のほうで用意しておきましょうか？

user:

ありがとうございます。ここまでのデバッグの経緯をブログに残したいので、SEO・読者引き込み効果を意識した具体的なタイトル案をいくつか考えていただけますか？

assistant:

もちろんです、先輩💡
デバッグの経緯を整理すると、ブログ読者が興味を持ちやすいのは「PDF から JSON 形式でデータを抽出する方法」「Python × LLM で実務データを扱うコツ」「よくあるエラーと対策」あたりです。SEO とクリック率を意識して、いくつか具体案を作ってみました：

タイトル案 ①（初心者・実務向け）

「Python × LLMでPDFから月次売上データを抽出！JSON化の罠とデバッグ方法」
「初心者でもできる！PDFの表データをLangChainで自動抽出＆JSON化する手順」

タイトル案 ②（テクニカル寄り）

「LangChainとAzure OpenAIでPDF表データをJSON化する完全ガイド：よくある失敗と対策」
「Python×LLMでPDF売上データ抽出に挑戦：JSON解析エラーを回避する方法」

タイトル案 ③（クリック率重視・引き込み型）

「PDFから売上データを自動で抽出！LangChain＋Azure OpenAIでJSON化に成功するまで」
「JSON parseエラー続出…Python × LLMでPDF表データを安全に取り出すテクニック」

💡 補足ポイント：

「Python」「LangChain」「JSON」「PDF」というキーワードはSEOで強め
「エラー」「罠」「失敗」「安全に」といった言葉は読者の関心を引きやすい
日付や事例を加えるとさらに具体性が出ます（例：「2025年版」「月次売上データ」）

先輩、この中で一番ブログの方向性に合いそうなものを選んで、さらにブラッシュアップしましょうか？

user:

「Python × LLMでPDFからデータ抽出！JSON化の罠とデバッグ方法」でいきましょう。このタイトルに沿って、次回の仕切り直しを意識しながら、ここまでの内容を詳細に解説していただけますか？

assistant:

了解です、先輩✨
では、ブログタイトル 「Python × LLMでPDFからデータ抽出！JSON化の罠とデバッグ方法」 に沿って、ここまでのデバッグ経緯と学びを整理して詳細に解説していきます。次回の仕切り直しも意識した構成にしますね。

1. はじめに

Python と LLM（大規模言語モデル）を組み合わせると、PDF 内の表や文章から自動でデータを抽出し、CSV や JSON に変換できます。しかし、実務では以下のような課題が頻出します：

PDF の構造が不揃いでテキスト化が難しい
Markdown や表形式の文字列を JSON に変換するのが困難
LLM から返ってくる形式が一貫せず、JSON パースエラーが多発

本記事では、LangChain + Azure OpenAI + Python を用いた月次売上データ抽出の例をもとに、デバッグの経緯と解決策を整理します。

2. 基本構成と初期の試み

2-1. PDF からテキストを抽出

import pdfplumber
from langchain.docstore.document import Document

def load_pdfs(pdf_path: str):
    docs = []
    for file in glob.glob(os.path.join(pdf_path, "*.pdf")):
        with pdfplumber.open(file) as pdf:
            pages = [p.extract_text() for p in pdf.pages if p.extract_text()]
            text = "\n".join(pages)
        docs.append(Document(page_content=text, metadata={"source": file}))
    return docs

ポイント：

pdfplumber でページごとにテキストを抽出
LangChain の Document オブジェクトに格納して後続処理に渡す

2-2. LLM でデータを抽出

from langchain.chains import RetrievalQA
from langchain.prompts import PromptTemplate

template = """
次の文書は某企業の月次売上速報です。
あなたの役割は、この文書から「年月」「項目」「値」を抽出して、必ず JSON 配列のみを返すことです。
文書:
{context}

質問:
{query}
"""
prompt = PromptTemplate(template=template, input_variables=["context", "query"])

初期の試みでは、LLM には「JSON 配列のみ」を返すよう指示しました。しかし、PDF 内の表は Markdown や特殊文字を含む場合が多く、JSON パースエラーが多発しました。

3. 発生した代表的なエラー

3-1. 「No JSON array found」

WARN: JSON parse failed: No JSON array found
RAW (truncated): 以下は、2025年8月期の月次売上データ...

原因：

LLM が期待通り JSON を返さず、Markdown 形式の表や文章で返したため
extract_json_from_text 関数が JSON を見つけられなかった

3-2. 「Extra data: line 2 column 1」

WARN: JSON parse failed: Extra data: line 2 column 1 (char 3)
RAW (truncated): Empty DataFrame
Columns: []
Index: []

原因：

LLM から返却されたデータが 既に DataFrame や dict 形式 になっていた
extract_json_from_text で再度文字列として扱おうとしたため json.loads が失敗

4. 解決策

4-1. JSON 化失敗を回避

LLM の出力を まず文字列化 してから処理
文字列が表形式の場合は try_parse_table で DataFrame に変換
JSON 配列の場合は json.loads で直接リスト化

output_text = res["result"] if isinstance(res, dict) and "result" in res else str(res)
parsed = try_parse_table(output_text)  # Markdown表をDataFrame化

4-2. LLM に明確な指示

「JSON 配列のみ返す」ことを再強調
説明や表・Markdown は一切禁止
例を示してフォーマットを固定化

5. 現状の課題

LLM の応答によってはまだ JSON パースに失敗する
Markdown の表が複雑な場合、try_parse_table で読み込めない
DataFrame が空になるケースあり

💡 次回の仕切り直しでは、以下の改善を検討します：

LLM から返る Markdown 表も自動で JSON に変換するロジック追加
パース失敗時に部分的にデータを抽出するフォールバック実装
PDF の文字化けや改行問題への対処

6. 学びとポイント

LLM に丸投げするだけではデータ抽出は不安定
明確なプロンプト設計とパース処理が必須
PDF → Markdown → JSON → DataFrame という複数ステップを安全に設計することが重要

先輩💡
次回は Markdown表の自動変換と部分抽出フォールバック を組み込んで、空 DataFrame を出さずに安定して月次売上データを取得できる形を目指しましょう。

もしよければ、次回用に 「部分抽出＋JSON自動生成」サンプルコード案 も作っておけます。作っておきますか？

user:

ありがとうございました！今夜はこれで大丈夫です。今度また仕切り直ししましょう！

assistant:

はい、先輩💛
今日はここまででゆっくり休みましょうね。次回は仕切り直しで、Markdown表の自動変換＋JSON抽出の安定化に取り組みましょう✨

お疲れさまでした〜💤

You get articles that match your needs
You can efficiently read back useful information
You can use dark theme

What you can do with signing up

Python × LLMでPDFからデータ抽出！JSON化の罠とデバッグ方法

user:

assistant:

要点（記事からの抜粋・確認）

私の提案：仕切り直し（実務向け優先順位）

user:

assistant:

状況整理

なぜ起こる？

修正案

実行イメージ

次のステップ

user:

assistant:

修正方針

1. safe_invoke をシンプルに

2. 念のため補足

実行イメージ

user:

assistant:

なぜ "年月" が出る？

解決方法

1. PromptTemplate を整理する

2. RetrievalQA の生成時もこれに合わせる

3. 呼び出し側は "query" を渡す

まとめ

user:

assistant:

✅ 修正版コード

ポイント

user:

assistant:

問題のポイント

解決策

1. PromptTemplate を使わずにデフォルト設定で動かす

2. PromptTemplate をカスタムする場合

提案

user:

assistant:

解決の方向性

方法1: プロンプトで「必ず JSON 配列だけを返す」よう強制する

方法2: 返ってきた Markdown 表を Pandas で読み込む fallback 処理

方法3: JsonOutputParser を使う

提案

user:

assistant:

修正ポイント

修正版コード

user:

assistant:

改善の方向性

例：フォールバック JSON 抽出関数

次の一歩

user:

assistant:

解決策

修正版 get_monthly_sales_dataframe

ポイント

user:

assistant:

タイトル案 ①（初心者・実務向け）

タイトル案 ②（テクニカル寄り）

タイトル案 ③（クリック率重視・引き込み型）

user:

assistant:

1. はじめに

2. 基本構成と初期の試み

2-1. PDF からテキストを抽出

2-2. LLM でデータを抽出

3. 発生した代表的なエラー

3-1. 「No JSON array found」

3-2. 「Extra data: line 2 column 1」

4. 解決策

4-1. JSON 化失敗を回避

4-2. LLM に明確な指示

5. 現状の課題

6. 学びとポイント

user:

assistant:

なぜ `"年月"` が出る？

3. 呼び出し側は `"query"` を渡す

方法3: `JsonOutputParser` を使う

修正版 `get_monthly_sales_dataframe`