Graphを構築してみる

Last updated at 2024-09-18Posted at 2024-08-31

はじめに

本記事では，前回の記事で少し述べた，Graph RAGについて書いていこうと思います．ただし，RAGの部分はうまくいかなかったのでKnowledge Graphを構築するまでの過程について記載いたします．

Graph RAGとは

そもそもGraph RAGの意義は，RAG(検索拡張生成：Retrieval-Augmented Generation)という，ドキュメントをベクトルにして，それをもとに回答させる手法を発展させることです．RAGでは，そのドキュメントに含まれる固有名詞の背景や関係性までを汲み取ることができません．指示代名詞が何を指しているのかも前後の文脈で分かる部分であるため，これらを明確にするためGraphを用いるアプローチです．つまり，関係性をわかるようにして，それを判断材料に含めてLLMに回答させることで，より精度の良い結果を得ることを目指しています．

お題

今回も前回と同様，私の最も好きな漫画である「進撃の巨人」を題材にします．元となるドキュメントは，進撃の巨人Wikipediaから物語に関連する部分を自分で抜粋したものです．

Graphの構築

こちらを参考に，Langchainとneo4jを用いてGraphを構築します．neo4jはローカルのコンテナで動かします．

neo4jのコンテナ

compose.yml

services:
  neo4j:
    image: neo4j:latest
    container_name: neo4j
    ports:
      - 7474:7474
      - 7687:7687
    environment:
      - NEO4J_AUTH=${NEO4J_USERNAME}/${NEO4J_PASSWORD}
      - NEO4JLABS_PLUGINS=["apoc"]
      - NEO4J_apoc_export_file_enabled=true
      - NEO4J_apoc_import_file_enabled=true
      - NEO4J_apoc_uuid_enabled=true
      - NEO4J_dbms_security_procedures_unrestricted=apoc.*
      - NEO4J_dbms_security_procedures_whitelist=apoc.*
      - NEO4J_dbms_memory_heap_initial__size=512m
      - NEO4J_dbms_memory_heap_max__size=2G
      - NEO4J_dbms_default__listen__address=0.0.0.0
      - NEO4J_dbms_connector_bolt_listen__address=:7687
      - NEO4J_dbms_connector_http_listen__address=:7474
      - NEO4J_dbms_connector_bolt_advertised__address=:7687
      - NEO4J_dbms_connector_http_advertised__address=:7474
      - NEO4J_dbms_allow__upgrade=true
      - NEO4J_dbms_default__database=neo4j
    volumes:
      - ./volumes/neo4j/data:/data
      - ./volumes/neo4j/plugins:/plugins
      - ./volumes/neo4j/logs:/logs
      - ./volumes/neo4j/import:/import
      - ./volumes/neo4j/init:/init
      - ./volumes/neo4j/conf:/conf

LLMGraphTransformerを用いてドキュメントをGraphに変換し，それを上記で起動したコンテナに格納します．
ドキュメントは適当にチャンクを区切り，LLMGraphTransformerもテンプレート通りにしているのみです．

main.py(抜粋)

from langchain_community.graphs import Neo4jGraph
from langchain_openai import ChatOpenAI

from src.constants import (
    NEO4J_PASSWORD,
    NEO4J_URI,
    NEO4J_USERNAME,
)


graph = Neo4jGraph(
    NEO4J_URI,
    NEO4J_USERNAME,
    NEO4J_PASSWORD,
)
llm = ChatOpenAI(temperature=0, model="gpt-4o")
llm_transformer = LLMGraphTransformer(llm=llm)
graph_documents = llm_transformer.convert_to_graph_documents(texts)
graph.add_graph_documents(graph_documents)

モデルはgpt-4oを用いました．
VertexAIだと，LLMGraphTransformerでエラーが出てしまいました．モデルをgpt-3.5でやってみると，実行はできたものの，うまくEntityの抽出をしてくれませんでした．

こんな感じ

以下が全体像です．http://localhost:7474/browser/にアクセスすると，neo4jの画面NodeとEdgeが無数に広がって何がなんだかわかりませんが，ひとまずこれが今回用いたドキュメントをGraphにしたものになります．

主人公である「エレン」(中央の青丸)に絞って抽出してみるとこのようになります．エレンと関連するNodeがたくさんあることがわかります．

更に絞って，「エレン」と「アルミン」の関係を示したのが下図(左がエレン，右がアルミン)です．物語の中で，二人の間にはいろいろなことがあったため，関係も複数結びついていることがわかります．

所感

Graph構築でうまくいかなかった点

gpt-4oを用いれば何も考えず，テンプレート通りに実行することで，Graphを構築することができました．しかしそれゆえに，見直すべきところがいくつかあります．特に，同義のNodeが複数できることは大きな問題だと感じました．
「アルミン」と「アルミン・アルレルト」それぞれでNodeができていますが，これは同一人物です．それぞれで関係が形成されてしまい，これをこのままGraph RAGに用いてしまうと，結局精度の良い回答は得られないでしょう．

料金

今回のドキュメント(約23,000字)でGraphを構築するのに，およそ$2.6かかりました．個人的には安いとは感じず，やみくもにするものではないかなと思います．

まとめ

今回はLangchainとneo4jを用いてGraphを構築しました．Graph自体は簡単に構築することができ，眺めるだけでも面白かったです．しかし，記載はしませんでしたが，本来の目的である，構築したGraphを用いてLLMに回答させることを試みたところ，思うような回答が得られませんでした．各NodeのPropertyをもう少し丁寧に付与するなど前処理が必要だと考えられます．ここはもう少し工夫の余地があるので，これから改善しようと思います．
また，Microsoftが，graphragというフレームワークを公開しているのでこちらを触ってみようと思います．

用いたコードはこちらに格納しております．

参考

You get articles that match your needs
You can efficiently read back useful information
You can use dark theme

What you can do with signing up