Neo4j を利用した GraphRAG 環境構築ガイド
Neo4j を活用して GraphRAG (Retrieval Augmented Generation) 環境を構築することで、強力な知識グラフベースの RAG システムを構築できます。以下に基本的な設定とワークフローについて説明します。
1. Neo4j インスタンスの設定
まず、Neo4j データベースを準備する必要があります。
- Neo4j Aura (クラウドサービス) の利用:
- 最も簡単な方法です。Neo4j Aura のウェブサイトにアクセスしてアカウントを作成し、インスタンスを作成します。
- インスタンス作成後、接続 URI、ユーザー名、パスワードが提供されます。
- ローカル Neo4j インスタンスの設定 (Docker 推奨):
- ローカル環境で Neo4j を実行するには、Docker を使用するのが便利です。
<!-- end list -->
docker run \
--name neo4j-graphrag \
-p 7474:7474 -p 7687:7687 \
-e NEO4J_AUTH=neo4j/your_password \
neo4j:latest
- your_password を希望のパスワードに変更してください。このコマンドは Neo4j コンテナを実行し、Web インターフェース (7474) と Bolt プロトコル (7687) のポートをマッピングします。
2. Python 環境の設定とライブラリのインストール
GraphRAG システムを構築するために必要な Python ライブラリをインストールします。neo4j-graphrag パッケージは Neo4j ベースの GraphRAG 実装を提供し、LLM (Large Language Model) 連携のための追加の依存関係も一緒にインストールできます。
pip install "neo4j-graphrag[openai]" # OpenAI LLM を使用する場合
# または他の LLM を使用する場合:
# pip install "neo4j-graphrag[google]" # Google Vertex AI
# pip install "neo4j-graphrag[anthropic]" # Anthropic Claude
# pip install "neo4j-graphrag[ollama]" # ローカル Ollama
さらに、必要に応じて openai、langchain、qdrant-client などもインストールできます。
pip install neo4j openai langchain qdrant-client # 必要に応じて追加インストール
3. 環境変数の設定
機密情報 (API キー、データベース認証情報) は環境変数として管理するのが良い方法です。.env ファイルを作成し、以下の情報を追加してください。
NEO4J_URI="bolt://localhost:7687" # Neo4j インスタンスの URI (Aura またはローカルに応じて変更)
NEO4J_USERNAME="neo4j"
NEO4J_PASSWORD="your_password" # 設定した Neo4j のパスワード
OPENAI_API_KEY="your_openai_api_key" # OpenAI API キー
# QDRANT_URL="your_qdrant_url" # Qdrant を使用する場合
# QDRANT_API_KEY="your_qdrant_api_key" # Qdrant を使用する場合
Python コードで python-dotenv ライブラリを使用して、これらの環境変数をロードできます。
from dotenv import load_dotenv
import os
load_dotenv()
NEO4J_URI = os.getenv("NEO4J_URI")
NEO4J_USERNAME = os.getenv("NEO4J_USERNAME")
NEO4J_PASSWORD = os.getenv("NEO4J_PASSWORD")
OPENAI_API_KEY = os.getenv("OPENAI_API_KEY")
4. データのロードとチャンク分割
RAG システムの核となるのは、元のドキュメントを適切に準備することです。
- ドキュメントのロード: langchain_community.document_loaders を使用して、さまざまな形式のドキュメントをロードできます。
- テキストチャンクの分割: RecursiveCharacterTextSplitter などのテキストスプリッターを使用して、ドキュメントを小さなチャンクに分割します。これらのチャンクは後でノードとなる可能性があります。
<!-- end list -->
from langchain_community.document_loaders import TextLoader
from langchain.text_splitter import RecursiveCharacterTextSplitter
text_path = "./your_document.txt" # ドキュメントファイルのパス
loader = TextLoader(text_path)
raw_documents = loader.load()
text_splitter = RecursiveCharacterTextSplitter(chunk_size=500, chunk_overlap=50) # チャンクサイズとオーバーラップを調整
documents = text_splitter.split_documents(raw_documents)
5. 知識グラフの構築 (Knowledge Graph Ingestion)
次に、チャンクに分割されたドキュメントからエンティティと関係を抽出し、Neo4j に知識グラフとして保存します。neo4j-graphrag パッケージは、これらのプロセスを支援するクラスと関数を提供します。
- LLM と埋め込みモデルの初期化: GraphRAG はエンティティ抽出と関係生成に LLM を利用します。
<!-- end list -->
from neo4j_graphrag.llm import OpenAILLM # 使用する LLM に応じて変更
from neo4j import GraphDatabase
# Neo4j ドライバーの初期化
driver = GraphDatabase.driver(NEO4J_URI, auth=(NEO4J_USERNAME, NEO4J_PASSWORD))
# LLM の初期化
llm = OpenAILLM(model_name="gpt-4o", openai_api_key=OPENAI_API_KEY)
# 埋め込みモデル (必要に応じて設定)
# from langchain_openai import OpenAIEmbeddings
# embeddings = OpenAIEmbeddings(openai_api_key=OPENAI_API_KEY)
- グラフ構築パイプラインの定義: neo4j-graphrag は GraphRAG クラスを介して統合されたパイプラインを提供します。このパイプラインは、ドキュメントからエンティティと関係を抽出し、Neo4j グラフに保存し、必要に応じてベクトル埋め込みも一緒に保存できます。
- この部分は neo4j-graphrag の具体的な実装方法によって異なる場合があります。通常、以下のステップが含まれます:
- ドキュメントチャンクをベクトル化し、Neo4j または外部ベクトル DB に保存します。
- LLM を使用して各チャンクからエンティティと関係を抽出します。
- 抽出されたエンティティと関係を Neo4j グラフとしてモデリングし、保存します。
- LangChain の Graph Retriever および Neo4jGraph 統合例:
- この部分は neo4j-graphrag の具体的な実装方法によって異なる場合があります。通常、以下のステップが含まれます:
<!-- end list -->
# from langchain_community.graphs import Neo4jGraph
# from langchain.chains import GraphRetrievalQA
# from langchain_openai import ChatOpenAI
# graph = Neo4jGraph(url=NEO4J_URI, username=NEO4J_USERNAME, password=NEO4J_PASSWORD)
# llm_chain = ChatOpenAI(temperature=0, openai_api_key=OPENAI_API_KEY)
# graph_rag_chain = GraphRetrievalQA.from_llm(
# llm=llm_chain,
# graph=graph,
# # customize graph retrieval here
# # retriever_mode="sparse", # または "dense", "hybrid" など
# # verbose=True
# )
# graph.refresh_schema() # スキーマの更新 (最初のデータ挿入後)
6. 質問応答 (Retrieval Augmented Generation)
知識グラフが構築されたら、ユーザーの質問に答えるために RAG パイプラインを実行します。
- 関連情報の検索 (Retrieval):
- ユーザーの質問をベクトル化します。
- ベクトル類似性検索を通じて、最も関連性の高いテキストチャンクを見つけます。
- Neo4j グラフからエンティティと関係を探索し、質問に対する追加の文脈情報を取得します (Cypher クエリを使用)。
- VectorRetriever と VectorCypherRetriever を組み合わせてこのプロセスを実行できます。
- 回答の生成 (Generation):
- 検索されたテキストチャンクとグラフから得られた文脈情報を LLM にプロンプトとして渡します。
- LLM はこの情報に基づいて、正確で流暢な回答を生成します。
<!-- end list -->
from neo4j_graphrag.generation import GraphRAG
from neo4j_graphrag.retrieval import VectorRetriever, VectorCypherRetriever
from neo4j_graphrag.llm import OpenAILLM # または他の LLM
# LLM の初期化
llm = OpenAILLM(model_name="gpt-4o", openai_api_key=OPENAI_API_KEY)
# Retriever の初期化 (例: VectorCypherRetriever がグラフ探索を含む)
# この部分は実際のデータモデルとクエリロジックに応じて実装する必要があります。
# neo4j-graphrag パッケージの例を参考にするのが良いでしょう。
# https://neo4j.com/docs/neo4j-graphrag-python/current/user_guide_rag.html
# 上で提示された LangChain の例を使用する場合:
# query = "メロースとセリヌスの関係は何ですか?"
# response = graph_rag_chain.run(query)
# print(response)
# neo4j-graphrag 自体の GraphRAG クラスを使用する場合:
# (この部分は neo4j-graphrag パッケージの最新の使用方法を確認する必要があります。)
# rag_pipeline = GraphRAG(llm=llm, driver=driver, # その他の設定)
# answer = rag_pipeline.invoke("あなたのドキュメントから X について教えてください。")
# print(answer)
主要な考慮事項
- データモデリング: Neo4j でエンティティ (ノード) と関係をどのようにモデリングするかが重要です。ドキュメントチャンク、抽出されたエンティティ、およびそれらの間の関係を明確に定義する必要があります。
- プロンプトエンジニアリング: LLM に渡されるプロンプトは、RAG システムのパフォーマンスに大きな影響を与えます。検索された情報を LLM が効果的に活用できるようにプロンプトを設計する必要があります。
- 埋め込みモデル: テキストチャンクとクエリのベクトル化のための埋め込みモデルの選択も重要です。
- パフォーマンス最適化: 大規模なデータセットの場合、Neo4j クエリの最適化、インデックス戦略、ベクトルデータベース (Qdrant、Pinecone など) との連携を検討する必要があります。
Neo4j の neo4j-graphrag Python パッケージは、このような複雑な GraphRAG システムを構築するための良い出発点を提供します。公式ドキュメントとサンプルコードを積極的に参考にしながら、ご自身の GraphRAG 環境を構築してみてください。