「GROBID + LlamaIndex + Neo4j」で知識グラフ化してます。これより強いパイプライン知りませんか?
論文PDFからのDBの作成に、どのツールを利用するといいでしょうか?
現在は
GROBID (PDF → TEI-XML変換)
↓
LlamaIndex とgpt-4o-mini で意味理解(概念抽出トリプル)
↓
markDown化
↓
Neo4j でグラフDataBase化
という感じにやっています。
基本のコードはできたのですが、この分解方法でいいのか調べるのに、そこそこたくさんの論文がないと分からないので、バッチ処理できるようにしようとしているのですが、なかなか大変で・・。
この方法で本当にいいのか、疑問が湧いてきました。
最終的にObsidianと連携させて、研究パラダイスを作ろうと考えています。
今こういう感じです。
import os
import re
import logging
import concurrent.futures
import time
import json
from datetime import datetime
from pathlib import Path
from typing import Optional, List, Dict, Tuple
from contextlib import contextmanager
import requests
from pathlib import Path
from typing import List
from bs4 import BeautifulSoup
from llama_index.core import Document, KnowledgeGraphIndex, StorageContext
from llama_index.graph_stores.neo4j import Neo4jGraphStore
from llama_index.llms.openai import OpenAI
from llama_index.core.node_parser import SimpleNodeParser
from llama_index.embeddings.huggingface import HuggingFaceEmbedding
from llama_parse import LlamaParse