heyingyue's picture
Add docs/PAPERS.md
73f7f9c verified

ScholarMind 关键论文索引

本文档索引了系统设计所依据的所有关键论文,按模块分类,附带论文核心贡献和在本系统中的应用。


1. PDF 文档解析

# 论文 ArXiv 年份 核心贡献 系统应用
1 MinerU: An Open-Source Solution for Precise Document Content Extraction 2409.18839 2024 模块化PDF解析流水线(布局检测+OCR+公式+表格) PDF解析Pipeline模式
2 MinerU2.5: A Unified Understanding Model for Structured Document Conversion 2509.22186 2025 统一VLM架构, NaViT+Qwen2, 2.12pg/s PDF解析VLM模式(主引擎)
3 OmniDocBench: Benchmarking Diverse PDF Document Parsing with Comprehensive Annotations 2412.07626 2024 全面PDF解析基准(CVPR 2025) 技术选型依据
4 MinerU-Diffusion: Accelerating Document Conversion with Block-wise Diffusion Decoder 2603.22458 2026 扩散解码加速3.2× 未来升级路径

2. 知识抽取 (NER + RE)

# 论文 ArXiv 年份 核心贡献 系统应用
5 GLiNER: Generalist Model for Named Entity Recognition using Bidirectional Transformer 2311.08526 2023 零样本NER, DeBERTa-v3, F1=47.8 Stage 1 实体抽取
6 GLiREL: Generalist and Lightweight model for Zero-Shot Relation Extraction 2501.03172 2025 零样本关系抽取, 与GLiNER同架构 Stage 2 备选RE
7 Graphusion: A RAG Framework for Knowledge Graph Construction with a Global Perspective 2410.17600 2024 KG融合+冲突消解, +9.2% QA准确率 Stage 3 实体融合
8 SciER: An Entity and Relation Extraction Dataset for Datasets, Methods, and Tasks in Scientific Documents 2410.21155 2024 学术论文IE数据集(24K实体, 12K关系, 9种关系类型) 关系Schema定义参考
9 ReLiK: Retrieve and LinK, Fast and Accurate Entity Linking and Relation Extraction 2408.00103 2024 检索+阅读架构, SOTA EL+RE 备选抽取方案
10 REBEL: Relation Extraction By End-to-end Language generation EMNLP 2021 2021 BART seq2seq三元组抽取 参考(需域适配)

3. 检索增强生成 (RAG)

# 论文 ArXiv 年份 核心贡献 系统应用
11 NodeRAG: Structuring Graph-based RAG with Heterogeneous Nodes 2504.11544 2025 异构图RAG, 7种节点类型, MuSiQue 46.29% GraphRAG架构参考
12 LightRAG: Simple and Fast Retrieval-Augmented Generation 2410.05779 2024 轻量图RAG, 增量更新, dual-level检索 图增强RAG实现
13 From Local to Global: A Graph RAG Approach to Query-Focused Summarization 2404.16130 2024 GraphRAG社区摘要, Leiden聚类 全局检索参考
14 RAPTOR: Recursive Abstractive Processing for Tree-Organized Retrieval 2401.18059 2024 递归摘要树, GMM聚类, +20%准确率 层次索引构建
15 Self-RAG: Learning to Retrieve, Generate, and Critique through Self-Reflection 2310.11511 2023 自反思检索生成, 4种反思token 答案验证模式
16 HyDE: Precise Zero-Shot Dense Retrieval without Relevance Labels 2212.10496 2022 假设文档嵌入, +10 NDCG 查询增强
17 RAG vs. GraphRAG: A Systematic Evaluation and Hybrid Approaches 2502.11371 2025 RAG+GraphRAG融合+6.4%, 256 token最佳分块 检索策略设计依据

4. 知识图谱

# 论文 ArXiv 年份 核心贡献 系统应用
18 LLM-empowered Knowledge Graph Construction: A Survey 2510.20345 2025 LLM KGC全面综述 技术选型参考

5. 推荐阅读顺序

快速上手 (核心5篇):

  1. MinerU 2.5 (2509.22186) — 理解PDF解析
  2. GLiNER (2311.08526) — 理解NER
  3. LightRAG (2410.05779) — 理解GraphRAG
  4. RAPTOR (2401.18059) — 理解层次索引
  5. RAG vs GraphRAG (2502.11371) — 理解检索融合

深入优化 (进阶5篇): 6. Graphusion (2410.17600) — KG质量提升 7. NodeRAG (2504.11544) — 更好的GraphRAG 8. SciER (2410.21155) — 学术IE细节 9. Self-RAG (2310.11511) — 答案质量保证 10. HyDE (2212.10496) — 检索增强技巧


6. 开源项目速查

项目 GitHub Stars 类别 本系统用途
MinerU opendatalab/MinerU 61k+ PDF解析 核心PDF引擎
LightRAG hkuds/lightrag 34k+ GraphRAG 图增强检索参考
RAGFlow infiniflow/ragflow 36k+ 全栈RAG 架构参考
Dify langgenius/dify 70k+ AI平台 Agent工作流参考
LiteLLM BerriAI/litellm 20k+ LLM代理 核心LLM接入层
Kotaemon Cinnamon/kotaemon 18k+ 文档QA GraphRAG集成参考
Neo4j LLM Graph Builder neo4j-labs/llm-graph-builder 3k+ KG构建 PDF→KG参考实现
LangGraph langchain-ai/langgraph 10k+ Agent编排 核心Agent框架
GLiNER urchade/GLiNER 2k+ NER 核心NER引擎
Graphusion irenezihuili/graphusion 27 KG融合 实体融合策略
RAPTOR parthsarthi03/raptor 1.6k+ 层次索引 核心索引策略
NodeRAG Terry-Xu-666/NodeRAG 412 GraphRAG 进阶GraphRAG
Qdrant qdrant/qdrant 22k+ 向量库 核心向量存储
vLLM vllm-project/vllm 45k+ LLM推理 本地LLM服务
Ollama ollama/ollama 130k+ LLM推理 本地LLM快速部署