heyingyue's picture
Add docs/PAPERS.md
73f7f9c verified
# ScholarMind 关键论文索引
本文档索引了系统设计所依据的所有关键论文,按模块分类,附带论文核心贡献和在本系统中的应用。
---
## 1. PDF 文档解析
| # | 论文 | ArXiv | 年份 | 核心贡献 | 系统应用 |
|---|------|-------|------|---------|---------|
| 1 | **MinerU: An Open-Source Solution for Precise Document Content Extraction** | 2409.18839 | 2024 | 模块化PDF解析流水线(布局检测+OCR+公式+表格) | PDF解析Pipeline模式 |
| 2 | **MinerU2.5: A Unified Understanding Model for Structured Document Conversion** | 2509.22186 | 2025 | 统一VLM架构, NaViT+Qwen2, 2.12pg/s | PDF解析VLM模式(主引擎) |
| 3 | **OmniDocBench: Benchmarking Diverse PDF Document Parsing with Comprehensive Annotations** | 2412.07626 | 2024 | 全面PDF解析基准(CVPR 2025) | 技术选型依据 |
| 4 | **MinerU-Diffusion: Accelerating Document Conversion with Block-wise Diffusion Decoder** | 2603.22458 | 2026 | 扩散解码加速3.2× | 未来升级路径 |
---
## 2. 知识抽取 (NER + RE)
| # | 论文 | ArXiv | 年份 | 核心贡献 | 系统应用 |
|---|------|-------|------|---------|---------|
| 5 | **GLiNER: Generalist Model for Named Entity Recognition using Bidirectional Transformer** | 2311.08526 | 2023 | 零样本NER, DeBERTa-v3, F1=47.8 | Stage 1 实体抽取 |
| 6 | **GLiREL: Generalist and Lightweight model for Zero-Shot Relation Extraction** | 2501.03172 | 2025 | 零样本关系抽取, 与GLiNER同架构 | Stage 2 备选RE |
| 7 | **Graphusion: A RAG Framework for Knowledge Graph Construction with a Global Perspective** | 2410.17600 | 2024 | KG融合+冲突消解, +9.2% QA准确率 | Stage 3 实体融合 |
| 8 | **SciER: An Entity and Relation Extraction Dataset for Datasets, Methods, and Tasks in Scientific Documents** | 2410.21155 | 2024 | 学术论文IE数据集(24K实体, 12K关系, 9种关系类型) | 关系Schema定义参考 |
| 9 | **ReLiK: Retrieve and LinK, Fast and Accurate Entity Linking and Relation Extraction** | 2408.00103 | 2024 | 检索+阅读架构, SOTA EL+RE | 备选抽取方案 |
| 10 | **REBEL: Relation Extraction By End-to-end Language generation** | EMNLP 2021 | 2021 | BART seq2seq三元组抽取 | 参考(需域适配) |
---
## 3. 检索增强生成 (RAG)
| # | 论文 | ArXiv | 年份 | 核心贡献 | 系统应用 |
|---|------|-------|------|---------|---------|
| 11 | **NodeRAG: Structuring Graph-based RAG with Heterogeneous Nodes** | 2504.11544 | 2025 | 异构图RAG, 7种节点类型, MuSiQue 46.29% | GraphRAG架构参考 |
| 12 | **LightRAG: Simple and Fast Retrieval-Augmented Generation** | 2410.05779 | 2024 | 轻量图RAG, 增量更新, dual-level检索 | 图增强RAG实现 |
| 13 | **From Local to Global: A Graph RAG Approach to Query-Focused Summarization** | 2404.16130 | 2024 | GraphRAG社区摘要, Leiden聚类 | 全局检索参考 |
| 14 | **RAPTOR: Recursive Abstractive Processing for Tree-Organized Retrieval** | 2401.18059 | 2024 | 递归摘要树, GMM聚类, +20%准确率 | 层次索引构建 |
| 15 | **Self-RAG: Learning to Retrieve, Generate, and Critique through Self-Reflection** | 2310.11511 | 2023 | 自反思检索生成, 4种反思token | 答案验证模式 |
| 16 | **HyDE: Precise Zero-Shot Dense Retrieval without Relevance Labels** | 2212.10496 | 2022 | 假设文档嵌入, +10 NDCG | 查询增强 |
| 17 | **RAG vs. GraphRAG: A Systematic Evaluation and Hybrid Approaches** | 2502.11371 | 2025 | RAG+GraphRAG融合+6.4%, 256 token最佳分块 | 检索策略设计依据 |
---
## 4. 知识图谱
| # | 论文 | ArXiv | 年份 | 核心贡献 | 系统应用 |
|---|------|-------|------|---------|---------|
| 18 | **LLM-empowered Knowledge Graph Construction: A Survey** | 2510.20345 | 2025 | LLM KGC全面综述 | 技术选型参考 |
---
## 5. 推荐阅读顺序
**快速上手** (核心5篇):
1. MinerU 2.5 (2509.22186) — 理解PDF解析
2. GLiNER (2311.08526) — 理解NER
3. LightRAG (2410.05779) — 理解GraphRAG
4. RAPTOR (2401.18059) — 理解层次索引
5. RAG vs GraphRAG (2502.11371) — 理解检索融合
**深入优化** (进阶5篇):
6. Graphusion (2410.17600) — KG质量提升
7. NodeRAG (2504.11544) — 更好的GraphRAG
8. SciER (2410.21155) — 学术IE细节
9. Self-RAG (2310.11511) — 答案质量保证
10. HyDE (2212.10496) — 检索增强技巧
---
## 6. 开源项目速查
| 项目 | GitHub | Stars | 类别 | 本系统用途 |
|------|--------|-------|------|-----------|
| MinerU | opendatalab/MinerU | 61k+ | PDF解析 | 核心PDF引擎 |
| LightRAG | hkuds/lightrag | 34k+ | GraphRAG | 图增强检索参考 |
| RAGFlow | infiniflow/ragflow | 36k+ | 全栈RAG | 架构参考 |
| Dify | langgenius/dify | 70k+ | AI平台 | Agent工作流参考 |
| LiteLLM | BerriAI/litellm | 20k+ | LLM代理 | 核心LLM接入层 |
| Kotaemon | Cinnamon/kotaemon | 18k+ | 文档QA | GraphRAG集成参考 |
| Neo4j LLM Graph Builder | neo4j-labs/llm-graph-builder | 3k+ | KG构建 | PDF→KG参考实现 |
| LangGraph | langchain-ai/langgraph | 10k+ | Agent编排 | 核心Agent框架 |
| GLiNER | urchade/GLiNER | 2k+ | NER | 核心NER引擎 |
| Graphusion | irenezihuili/graphusion | 27 | KG融合 | 实体融合策略 |
| RAPTOR | parthsarthi03/raptor | 1.6k+ | 层次索引 | 核心索引策略 |
| NodeRAG | Terry-Xu-666/NodeRAG | 412 | GraphRAG | 进阶GraphRAG |
| Qdrant | qdrant/qdrant | 22k+ | 向量库 | 核心向量存储 |
| vLLM | vllm-project/vllm | 45k+ | LLM推理 | 本地LLM服务 |
| Ollama | ollama/ollama | 130k+ | LLM推理 | 本地LLM快速部署 |