ScholarMind 关键论文索引
本文档索引了系统设计所依据的所有关键论文,按模块分类,附带论文核心贡献和在本系统中的应用。
1. PDF 文档解析
| # | 论文 | ArXiv | 年份 | 核心贡献 | 系统应用 |
|---|---|---|---|---|---|
| 1 | MinerU: An Open-Source Solution for Precise Document Content Extraction | 2409.18839 | 2024 | 模块化PDF解析流水线(布局检测+OCR+公式+表格) | PDF解析Pipeline模式 |
| 2 | MinerU2.5: A Unified Understanding Model for Structured Document Conversion | 2509.22186 | 2025 | 统一VLM架构, NaViT+Qwen2, 2.12pg/s | PDF解析VLM模式(主引擎) |
| 3 | OmniDocBench: Benchmarking Diverse PDF Document Parsing with Comprehensive Annotations | 2412.07626 | 2024 | 全面PDF解析基准(CVPR 2025) | 技术选型依据 |
| 4 | MinerU-Diffusion: Accelerating Document Conversion with Block-wise Diffusion Decoder | 2603.22458 | 2026 | 扩散解码加速3.2× | 未来升级路径 |
2. 知识抽取 (NER + RE)
| # | 论文 | ArXiv | 年份 | 核心贡献 | 系统应用 |
|---|---|---|---|---|---|
| 5 | GLiNER: Generalist Model for Named Entity Recognition using Bidirectional Transformer | 2311.08526 | 2023 | 零样本NER, DeBERTa-v3, F1=47.8 | Stage 1 实体抽取 |
| 6 | GLiREL: Generalist and Lightweight model for Zero-Shot Relation Extraction | 2501.03172 | 2025 | 零样本关系抽取, 与GLiNER同架构 | Stage 2 备选RE |
| 7 | Graphusion: A RAG Framework for Knowledge Graph Construction with a Global Perspective | 2410.17600 | 2024 | KG融合+冲突消解, +9.2% QA准确率 | Stage 3 实体融合 |
| 8 | SciER: An Entity and Relation Extraction Dataset for Datasets, Methods, and Tasks in Scientific Documents | 2410.21155 | 2024 | 学术论文IE数据集(24K实体, 12K关系, 9种关系类型) | 关系Schema定义参考 |
| 9 | ReLiK: Retrieve and LinK, Fast and Accurate Entity Linking and Relation Extraction | 2408.00103 | 2024 | 检索+阅读架构, SOTA EL+RE | 备选抽取方案 |
| 10 | REBEL: Relation Extraction By End-to-end Language generation | EMNLP 2021 | 2021 | BART seq2seq三元组抽取 | 参考(需域适配) |
3. 检索增强生成 (RAG)
| # | 论文 | ArXiv | 年份 | 核心贡献 | 系统应用 |
|---|---|---|---|---|---|
| 11 | NodeRAG: Structuring Graph-based RAG with Heterogeneous Nodes | 2504.11544 | 2025 | 异构图RAG, 7种节点类型, MuSiQue 46.29% | GraphRAG架构参考 |
| 12 | LightRAG: Simple and Fast Retrieval-Augmented Generation | 2410.05779 | 2024 | 轻量图RAG, 增量更新, dual-level检索 | 图增强RAG实现 |
| 13 | From Local to Global: A Graph RAG Approach to Query-Focused Summarization | 2404.16130 | 2024 | GraphRAG社区摘要, Leiden聚类 | 全局检索参考 |
| 14 | RAPTOR: Recursive Abstractive Processing for Tree-Organized Retrieval | 2401.18059 | 2024 | 递归摘要树, GMM聚类, +20%准确率 | 层次索引构建 |
| 15 | Self-RAG: Learning to Retrieve, Generate, and Critique through Self-Reflection | 2310.11511 | 2023 | 自反思检索生成, 4种反思token | 答案验证模式 |
| 16 | HyDE: Precise Zero-Shot Dense Retrieval without Relevance Labels | 2212.10496 | 2022 | 假设文档嵌入, +10 NDCG | 查询增强 |
| 17 | RAG vs. GraphRAG: A Systematic Evaluation and Hybrid Approaches | 2502.11371 | 2025 | RAG+GraphRAG融合+6.4%, 256 token最佳分块 | 检索策略设计依据 |
4. 知识图谱
| # | 论文 | ArXiv | 年份 | 核心贡献 | 系统应用 |
|---|---|---|---|---|---|
| 18 | LLM-empowered Knowledge Graph Construction: A Survey | 2510.20345 | 2025 | LLM KGC全面综述 | 技术选型参考 |
5. 推荐阅读顺序
快速上手 (核心5篇):
- MinerU 2.5 (2509.22186) — 理解PDF解析
- GLiNER (2311.08526) — 理解NER
- LightRAG (2410.05779) — 理解GraphRAG
- RAPTOR (2401.18059) — 理解层次索引
- RAG vs GraphRAG (2502.11371) — 理解检索融合
深入优化 (进阶5篇): 6. Graphusion (2410.17600) — KG质量提升 7. NodeRAG (2504.11544) — 更好的GraphRAG 8. SciER (2410.21155) — 学术IE细节 9. Self-RAG (2310.11511) — 答案质量保证 10. HyDE (2212.10496) — 检索增强技巧
6. 开源项目速查
| 项目 | GitHub | Stars | 类别 | 本系统用途 |
|---|---|---|---|---|
| MinerU | opendatalab/MinerU | 61k+ | PDF解析 | 核心PDF引擎 |
| LightRAG | hkuds/lightrag | 34k+ | GraphRAG | 图增强检索参考 |
| RAGFlow | infiniflow/ragflow | 36k+ | 全栈RAG | 架构参考 |
| Dify | langgenius/dify | 70k+ | AI平台 | Agent工作流参考 |
| LiteLLM | BerriAI/litellm | 20k+ | LLM代理 | 核心LLM接入层 |
| Kotaemon | Cinnamon/kotaemon | 18k+ | 文档QA | GraphRAG集成参考 |
| Neo4j LLM Graph Builder | neo4j-labs/llm-graph-builder | 3k+ | KG构建 | PDF→KG参考实现 |
| LangGraph | langchain-ai/langgraph | 10k+ | Agent编排 | 核心Agent框架 |
| GLiNER | urchade/GLiNER | 2k+ | NER | 核心NER引擎 |
| Graphusion | irenezihuili/graphusion | 27 | KG融合 | 实体融合策略 |
| RAPTOR | parthsarthi03/raptor | 1.6k+ | 层次索引 | 核心索引策略 |
| NodeRAG | Terry-Xu-666/NodeRAG | 412 | GraphRAG | 进阶GraphRAG |
| Qdrant | qdrant/qdrant | 22k+ | 向量库 | 核心向量存储 |
| vLLM | vllm-project/vllm | 45k+ | LLM推理 | 本地LLM服务 |
| Ollama | ollama/ollama | 130k+ | LLM推理 | 本地LLM快速部署 |