MinerU2.5: A Decoupled Vision-Language Model for Efficient High-Resolution Document Parsing
Paper • 2509.22186 • Published • 160
完整架构设计文档,请查看 docs/ARCHITECTURE.md
| 文档 | 说明 |
|---|---|
| docs/ARCHITECTURE.md | 核心架构设计 — 系统总览、各层详细设计、代码示例 |
| docs/DATAFLOW.md | 数据流设计 — 端到端流转、并发模型、缓存策略、监控 |
| docs/CACHING.md | 🆕 7层缓存加速方案 — 语义缓存、Provider缓存、vLLM APC、KV压缩等 |
| docs/ADR.md | 技术选型决策记录 — 每个技术选型的依据和论文来源 |
| docs/PAPERS.md | 论文索引 — 14篇核心论文 + 15个开源项目速查 |
| docs/requirements.txt | 核心依赖 — Python完整依赖列表 |
ScholarMind 是一个面向 1000+ 篇学术 PDF 论文 的生产级智能知识系统,集成:
┌────────────────────────────────────────────────────────┐
│ 用户层 (Web UI / API) │
├────────────────────────────────────────────────────────┤
│ Agent 编排层 (LangGraph) │
│ 路由Agent → 检索Agent → 推理Agent → 总结Agent │
├────────────────────────────────────────────────────────┤
│ LLM 统一接入层 (LiteLLM Proxy) │
│ vLLM | Ollama | OpenAI | Anthropic | DeepSeek │
├──────── 7层缓存加速栈 ────────────────────────────────┤
│ L1 语义缓存(GPTCache) → L2 检索缓存 → L3 Provider缓存 │
│ L4 vLLM APC → L5 CacheBlend → L6 SnapKV → L7 对话缓存│
├────────────────────────────────────────────────────────┤
│ 检索层 (Hybrid Retrieval) │
│ Dense Vector + Sparse BM25 + Graph Query │
│ → RRF融合 → bge-reranker-large重排 │
├────────────────────────────────────────────────────────┤
│ 索引层 (Multi-Index) │
│ Qdrant(向量) | Neo4j(图谱) | RAPTOR(层次摘要树) │
├────────────────────────────────────────────────────────┤
│ 知识抽取层 (Knowledge Extraction) │
│ GLiNER(NER) → LLMGraphTransformer(RE) → Graphusion │
├────────────────────────────────────────────────────────┤
│ PDF 解析层 (MinerU Pipeline) │
│ PDF路由 → MinerU 2.5 VLM / PyMuPDF → JSON+Markdown │
├────────────────────────────────────────────────────────┤
│ 存储层 (Storage) │
│ PostgreSQL | Qdrant | Neo4j | Redis | MinIO │
└────────────────────────────────────────────────────────┘
| 指标 | 无缓存 | 7层缓存后 |
|---|---|---|
| QA响应延迟 (P50) | ~1.5s | ~400ms |
| QA响应延迟 (P99) | ~4s | ~1.5s |
| 缓存命中时延迟 | — | ~5ms |
| API成本 | 基准 | 降低60%+ |
| PDF解析速度 (A100) | 2.12 页/秒 | — |
| 1000篇论文全量解析 | ~80 分钟 | — |
| 组件 | 选型 | 论文依据 |
|---|---|---|
| PDF解析 | MinerU 2.5 VLM | arxiv:2509.22186 (OmniDocBench SOTA) |
| NER | GLiNER (440M) | arxiv:2311.08526 (F1=47.8, 零样本) |
| KG融合 | Graphusion | arxiv:2410.17600 (+9.2% QA准确率) |
| GraphRAG | LightRAG | arxiv:2410.05779 (34k⭐, 增量更新) |
| 层次索引 | RAPTOR | arxiv:2401.18059 (+20%准确率) |
| 检索重排 | bge-reranker-large | arxiv:2502.11371 (共识最优) |
| 语义缓存 | GPTCache | 7k⭐, 语义相似度命中 |
| KV复用 | CacheBlend/LMCache | arxiv:2405.16444 (2.2-3.3× TTFT) |
| KV压缩 | SnapKV | arxiv:2404.14469 (3.6×解码加速) |
| Agent | LangGraph | 有状态图, 条件分支, 生产级 |
| LLM | LiteLLM | 统一本地/API接口 |
| 向量库 | Qdrant | Rust高性能, 原生Hybrid搜索 |
| 图数据库 | Neo4j 5.x | LangChain原生集成 |
MIT
This model repository was generated by ML Intern, an agent for machine learning research and development on the Hugging Face Hub.
from transformers import AutoModelForCausalLM, AutoTokenizer
model_id = 'heyingyue/scholarmind-architecture'
tokenizer = AutoTokenizer.from_pretrained(model_id)
model = AutoModelForCausalLM.from_pretrained(model_id)
For non-causal architectures, replace AutoModelForCausalLM with the appropriate AutoModel class.