heyingyue
/

scholarmind-architecture

ml-intern

Model card Files Files and versions

xet

Community

heyingyue commited on 10 days ago

Commit

cee26b8

verified ·

1 Parent(s): ed3b436

Add 7-layer caching acceleration guide

Browse files

Files changed (1) hide show

docs/CACHING.md +780 -0

docs/CACHING.md ADDED Viewed

	@@ -0,0 +1,780 @@

+# ScholarMind 高级缓存加速方案
+> 本文档补充原有 4 级缓存体系，新增 **7 层缓存机制**，覆盖从应用层语义缓存到 GPU KV Cache 硬件层的全栈加速。
+---
+## 缓存全景图
+```
+┌──────────────────────────────────────────────────────────────────────────────────┐
+│                    ScholarMind 7层缓存加速栈                                      │
+├──────────────────────────────────────────────────────────────────────────────────┤
+│                                                                                  │
+│  Layer 1 ─── 语义缓存 (GPTCache)                                                 │
+│              "What is SnapKV?" ≈ "Explain SnapKV" → 同一缓存命中                  │
+│              延迟: ~5ms (缓存命中) vs ~1500ms (LLM调用)                            │
+│              节省: ~100× 延迟, ~100% API成本                                      │
+│                                                                                  │
+│  Layer 2 ─── 检索结果缓存 (语义级)                                                │
+│              相似query复用检索结果, 跳过向量搜索+图谱遍历+重排                      │
+│              延迟: ~2ms vs ~300ms                                                 │
+│              节省: 避免重复检索计算                                                │
+│                                                                                  │
+│  Layer 3 ─── API Provider 提示缓存                                                │
+│              OpenAI: 自动, ≥1024 tokens → 90%输入token折扣                        │
+│              Anthropic: cache_control 标记 → 90%折扣                              │
+│              DeepSeek: 自动磁盘KV → 90%折扣                                       │
+│              节省: 50-90% API成本, 最高80%延迟降低                                 │
+│                                                                                  │
+│  Layer 4 ─── vLLM 前缀缓存 (APC)                                                 │
+│              共享 system prompt + 文档chunk 的 KV Cache                           │
+│              节省: 2-8× TTFT (首Token延迟) 降低                                   │
+│                                                                                  │
+│  Layer 5 ─── RAG KV Cache 复用 (LMCache/CacheBlend)                              │
+│              预计算每个文档chunk的KV状态, 组合时选择性重算5-15%                      │
+│              节省: 2.2-3.3× TTFT, 2.8-5× 吞吐提升                                │
+│                                                                                  │
+│  Layer 6 ─── KV Cache 压缩 (SnapKV/Quest)                                        │
+│              长文档场景: 只保留注意力关键的20% KV位置                               │
+│              节省: 3.6× 解码加速, 8.2× 显存效率                                   │
+│                                                                                  │
+│  Layer 7 ─── 多轮对话状态缓存                                                     │
+│              缓存Agent中间状态 + 检索上下文 + 部分答案                              │
+│              追问时跳过路由+检索+图谱查询                                          │
+│              节省: 追问响应 ~60% 延迟降低                                          │
+│                                                                                  │
+└──────────────────────────────────────────────────────────────────────────────────┘
+请求完整路径:
+User Query
+  → [L1 语义缓存] 命中? → 直接返回 (~5ms)
+  → [L2 检索缓存] 命中? → 跳过检索, 直接生成
+  → [L7 对话缓存] 追问? → 复用上下文
+  → Retriever (向量+图谱+RAPTOR)
+  → Prompt组装 (static prefix + retrieved chunks + query)
+  → [L3 Provider缓存] 系统提示+文档chunk已缓存 → 90%折扣
+  → [L4 vLLM APC] 共享前缀KV命中 → 跳过prefill
+  → [L5 CacheBlend] 非前缀chunk KV复用 → 部分重算
+  → [L6 SnapKV] 长上下文KV压缩 → 加速decode
+  → Response → 写入 L1 + L2
+```
+---
+## Layer 1: 语义缓存 (GPTCache)
+### 原理
+传统 Redis 缓存只能精确匹配 key。但学术问答中，同一个问题有多种表达方式：
+- "SnapKV 是什么?" ≈ "解释一下 SnapKV 的原理" ≈ "What does SnapKV do?"
+**语义缓存**将查询编码为向量，通过**相似度搜索**查找语义等价的历史查询，命中则直接返回缓存答案。
+```
+查询 → Embedding → 向量相似度搜索 → 相似度 > 阈值?
+                                       ├── 是: 返回缓存答案 (~5ms)
+                                       └── 否: 调用LLM → 存入缓存
+```
+### 实现
+```python
+# ===== 方案A: GPTCache (推荐, 7k⭐) =====
+# pip install gptcache
+from gptcache import cache
+from gptcache.adapter import openai
+from gptcache.embedding import Onnx
+from gptcache.manager import CacheBase, VectorBase, get_data_manager
+from gptcache.similarity_evaluation.distance import SearchDistanceEvaluation
+from gptcache.processor.pre import get_prompt
+# 初始化: FAISS向量索引 + SQLite存储 (开发)
+onnx = Onnx()
+data_manager = get_data_manager(
+    CacheBase("sqlite"),
+    VectorBase("faiss", dimension=onnx.dimension)
+)
+cache.init(
+    pre_embedding_func=get_prompt,             # 只用user query做缓存key (排除检索上下文)
+    embedding_func=onnx.to_embeddings,
+    data_manager=data_manager,
+    similarity_evaluation=SearchDistanceEvaluation(),
+)
+# 使用: 直接替换 openai 调用
+response = openai.ChatCompletion.create(
+    model="gpt-4o-mini",
+    messages=[
+        {"role": "system", "content": "You are ScholarMind..."},
+        {"role": "user", "content": "What is attention mechanism?"}
+    ]
+)
+# 第二次语义相似查询 → 缓存命中, ~5ms返回
+```
+```python
+# ===== 方案A (生产版): Milvus/Redis后端 =====
+from gptcache.embedding import OpenAI as OpenAIEmbedding
+from gptcache.manager import CacheBase, VectorBase, get_data_manager
+# 使用 Qdrant 作为向量后端 (复用已有基础设施)
+data_manager = get_data_manager(
+    CacheBase("postgresql", sql_url="postgresql://user:pass@localhost/gptcache"),
+    VectorBase("milvus", host="localhost", port=19530, dimension=1536)
+    # 也可用 VectorBase("qdrant", url="http://localhost:6333", collection_name="gptcache")
+)
+# 使用 OpenAI Embedding (与检索管道同模型, 一致性最高)
+openai_emb = OpenAIEmbedding()
+cache.init(
+    pre_embedding_func=get_prompt,
+    embedding_func=openai_emb.to_embeddings,
+    data_manager=data_manager,
+    similarity_evaluation=SearchDistanceEvaluation(),
+)
+```
+```python
+# ===== 方案B: LangChain SemanticCache (更简洁) =====
+from langchain_community.cache import RedisSemanticCache
+from langchain_openai import OpenAIEmbeddings
+import langchain
+langchain.llm_cache = RedisSemanticCache(
+    redis_url="redis://localhost:6379",
+    embedding=OpenAIEmbeddings(),
+    score_threshold=0.85,   # 学术领域建议较严格
+)
+# 所有 LangChain LLM 调用自动走语义缓存
+```
+### 关键参数调优
+| 参数 | 推荐值 | 说明 |
+|------|--------|------|
+| 相似度阈值 | **0.85** (学术) | 太低→错误答案; 太高→命中率低; 通用场景可用0.75 |
+| 嵌入模型 | text-embedding-3-small | 与检索管道一致, 避免语义偏差 |
+| TTL | **24h** | 学术知识相对稳定 |
+| 淘汰策略 | **LRU** | 最近最少使用 |
+| 缓存key | **仅user query** | 排除检索context, 否则同一问题不同检索结果无法命中 |
+### 效果预估
+| 场景 | 命中率 | 延迟节省 |
+|------|--------|---------|
+| 同一用户追问变体 | ~70% | ~300× (5ms vs 1.5s) |
+| 多用户热门问题 | ~30-40% | ~300× |
+| 全新问题 | 0% | 无节省 (还多~10ms嵌入开销) |
+| **加权平均** | **~35%** | **总QPS提升~50%** |
+---
+## Layer 2: 语义检索结果缓存
+### 原理
+混合检索 (向量+图谱+RAPTOR+重排) 耗时约 300ms。如果两个查询语义相似，它们的检索结果往往也相似。
+```python
+class SemanticRetrievalCache:
+    """语义级检索结果缓存 — 相似query复用检索结果"""
+    def __init__(self, qdrant_client, collection="retrieval_cache", threshold=0.90):
+        self.client = qdrant_client
+        self.collection = collection
+        self.threshold = threshold
+        self.embed_model = load_embedding_model()
+        # 创建缓存collection
+        self.client.create_collection(
+            collection_name=collection,
+            vectors_config=models.VectorParams(size=1536, distance=models.Distance.COSINE),
+        )
+    async def get_or_fetch(self, query: str, retriever) -> list:
+        """查缓存, 没有则检索并缓存"""
+        query_vec = self.embed_model.encode(query)
+        # 1. 在缓存中搜索语义相似的历史查询
+        hits = self.client.search(
+            collection_name=self.collection,
+            query_vector=query_vec,
+            limit=1,
+            score_threshold=self.threshold,
+        )
+        if hits and hits[0].score >= self.threshold:
+            # 缓存命中 — 直接返回历史检索结果
+            cached = hits[0].payload["results"]
+            return cached
+        # 2. 缓存未命中 — 执行完整检索
+        results = await retriever.retrieve(query, mode="hybrid")
+        # 3. 存入缓存
+        self.client.upsert(
+            collection_name=self.collection,
+            points=[models.PointStruct(
+                id=hash(query) % (2**63),
+                vector=query_vec,
+                payload={
+                    "query": query,
+                    "results": results,
+                    "timestamp": time.time(),
+                }
+            )]
+        )
+        return results
+```
+### 缓存失效
+```python
+async def invalidate_on_new_papers(self, paper_ids: list):
+    """新论文导入时, 清除可能受影响的缓存"""
+    # 策略1: 全量清除 (简单但激进)
+    self.client.delete_collection(self.collection)
+    # 策略2: 精准失效 (复杂但精确)
+    # 检索包含这些paper_id的缓存条目并删除
+    for paper_id in paper_ids:
+        self.client.delete(
+            collection_name=self.collection,
+            points_selector=models.FilterSelector(
+                filter=models.Filter(
+                    must=[models.FieldCondition(
+                        key="results[].metadata.paper_id",
+                        match=models.MatchValue(value=paper_id),
+                    )]
+                )
+            )
+        )
+```
+---
+## Layer 3: API Provider 提示缓存
+### 核心原理
+```
+Prompt 结构:
+┌─────────────────────────────────────────┐
+│ System Prompt (固定, ~500 tokens)        │  ← 这部分每次都一样
+│ "You are ScholarMind, a research..."    │     Provider 自动缓存
+├─────────────────────────────────────────┤
+│ 检索到的论文片段 (半固定, ~2000 tokens)   │  ← 热门论文反复被检索到
+│ Paper chunk A: "Attention is..."        │     高概率命中缓存
+│ Paper chunk B: "We propose BERT..."     │
+├─────────────────────────────────────────┤
+│ 用户问题 (动态, ~50 tokens)              │  ← 每次不同
+│ "Compare BERT and GPT-2 on GLUE"       │     不被缓存
+└─────────────────────────────────────────┘
+关键: 固定内容放前面, 动态内容放最后!
+```
+### OpenAI — 全自动 (零配置)
+```python
+from openai import OpenAI
+client = OpenAI()
+# 技巧: 构造≥1024 tokens的静态前缀, OpenAI自动缓存
+SYSTEM_PROMPT = """You are ScholarMind, an expert academic research assistant.
+You have access to a knowledge base of 1000+ academic papers spanning NLP,
+computer vision, and machine learning. When answering questions:
+1. Always cite specific papers with [Author, Year] format
+2. Include quantitative results where available
+3. Compare methods objectively
+4. Acknowledge limitations and open questions
+... (填充到≥1024 tokens)
+"""
+response = client.chat.completions.create(
+    model="gpt-4o-mini",
+    messages=[
+        {"role": "system", "content": SYSTEM_PROMPT},  # ~1200 tokens, 自动缓存
+        {"role": "user", "content": f"""
+Based on these papers:
+{retrieved_chunks}
+Question: {user_question}
+"""}
+    ]
+)
+# 检查缓存效果
+usage = response.usage
+cached = usage.prompt_tokens_details.cached_tokens
+total = usage.prompt_tokens
+print(f"Cache hit: {cached}/{total} tokens ({cached/total:.0%})")
+# 首次: 0%, 后续相同前缀: ~70-90%
+```
+**成本节省**:
+| 场景 | 正常价格 | 缓存命中价格 | 节省 |
+|------|---------|-------------|------|
+| GPT-4o input | $2.50/M | $1.25/M | 50% |
+| GPT-4o-mini input | $0.15/M | $0.075/M | 50% |
+| GPT-4o 长前缀 (>128K) | — | 高达 90% off | 90% |
+### Anthropic — 显式标记 (精细控制)
+```python
+import anthropic
+client = anthropic.Anthropic()
+response = client.messages.create(
+    model="claude-sonnet-4-20250514",
+    max_tokens=2048,
+    system=[
+        {
+            "type": "text",
+            "text": SYSTEM_PROMPT,              # 系统指令
+            "cache_control": {"type": "ephemeral"}  # ← 缓存断点1
+        }
+    ],
+    messages=[{
+        "role": "user",
+        "content": [
+            {
+                "type": "text",
+                "text": retrieved_chunks,        # 检索到的论文片段
+                "cache_control": {"type": "ephemeral"}  # ← 缓存断点2
+            },
+            {
+                "type": "text",
+                "text": user_question            # 动态部分, 不缓存
+            }
+        ]
+    }]
+)
+# 查看缓存统计
+print(f"Cache write: {response.usage.cache_creation_input_tokens} tokens")
+print(f"Cache read:  {response.usage.cache_read_input_tokens} tokens")
+# 首次: 全部write; 5分钟内再次调用相同前缀: 全部read → 90%折扣
+```
+**Anthropic 缓存定价**:
+| 类型 | Sonnet 4 | Haiku 3.5 |
+|------|----------|-----------|
+| 正常输入 | $3/M | $0.80/M |
+| 缓存写入 (首次) | $3.75/M (+25%) | $1.00/M (+25%) |
+| 缓存读取 (命中) | $0.30/M (**-90%**) | $0.08/M (**-90%**) |
+| TTL | 5分钟 (每次命中刷新) | 5分钟 |
+### DeepSeek — 自动磁盘缓存
+```python
+from openai import OpenAI
+client = OpenAI(api_key="sk-xxx", base_url="https://api.deepseek.com")
+response = client.chat.completions.create(
+    model="deepseek-chat",
+    messages=[
+        {"role": "system", "content": LONG_SYSTEM_PROMPT},
+        {"role": "user", "content": user_question}
+    ]
+)
+# DeepSeek 自动缓存到磁盘, 无需配置
+usage = response.usage
+print(f"Cache hit:  {usage.prompt_cache_hit_tokens} tokens @ 10% price")
+print(f"Cache miss: {usage.prompt_cache_miss_tokens} tokens @ 100% price")
+# 磁盘缓存持续时间 > Anthropic的5分钟, 更适合低流量场景
+```
+---
+## Layer 4: vLLM 前缀缓存 (APC)
+### 原理
+vLLM 的 Automatic Prefix Caching 将 KV Cache 按 block (16-32 tokens) 分割，每个 block 通过 hash(tokens + position) 索引。新请求到来时，从头匹配已缓存的 blocks，跳过已有 blocks 的 prefill 计算。
+```
+请求1: [System 500 tokens] + [Chunk A 200 tokens] + [Query 1]
+         ↓ 全部计算 KV, 缓存所有blocks
+请求2: [System 500 tokens] + [Chunk A 200 tokens] + [Query 2]
+         ↓ 前700 tokens 命中缓存! 只需计算 Query 2 的KV
+         → prefill 从 ~700 tokens 降到 ~50 tokens → 14× TTFT降低
+```
+### 配置
+```bash
+# vLLM serving — APC默认开启 (v1+)
+vllm serve meta-llama/Llama-3.1-8B-Instruct \
+    --enable-prefix-caching \
+    --gpu-memory-utilization 0.95 \
+    --max-model-len 32768
+# 查看缓存统计
+curl http://localhost:8000/metrics | grep prefix_cache
+# vllm_prefix_cache_hit_rate: 0.73
+# vllm_prefix_cache_queries_total: 10000
+```
+```python
+# Python API
+from vllm import LLM, SamplingParams
+llm = LLM(
+    model="meta-llama/Llama-3.1-8B-Instruct",
+    enable_prefix_caching=True,
+    gpu_memory_utilization=0.95,
+)
+# 关键: 所有请求共享相同的长前缀
+SHARED_PREFIX = f"""<|begin_of_text|><|start_header_id|>system<|end_header_id|>
+You are ScholarMind, an expert academic research assistant with access to
+1000+ research papers. Answer precisely with citations.
+<|eot_id|><|start_header_id|>user<|end_header_id|>
+Based on the following paper excerpts:
+{FREQUENTLY_RETRIEVED_CHUNKS}
+"""
+# 每次请求只改变 query 部分 — 前缀全部缓存命中
+responses = llm.generate([
+    SHARED_PREFIX + "What is the main contribution of BERT?<|eot_id|>",
+    SHARED_PREFIX + "Compare BERT and GPT-2 on GLUE<|eot_id|>",
+])
+```
+### ⚡ 优化技巧: 文档chunk排序一致化
+```python
+def order_chunks_for_cache(chunks: list, query: str) -> list:
+    """
+    将检索到的chunk按确定性顺序排列, 最大化前缀缓存命中率
+    策略: 按chunk_id排序 (而非按相关性排序)
+    → 不同查询检索到相同chunk集合时, 前缀完全一致 → 缓存命中
+    """
+    # 按paper_id + page_idx 确定性排序
+    return sorted(chunks, key=lambda c: (c["metadata"]["paper_id"], c["metadata"]["page"]))
+    # 注意: 这会牺牲一点"最相关chunk排前面"的优势
+    # 折中方案: 前N个按相关性, 后面按ID排序
+```
+---
+## Layer 5: RAG KV Cache 复用 (LMCache / CacheBlend)
+### 问题
+标准前缀缓存要求 chunks 以**完全相同的顺序**出现。但 RAG 检索结果的顺序经常变化：
+- Query 1 → [Chunk A, B, C]
+- Query 2 → [Chunk B, A, D]  ← Chunk A, B 都出现了, 但前缀不同
+CacheBlend 解决这个问题: **预计算每个chunk的独立KV状态**, 组合时只选择性重算 5-15% 的 tokens。
+### 实现
+```bash
+# 安装 LMCache (CacheBlend 的生产实现)
+pip install lmcache lmcache-vllm
+```
+```python
+# LMCache 集成 vLLM 的示例
+import lmcache_vllm
+from vllm import LLM, SamplingParams
+# LMCache 在 vLLM 之上透明地管理 KV 缓存
+# 支持 GPU VRAM → Host RAM → SSD 三级缓存层次
+llm = LLM(
+    model="meta-llama/Llama-3.1-8B-Instruct",
+    # LMCache 通过环境变量或配置文件集成
+)
+# 预热: 将所有高频文档chunk的KV预计算并缓存
+for chunk in top_1000_chunks:
+    llm.encode(chunk["text"])  # 预计算KV → 缓存到GPU+RAM
+# 推理: 组合时自动复用已缓存的chunk KV, 只重算5-15%
+response = llm.generate(
+    system_prompt + chunk_a + chunk_b + user_query
+)
+# chunk_a 和 chunk_b 的 KV 从缓存加载, 仅选择性重算跨chunk注意力
+```
+### 效果
+| 指标 | 无缓存 | vLLM APC | CacheBlend |
+|------|--------|----------|------------|
+| TTFT (首token) | 基准 | 2-8× 降低 (仅限相同前缀) | **2.2-3.3× 降低** (任意chunk组合) |
+| 吞吐 | 基准 | 1.5× 提升 | **2.8-5× 提升** |
+| 适用场景 | — | 固定前缀 | **任意RAG检索结果** |
+> **论文**: CacheBlend (arxiv:2405.16444), LMCache GitHub: `github.com/LMCache/LMCache`
+---
+## Layer 6: KV Cache 压缩 (长文档场景)
+### SnapKV — 关注度投票压缩
+当输入很长（多篇论文全文）时，保留完整 KV Cache 会耗尽显存。SnapKV 只保留每个注意力头**真正关注的 20% 位置**。
+```
+完整KV: [tok1, tok2, tok3, ..., tok10000]  → 160GB VRAM (70B模型)
+SnapKV: [tok3, tok45, tok202, ..., tok9998] → 32GB VRAM (仅保留20%)
+                                               ~5× 显存节省, ~3.6× 解码加速
+```
+```python
+# pip install snapkv
+# 核心参数
+config = {
+    "compression_ratio": 0.2,     # 保留20%的KV位置
+    "observation_window": 32,      # 用最后32个token投票决定保留哪些位置
+    "kernel_size": 5,             # 投票时的池化窗口
+}
+# SnapKV 集成方式: 修改 attention 层
+# 适用: 处理多篇完整论文时 (>16K tokens)
+# 结果: 单A100可处理380K token上下文 (原本~32K)
+```
+### Quest — 查询感知的稀疏注意力
+```
+每个KV页面维护元数据 (K向量的min/max值)
+  → 新query来了, 用Q和元数据估算每页的重要性
+  → 只加载Top-K重要的页面
+  → 7× self-attention加速
+```
+> **论文**: SnapKV (arxiv:2404.14469, GitHub: `fasterdecoding/snapkv`)
+> **论文**: Quest (arxiv:2406.10774, GitHub: `mit-han-lab/quest`)
+---
+## Layer 7: 多轮对话状态缓存
+### 原理
+学术问答常见多轮追问:
+1. "BERT在GLUE上表现如何?" → 检索+推理+生成
+2. "和GPT-2相比呢?" → **不需要重新检索BERT的信息!**
+```python
+from langgraph.checkpoint.memory import MemorySaver
+class ConversationCache:
+    """多轮对话缓存 — 避免追问时重复检索"""
+    def __init__(self):
+        self.checkpointer = MemorySaver()  # LangGraph 内置状态持久化
+        self.context_cache = {}  # session_id → {retrieved_docs, entities, graph_context}
+    async def handle_query(self, session_id: str, query: str):
+        # 检查是否是追问
+        if session_id in self.context_cache:
+            prev = self.context_cache[session_id]
+            # 追问检测: 如果query引用了上一轮的实体, 复用上下文
+            if self._is_followup(query, prev["entities"]):
+                # 直接复用之前的检索结果 + 图谱上下文
+                return await self._generate_with_cached_context(
+                    query=query,
+                    retrieved_docs=prev["retrieved_docs"],
+                    graph_context=prev["graph_context"],
+                    history=prev["history"],
+                )
+        # 非追问: 完整检索流程
+        result = await full_retrieval_and_generation(query)
+        # 缓存上下文供追问使用
+        self.context_cache[session_id] = {
+            "retrieved_docs": result["retrieved_docs"],
+            "graph_context": result["graph_context"],
+            "entities": result["entities"],
+            "history": result["messages"],
+            "timestamp": time.time(),
+        }
+        return result
+    def _is_followup(self, query: str, prev_entities: list) -> bool:
+        """检测是否是追问: 包含代词、比较词、或引用上一轮实体"""
+        followup_signals = ["compared to", "和...比", "那", "它", "this method", "上面提到的"]
+        has_pronoun = any(s in query.lower() for s in followup_signals)
+        references_entity = any(e["name"].lower() in query.lower() for e in prev_entities)
+        return has_pronoun or references_entity
+```
+### LangGraph 内置检查点
+```python
+from langgraph.graph import StateGraph
+from langgraph.checkpoint.postgres import PostgresSaver
+# 使用 PostgreSQL 持久化 Agent 状态
+checkpointer = PostgresSaver.from_conn_string("postgresql://...")
+# 编译时传入 checkpointer
+agent = build_agent_graph().compile(checkpointer=checkpointer)
+# 每次调用使用 thread_id 标识会话
+config = {"configurable": {"thread_id": session_id}}
+# 第一次: 完整执行
+result1 = await agent.ainvoke({"query": "BERT在GLUE上表现如何?"}, config)
+# 追问: LangGraph 自动恢复之前的状态
+result2 = await agent.ainvoke({"query": "和GPT-2相比呢?"}, config)
+# → Agent 已有上一轮的 retrieved_docs, 只需补充检索GPT-2信息
+```
+---
+## 集成架构: 完整缓存流水线
+```python
+class CachedQAEngine:
+    """集成7层缓存的问答引擎"""
+    def __init__(self):
+        # L1: 语义缓存
+        self.semantic_cache = GPTCacheWrapper(threshold=0.85, ttl_hours=24)
+        # L2: 检索结果缓存
+        self.retrieval_cache = SemanticRetrievalCache(qdrant, threshold=0.90)
+        # L7: 对话状态缓存
+        self.conversation_cache = ConversationCache()
+        # L3-L6: 由 LiteLLM / vLLM / Provider 自动处理
+    async def query(self, session_id: str, query: str) -> dict:
+        # === L1: 语义缓存检查 ===
+        cached_answer = await self.semantic_cache.get(query)
+        if cached_answer:
+            return {"answer": cached_answer, "cache": "L1_semantic", "latency_ms": 5}
+        # === L7: 追问检查 ===
+        if self.conversation_cache.is_followup(session_id, query):
+            result = await self.conversation_cache.handle_followup(session_id, query)
+            if result:
+                return {**result, "cache": "L7_followup"}
+        # === L2: 检索缓存检查 ===
+        retrieved = await self.retrieval_cache.get_or_fetch(query, self.retriever)
+        # === 组装 Prompt (L3/L4/L5友好的结构) ===
+        prompt = self._build_prompt(
+            system=STATIC_SYSTEM_PROMPT,                    # → L3 Provider缓存
+            chunks=order_chunks_for_cache(retrieved),       # → L4 vLLM APC缓存
+            query=query                                     # → 动态部分
+        )
+        # === LLM调用 (L3/L4/L5/L6 自动生效) ===
+        answer = await self.llm.complete(prompt, task="generation")
+        # === 写入缓存 ===
+        await self.semantic_cache.set(query, answer)
+        self.conversation_cache.update(session_id, query, retrieved, answer)
+        return {"answer": answer, "cache": "miss", "retrieved": retrieved}
+    def _build_prompt(self, system: str, chunks: list, query: str) -> list:
+        """
+        Prompt结构优化:
+        1. 固定系统提示放最前 (Provider缓存 + vLLM前缀缓存)
+        2. 检索chunks按确定性排序 (最大化vLLM前缀命中)
+        3. 用户query放最后 (动态部分)
+        """
+        return [
+            {"role": "system", "content": system},  # ≥1024 tokens → OpenAI自动缓存
+            {"role": "user", "content":
+                "Based on these paper excerpts:\n\n" +
+                "\n---\n".join([c["text"] for c in chunks]) +
+                f"\n\nQuestion: {query}"
+            }
+        ]
+```
+---
+## 性能收益汇总
+```
+┌───────────────────────────────────────────────────────────────────┐
+│              7层缓存预估收益 (1000篇论文, 日均500查询)               │
+├──────────┬──────────┬──────────────┬──────────────┬──────────────┤
+│ 缓存层   │ 命中率    │ 延迟节省      │ 成本节省      │ 实现复杂度   │
+├──────────┼──────────┼──────────────┼──────────────┼──────────────┤
+│ L1 语义  │ ~35%     │ 300×(5ms)    │ ~100%(命中时) │ ⭐⭐ 中      │
+│ L2 检索  │ ~25%     │ ~60×(5ms)    │ 检索计算      │ ⭐⭐ 中      │
+│ L3 API   │ ~70%     │ 最高80%      │ 50-90%       │ ⭐ 低        │
+│ L4 APC   │ ~60%     │ 2-8× TTFT   │ GPU算力      │ ⭐ 低        │
+│ L5 Cache │ ~40%     │ 2-3× TTFT   │ GPU算力      │ ⭐⭐⭐ 高    │
+│  Blend   │          │              │              │              │
+│ L6 SnapKV│ N/A      │ 3.6×解码     │ 5×显存       │ ⭐⭐ 中      │
+│ L7 对话  │ ~20%     │ ~60%(追问)   │ 检索+推理    │ ⭐⭐ 中      │
+├──────────┼──────────┼──────────────┼──────────────┼──────────────┤
+│ 综合     │ —        │ P50: 1.5s    │ API成本      │              │
+│ 效果     │          │  → ~400ms    │  降低60%+     │              │
+│          │          │ P99: 4s      │              │              │
+│          │          │  → ~1.5s     │              │              │
+└──────────┴──────────┴──────────────┴──────────────┴──────────────┘
+```
+---
+## 实施优先级
+| 优先级 | 缓存层 | 理由 | 工作量 |
+|--------|--------|------|--------|
+| **P0 (立即)** | L3 Provider缓存 | 零代码改动, 只需调整prompt结构 | 2小时 |
+| **P0 (立即)** | L4 vLLM APC | 默认已开启, 确认配置即可 | 1小时 |
+| **P1 (本周)** | L1 语义缓存 | GPTCache几十行代码, 收益最高 | 1天 |
+| **P1 (本周)** | L7 对话缓存 | LangGraph checkpointer, 追问体验质变 | 1天 |
+| **P2 (下周)** | L2 检索缓存 | 复用Qdrant基���设施 | 2天 |
+| **P3 (后续)** | L6 SnapKV | 仅长文档场景需要 | 3天 |
+| **P3 (后续)** | L5 CacheBlend | 需要LMCache集成, 侵入性较大 | 1周 |
+---
+## 相关论文
+| 论文 | ArXiv ID | 核心贡献 |
+|------|---------|---------|
+| GPTCache | ACL 2023 NLPOSS | 语义缓存框架 |
+| GPT Semantic Cache | 2411.05276 | 语义缓存基准评测 |
+| PagedAttention (vLLM) | 2309.06180 | 分页KV Cache管理 |
+| RAGCache | 2404.12457 | RAG专用多级KV缓存 |
+| CacheBlend | 2405.16444 | 非前缀KV复用 |
+| SnapKV | 2404.14469 | 注意力投票KV压缩 |
+| Quest | 2406.10774 | 查询感知稀疏注意力 |
+| StreamingLLM | 2309.17453 | 注意力sink+滚动窗口 |
+| Prompt Cache | 2311.04934 | 模块化KV状态复用 |
+| KV Cache Survey | 2412.19442 | KV Cache管理全面综述 |
+---
+## 开源项目
+| 项目 | GitHub | Stars | 用途 |
+|------|--------|-------|------|
+| GPTCache | zilliztech/GPTCache | 7k+ | 语义缓存 |
+| LMCache | LMCache/LMCache | — | CacheBlend生产实现 |
+| SnapKV | fasterdecoding/snapkv | 311 | KV压缩 |
+| Quest | mit-han-lab/quest | 382 | 稀疏注意力 |
+| vLLM | vllm-project/vllm | 45k+ | APC前缀缓存 |
+| KV Cache Survey | TreeAI-Lab/Awesome-KV-Cache-Management | 314 | 综述索引 |