/** 语义匹配度阈值:低于此值视为不匹配,用于 fill_blank 跳过、chunk 显示、匹配度颜色等 */ // 0.6b下count模式0.9以上才实际匹配;更大模型一般是0或1的匹配度 export const SEMANTIC_MATCH_THRESHOLD = 0.1; // 每个token占用的字节数(qwen bpe分词平均值)为 4-5 export const BYTE_PER_TOKEN = 4; // 每个chunk最大token数 export const SEMANTIC_CHUNK_TOKEN = 200; /** 语义搜索分块模式:每块 UTF-8 字节数上限(仅为估算值) */ export const SEMANTIC_CHUNK_BYTES = SEMANTIC_CHUNK_TOKEN * BYTE_PER_TOKEN;