压缩是为了降低计算量并增强大模型的性能, 那为啥不使用北大提出的iFairy 2位复数量化方案?

by everboat - opened Oct 27, 2025

Oct 27, 2025

压缩是为了降低计算量并增强大模型的性能, 那为啥不使用北大提出的iFairy 2位复数量化方案?

2位计算不要16位浮点, 性能却可以达到相似.
同时不需要矩阵乘法, 大幅降低计算量与存储空间.

在编译器层面, 还可以进一步把加减法, 优化为位移操作.
同时,
使用虚机+协程, 抽象出虚核+高度并行, 可以大幅把硬件利用率提升上来,
在虚机里, 还可以设计几个执行iFairy 2位复数量化计算的专用宏指令, 这样一来可以轻易JIT到机器指令上.
并且把激活与KV缓存, 全都进行iFairy 2位复数量化, 进一步降低计算量与存储.

如此一来, 即使是纯CPU计算去跑大模型, 性能也不会差多少.
在4核8G 或 8核16G的大部分普通配置上, 本地部署7B以上的大模型跑10 token/s 应该是没问题了吧?
手机, 笔记本, 隐私计算,
这应该是当前消费市场的急需.

CHNtentes changed discussion status to closed Dec 15, 2025

Upload images, audio, and videos by dragging in the text input, pasting, or clicking here.

Tap or paste here to upload images

· Sign up or log in to comment