压缩是为了降低计算量并增强大模型的性能, 那为啥不使用北大提出的iFairy 2位复数量化方案?

#1
by everboat - opened

压缩是为了降低计算量并增强大模型的性能, 那为啥不使用北大提出的iFairy 2位复数量化方案?

2位计算不要16位浮点, 性能却可以达到相似.
同时不需要矩阵乘法, 大幅降低计算量与存储空间.

在编译器层面, 还可以进一步把加减法, 优化为位移操作.
同时,
使用虚机+协程, 抽象出虚核+高度并行, 可以大幅把硬件利用率提升上来,
在虚机里, 还可以设计几个执行iFairy 2位复数量化计算的专用宏指令, 这样一来可以轻易JIT到机器指令上.
并且把激活与KV缓存, 全都进行iFairy 2位复数量化, 进一步降低计算量与存储.

如此一来, 即使是纯CPU计算去跑大模型, 性能也不会差多少.
在4核8G 或 8核16G的大部分普通配置上, 本地部署7B以上的大模型跑10 token/s 应该是没问题了吧?
手机, 笔记本, 隐私计算,
这应该是当前消费市场的急需.

CHNtentes changed discussion status to closed

Sign up or log in to comment