请教大佬们一个问题?

#1
by DoraemonTom - opened

可以请教一下吗? 这个模型名字上写的2bit,是将weight量化成uint2, 然后将weight当成索引查{-1.5, -0.5, 0.5, 1.5},但是我看权重数据类型的bfloat16。另外,和这个模型对应的gguf模型,它是使用的Q1_0, 明显是将weight量化成了1bit。不知道我理解的对不对?是不是没有提供量化后的模型?

AngelSlim org

这个是伪量化的模型权重, 所以是bf16。真实量化后的是gguf模型, 可以看模型size明显低了。 但是目前能部署的kernel还没开源(很快就会开), 所以目前只能用apk体验。

那意思就是说这个模型使用论文中的量化方式量化后的权重文件,还没有开源对吧

量化后的权重文件 (gguf)已经开源了: https://huggingface.co/AngelSlim/Hy-MT1.5-1.8B-2bit-GGUF , 但是推理代码以及压缩代码还没开源, 很快就能开出来了

Sign up or log in to comment