GPTQ 양자화는 V100과 같은 compute capability 가 7.0 인 상황에서 vllm을 돌릴 수 있는 몇 안되는 양자화 방식입니다.

정확도가 AWQ나 NVFP4 GGUF 에 비해서는 떨어질 수 있겠지만 유용하게 사용하셨으면 합니다.

혹사나 양자화 했으면 모델이 있다면 https://github.com/LEE5J/llm-quant-lab issue 남겨주시면 확인후 양자화 하도록 하겠습니다.

Safetensors

Model size

34B params

Tensor type

I64

I32

BF16

Model tree for lee5j/EXAONE-4.5-33B_GPTQ8

Base model

Quantized

(5)

this model