RakutenAI-3.0-AWQ (4bit)
Rakuten/RakutenAI-3.0 を AWQ 4bit へ量子化したモデルです。
量子化設定
- Quant method:
awq - Bits:
4 - Group size:
128 - Zero point:
true - Format / checkpoint_format:
gemm - Pack dtype:
int32 - Desc act:
true - lm_head:
false - Quantizer:
gptqmodel 5.8.0
config.json の quantization_config に同設定が保存されています。
vLLM 起動例 (Blackwell 4GPU)
export CUDA_DEVICE_ORDER=PCI_BUS_ID
export CUDA_VISIBLE_DEVICES=0,1,2,3
export VLLM_USE_TRITON_AWQ=1
vllm serve aixsatoshi/RakutenAI-3.0-AWQ \
--served-model-name RakutenAI-3.0-AWQ \
--tokenizer Rakuten/RakutenAI-3.0 \
--tokenizer-mode auto \
--tensor-parallel-size 4 \
--quantization awq \
--dtype float16 \
--max-model-len 4096 \
--max-num-seqs 8 \
--gpu-memory-utilization 0.96 \
--trust-remote-code \
--host 0.0.0.0 \
--port 8000
疎通確認
curl -s http://127.0.0.1:8000/v1/chat/completions \
-H "Content-Type: application/json" \
-d '{
"model":"RakutenAI-3.0-AWQ",
"messages":[{"role":"user","content":"日本語で1文だけ返答して"}],
"max_tokens":64,
"temperature":0
}'
注意点
- vLLM 0.18 系では、環境によって
VLLM_USE_TRITON_AWQ=1が必要です。 - 長いコンテキストで VRAM 不足が出る場合は
--max-model-lenと--max-num-seqsを下げてください。
- Downloads last month
- 43
Model tree for aixsatoshi/RakutenAI-3.0-AWQ
Base model
Rakuten/RakutenAI-3.0