RakutenAI-3.0-AWQ (4bit)

Rakuten/RakutenAI-3.0 を AWQ 4bit へ量子化したモデルです。

量子化設定

Quant method: awq
Bits: 4
Group size: 128
Zero point: true
Format / checkpoint_format: gemm
Pack dtype: int32
Desc act: true
lm_head: false
Quantizer: gptqmodel 5.8.0

config.json の quantization_config に同設定が保存されています。

vLLM 起動例 (Blackwell 4GPU)


export CUDA_DEVICE_ORDER=PCI_BUS_ID
export CUDA_VISIBLE_DEVICES=0,1,2,3
export VLLM_USE_TRITON_AWQ=1

vllm serve aixsatoshi/RakutenAI-3.0-AWQ \
  --served-model-name RakutenAI-3.0-AWQ \
  --tokenizer Rakuten/RakutenAI-3.0 \
  --tokenizer-mode auto \
  --tensor-parallel-size 4 \
  --quantization awq \
  --dtype float16 \
  --max-model-len 4096 \
  --max-num-seqs 8 \
  --gpu-memory-utilization 0.96 \
  --trust-remote-code \
  --host 0.0.0.0 \
  --port 8000

疎通確認

curl -s http://127.0.0.1:8000/v1/chat/completions \
  -H "Content-Type: application/json" \
  -d '{
    "model":"RakutenAI-3.0-AWQ",
    "messages":[{"role":"user","content":"日本語で1文だけ返答して"}],
    "max_tokens":64,
    "temperature":0
  }'

注意点

vLLM 0.18 系では、環境によって VLLM_USE_TRITON_AWQ=1 が必要です。
長いコンテキストで VRAM 不足が出る場合は --max-model-len と --max-num-seqs を下げてください。

Downloads last month: 43

Safetensors

Model size

671B params

Tensor type

F32

I32

BF16

Model tree for aixsatoshi/RakutenAI-3.0-AWQ

Base model

Rakuten/RakutenAI-3.0

Quantized

(4)

this model