RakutenAI-3.0-AWQ (4bit)

Rakuten/RakutenAI-3.0 を AWQ 4bit へ量子化したモデルです。

量子化設定

  • Quant method: awq
  • Bits: 4
  • Group size: 128
  • Zero point: true
  • Format / checkpoint_format: gemm
  • Pack dtype: int32
  • Desc act: true
  • lm_head: false
  • Quantizer: gptqmodel 5.8.0

config.jsonquantization_config に同設定が保存されています。

vLLM 起動例 (Blackwell 4GPU)


export CUDA_DEVICE_ORDER=PCI_BUS_ID
export CUDA_VISIBLE_DEVICES=0,1,2,3
export VLLM_USE_TRITON_AWQ=1

vllm serve aixsatoshi/RakutenAI-3.0-AWQ \
  --served-model-name RakutenAI-3.0-AWQ \
  --tokenizer Rakuten/RakutenAI-3.0 \
  --tokenizer-mode auto \
  --tensor-parallel-size 4 \
  --quantization awq \
  --dtype float16 \
  --max-model-len 4096 \
  --max-num-seqs 8 \
  --gpu-memory-utilization 0.96 \
  --trust-remote-code \
  --host 0.0.0.0 \
  --port 8000

疎通確認

curl -s http://127.0.0.1:8000/v1/chat/completions \
  -H "Content-Type: application/json" \
  -d '{
    "model":"RakutenAI-3.0-AWQ",
    "messages":[{"role":"user","content":"日本語で1文だけ返答して"}],
    "max_tokens":64,
    "temperature":0
  }'

注意点

  • vLLM 0.18 系では、環境によって VLLM_USE_TRITON_AWQ=1 が必要です。
  • 長いコンテキストで VRAM 不足が出る場合は --max-model-len--max-num-seqs を下げてください。
Downloads last month
43
Safetensors
Model size
671B params
Tensor type
F32
·
I32
·
BF16
·
Inference Providers NEW
This model isn't deployed by any Inference Provider. 🙋 Ask for provider support

Model tree for aixsatoshi/RakutenAI-3.0-AWQ

Quantized
(4)
this model