Qwen3-1.7B Coffee Order Assistant — INT4 量化版
此為 renhehuang/qwen3-1.7b-coffee-sft 的 INT4 量化版本,使用 optimum-quanto 量化。
| 原始模型 | 本量化模型 | |
|---|---|---|
| 精度 | FP32 | INT4 |
| 大小 | ~6.45 GB | ~1.45 GB |
| 壓縮比 | — | 4.5x |
適合部署至 Jetson Nano、Raspberry Pi 等低記憶體邊緣裝置。
使用方式
from optimum.quanto import QuantizedModelForCausalLM
from transformers import AutoTokenizer
import torch
model_name = "renhehuang/qwen3-1.7b-coffee-sft-quanto-int4"
tokenizer = AutoTokenizer.from_pretrained(model_name, trust_remote_code=True)
model = QuantizedModelForCausalLM.from_pretrained(model_name)
messages = [
{"role": "system", "content": "你是一位專業的咖啡點餐助理,負責協助使用者完成點餐。菜單包含:美式、拿鐵、燕麥奶拿鐵、鮮奶。"},
{"role": "user", "content": "我想要一杯冰拿鐵"}
]
input_text = tokenizer.apply_chat_template(messages, tokenize=False, add_generation_prompt=True)
inputs = tokenizer(input_text, return_tensors="pt").to(model.device)
with torch.no_grad():
outputs = model.generate(
**inputs,
max_new_tokens=128,
do_sample=True,
temperature=0.7,
top_p=0.9,
)
response = tokenizer.decode(outputs[0][inputs["input_ids"].shape[-1]:], skip_special_tokens=True)
print(response)
量化資訊
| 項目 | 值 |
|---|---|
| 量化工具 | optimum-quanto |
| 量化精度 | INT4 (qint4) |
| 量化範圍 | weights only |
| 原始模型 | renhehuang/qwen3-1.7b-coffee-sft |
| 基礎模型 | Qwen/Qwen3-1.7B |
支援的菜單
| 飲品 | 溫度選項 | 加購選項 |
|---|---|---|
| 美式 | 冰/熱 | 加一份濃縮 |
| 拿鐵 | 冰/熱 | 加一份濃縮 |
| 燕麥奶拿鐵 | 冰/熱 | 加一份濃縮 |
| 鮮奶 | 冰/熱 | 加一份濃縮 |
限制與注意事項
- 此模型僅針對咖啡點餐場景訓練,不適用於一般對話
- 菜單項目固定,無法處理菜單外的飲品
- INT4 量化可能造成些微品質下降,但在點餐場景中影響不大
授權
本模型基於 Apache 2.0 授權發布。
引用
@misc{qwen3-coffee-sft-quanto-int4,
author = {Ren-He Huang},
title = {Qwen3-1.7B Coffee Order Assistant (INT4 Quantized)},
year = {2025},
publisher = {HuggingFace},
url = {https://huggingface.co/renhehuang/qwen3-1.7b-coffee-sft-quanto-int4}
}
- Downloads last month
- 20
Model tree for renhehuang/qwen3-1.7b-coffee-sft-quanto-int4
Base model
Qwen/Qwen3-1.7B-Base Finetuned
Qwen/Qwen3-1.7B Finetuned
renhehuang/qwen3-1.7b-coffee-sft