Assistente de Suporte (Qwen3.5 Fine-tuned)

Modelo fine-tuned a partir de Qwen/Qwen3.5-0.8B via QLoRA para atuar como assistente de suporte especializado, com conhecimento restrito à base de artigos do help center.

O modelo responde perguntas usando exclusivamente o conteúdo dos artigos extraídos durante o treinamento. Perguntas fora do escopo são recusadas de forma educada.

Uso

LM Studio

Baixe o arquivo merged-q4km.gguf diretamente pela interface do LM Studio pesquisando por brocchirodrigo/anotaai-ajuda-qwen3_5_Q4.

llama-cli (llama.cpp)

llama-cli \
  --model merged-q4km.gguf \
  --conversation \
  -c 4096 \
  --temp 0.6 \
  --top-p 0.95 \
  --top-k 20 \
  --min-p 0.05 \
  --repeat-penalty 1.0 \
  -sys "Você é um assistente de suporte da Anota AI. Responda apenas perguntas cobertas pelo conteúdo da sua base de conhecimento. Para perguntas fora do escopo, recuse educadamente sem inventar informações."

Transformers (Python)

from transformers import AutoModelForCausalLM, AutoTokenizer
import torch

model = AutoModelForCausalLM.from_pretrained(
    "brocchirodrigo/anotaai-ajuda-qwen3_5_Q4",
    torch_dtype=torch.bfloat16,
    device_map="auto",
)
tokenizer = AutoTokenizer.from_pretrained("brocchirodrigo/anotaai-ajuda-qwen3_5_Q4")

messages = [
    {"role": "system", "content": "Você é um assistente de suporte da Anota AI..."},
    {"role": "user", "content": "Como faço para configurar X?"},
]
# temperature=0.6, top_p=0.95, top_k=20, repetition_penalty=1.0 vêm do generation_config.json.
text = tokenizer.apply_chat_template(messages, tokenize=False, add_generation_prompt=True)
inputs = tokenizer(text, return_tensors="pt").to(model.device)
outputs = model.generate(**inputs, max_new_tokens=2048)
print(tokenizer.decode(outputs[0][inputs["input_ids"].shape[-1]:], skip_special_tokens=True))

Arquivos disponíveis

Arquivo	Formato	Uso
`model.safetensors`	safetensors (bfloat16)	Fine-tuning adicional via Python
`merged-q4km.gguf`	GGUF Q4_K_M	LM Studio · llama-cli · inferência local

Detalhes do treinamento

Parâmetro	Valor
Modelo base	`Qwen/Qwen3.5-0.8B`
Método	QLoRA 4-bit (bitsandbytes)
LoRA rank	64
LoRA alpha	128
LoRA dropout	0.05
Módulos treinados	`q_proj`, `k_proj`, `v_proj`, `o_proj`, `gate_proj`, `up_proj`, `down_proj`
Learning rate	5e-5
Weight decay	0.01
Comprimento máximo	1280 tokens
Épocas	Configurável via `TRAIN_EPOCHS` (steps calculados pelo tamanho do dataset)
Scheduler	Cosine (warmup 10%)

Limitações

O modelo responde apenas perguntas cobertas pelo conteúdo dos artigos de treinamento.
Não deve ser usado para tarefas gerais (escrita criativa, código, matemática, saúde, etc.).
As respostas são limitadas ao idioma e escopo do conteúdo original.

Pipeline

Gerado com lora-smith-qwen — pipeline de fine-tuning LoRA para help centers WordPress.

Downloads last month: 3,857

Safetensors

Model size

0.8B params

Tensor type

BF16

Model tree for brocchirodrigo/anotaai-ajuda-qwen3_5_Q4

Base model

Qwen/Qwen3.5-0.8B-Base

Finetuned

Qwen/Qwen3.5-0.8B

Quantized

(96)

this model