Assistente de Suporte (Qwen3.5 Fine-tuned)

Modelo fine-tuned a partir de Qwen/Qwen3.5-0.8B via QLoRA para atuar como assistente de suporte especializado, com conhecimento restrito à base de artigos do help center.

O modelo responde perguntas usando exclusivamente o conteúdo dos artigos extraídos durante o treinamento. Perguntas fora do escopo são recusadas de forma educada.

Uso

LM Studio

Baixe o arquivo merged-q4km.gguf diretamente pela interface do LM Studio pesquisando por brocchirodrigo/anotaai-ajuda-qwen3_5_Q4.

llama-cli (llama.cpp)

llama-cli \
  --model merged-q4km.gguf \
  --conversation \
  -c 4096 \
  --temp 0.6 \
  --top-p 0.95 \
  --top-k 20 \
  --min-p 0.05 \
  --repeat-penalty 1.0 \
  -sys "Você é um assistente de suporte da Anota AI. Responda apenas perguntas cobertas pelo conteúdo da sua base de conhecimento. Para perguntas fora do escopo, recuse educadamente sem inventar informações."

Transformers (Python)

from transformers import AutoModelForCausalLM, AutoTokenizer
import torch

model = AutoModelForCausalLM.from_pretrained(
    "brocchirodrigo/anotaai-ajuda-qwen3_5_Q4",
    torch_dtype=torch.bfloat16,
    device_map="auto",
)
tokenizer = AutoTokenizer.from_pretrained("brocchirodrigo/anotaai-ajuda-qwen3_5_Q4")

messages = [
    {"role": "system", "content": "Você é um assistente de suporte da Anota AI..."},
    {"role": "user", "content": "Como faço para configurar X?"},
]
# temperature=0.6, top_p=0.95, top_k=20, repetition_penalty=1.0 vêm do generation_config.json.
text = tokenizer.apply_chat_template(messages, tokenize=False, add_generation_prompt=True)
inputs = tokenizer(text, return_tensors="pt").to(model.device)
outputs = model.generate(**inputs, max_new_tokens=2048)
print(tokenizer.decode(outputs[0][inputs["input_ids"].shape[-1]:], skip_special_tokens=True))

Arquivos disponíveis

Arquivo Formato Uso
model.safetensors safetensors (bfloat16) Fine-tuning adicional via Python
merged-q4km.gguf GGUF Q4_K_M LM Studio · llama-cli · inferência local

Detalhes do treinamento

Parâmetro Valor
Modelo base Qwen/Qwen3.5-0.8B
Método QLoRA 4-bit (bitsandbytes)
LoRA rank 64
LoRA alpha 128
LoRA dropout 0.05
Módulos treinados q_proj, k_proj, v_proj, o_proj, gate_proj, up_proj, down_proj
Learning rate 5e-5
Weight decay 0.01
Comprimento máximo 1280 tokens
Épocas Configurável via TRAIN_EPOCHS (steps calculados pelo tamanho do dataset)
Scheduler Cosine (warmup 10%)

Limitações

  • O modelo responde apenas perguntas cobertas pelo conteúdo dos artigos de treinamento.
  • Não deve ser usado para tarefas gerais (escrita criativa, código, matemática, saúde, etc.).
  • As respostas são limitadas ao idioma e escopo do conteúdo original.

Pipeline

Gerado com lora-smith-qwen — pipeline de fine-tuning LoRA para help centers WordPress.

Downloads last month
3,857
Safetensors
Model size
0.8B params
Tensor type
BF16
·
Inference Providers NEW
This model isn't deployed by any Inference Provider. 🙋 Ask for provider support

Model tree for brocchirodrigo/anotaai-ajuda-qwen3_5_Q4

Quantized
(96)
this model