🧉 Heller-GPT (Qwen 2.5 14B LoRA)
Fine-tuning de Qwen 2.5 14B Instruct para responder con un estilo argumentativo y técnico inspirado en Carlos Heller.
✅ Este repositorio contiene un adaptador LoRA (PEFT).
Para usarlo necesitás descargar el modelo base indicado arriba enbase_model.
📋 Descripción
Este es un adaptador LoRA (Low-Rank Adaptation) entrenado sobre:
- Base real:
unsloth/Qwen2.5-14B-Instruct-bnb-4bit - Chat template:
qwen-2.5 - Max sequence length: 4096
El objetivo es capturar un tono:
- técnico
- explicativo
- con foco en banca, regulación y economía social
📦 ¿Qué hay en este repo?
Vas a ver archivos típicos de LoRA:
adapter_model.safetensors: pesos del adaptador (LoRA)adapter_config.json: configuración del LoRA (rank, módulos target, base_model, etc.)- archivos del tokenizer (
tokenizer.json,vocab.json, etc.)
📌 Importante: no incluye los pesos completos del modelo 14B (eso está en el modelo base).
🔧 Parámetros del LoRA
Configuración del adaptador:
- PEFT: LoRA
- rank (r): 16
- alpha: 16
- dropout: 0
- target modules:
q_proj,k_proj,v_proj,o_proj,gate_proj,up_proj,down_proj - Parámetros entrenables: 68,812,800 (0.84%)
🧪 Dataset
- Dataset:
orlandoju/heller-gpt-dataset - Ejemplos: 131 conversaciones multi-turn
✅ Probar en Google Colab (1 clic)
Este repo contiene un adapter LoRA (PEFT). Para probarlo fácilmente sin instalar nada en tu PC, usá el notebook de Colab:
Pasos:
- Abrí el Colab con el botón.
Runtime → Change runtime type → GPURuntime → Run all- Probá tus preguntas en la última celda.
Nota: si Colab no te asigna GPU gratis, un modelo 14B en CPU puede ser muy lento o no entrar en memoria.
🚀 Uso
Opción A — Unsloth (recomendado)
Esta opción es la más consistente con cómo se entrenó el LoRA (Unsloth 4-bit + template
qwen-2.5).
from unsloth import FastLanguageModel
# Cargar el adapter (este repo). Unsloth resuelve el base según adapter_config.
model, tokenizer = FastLanguageModel.from_pretrained(
model_name="orlandoju/heller-gpt-qwen14b-lora",
max_seq_length=4096,
load_in_4bit=True,
)
FastLanguageModel.for_inference(model)
messages = [
{"role": "system", "content": "Sos Heller-GPT, un asistente que responde con estilo técnico sobre banca y economía."},
{"role": "user", "content": "¿Qué opinás sobre la banca cooperativa en Argentina?"},
]
inputs = tokenizer.apply_chat_template(
messages,
tokenize=True,
add_generation_prompt=True,
return_tensors="pt",
).to("cuda")
outputs = model.generate(
input_ids=inputs,
max_new_tokens=300,
temperature=0.7,
top_p=0.9,
top_k=30,
repetition_penalty=1.2,
use_cache=True,
)
print(tokenizer.decode(outputs[0], skip_special_tokens=True))
- Downloads last month
- 2
Model tree for orlandoju/heller-gpt-qwen14b-lora
Base model
Qwen/Qwen2.5-14B