🧉 Heller-GPT (Qwen 2.5 14B LoRA)

Fine-tuning de Qwen 2.5 14B Instruct para responder con un estilo argumentativo y técnico inspirado en Carlos Heller.

✅ Este repositorio contiene un adaptador LoRA (PEFT).
Para usarlo necesitás descargar el modelo base indicado arriba en base_model.

📋 Descripción

Este es un adaptador LoRA (Low-Rank Adaptation) entrenado sobre:

Base real: unsloth/Qwen2.5-14B-Instruct-bnb-4bit
Chat template: qwen-2.5
Max sequence length: 4096

El objetivo es capturar un tono:

técnico
explicativo
con foco en banca, regulación y economía social

📦 ¿Qué hay en este repo?

Vas a ver archivos típicos de LoRA:

adapter_model.safetensors: pesos del adaptador (LoRA)
adapter_config.json: configuración del LoRA (rank, módulos target, base_model, etc.)
archivos del tokenizer (tokenizer.json, vocab.json, etc.)

📌 Importante: no incluye los pesos completos del modelo 14B (eso está en el modelo base).

🔧 Parámetros del LoRA

Configuración del adaptador:

PEFT: LoRA
rank (r): 16
alpha: 16
dropout: 0
target modules: q_proj, k_proj, v_proj, o_proj, gate_proj, up_proj, down_proj
Parámetros entrenables: 68,812,800 (0.84%)

🧪 Dataset

Dataset: orlandoju/heller-gpt-dataset
Ejemplos: 131 conversaciones multi-turn

✅ Probar en Google Colab (1 clic)

Este repo contiene un adapter LoRA (PEFT). Para probarlo fácilmente sin instalar nada en tu PC, usá el notebook de Colab:

Pasos:

Abrí el Colab con el botón.
Runtime → Change runtime type → GPU
Runtime → Run all
Probá tus preguntas en la última celda.

Nota: si Colab no te asigna GPU gratis, un modelo 14B en CPU puede ser muy lento o no entrar en memoria.

🚀 Uso

Opción A — Unsloth (recomendado)

Esta opción es la más consistente con cómo se entrenó el LoRA (Unsloth 4-bit + template qwen-2.5).

from unsloth import FastLanguageModel

# Cargar el adapter (este repo). Unsloth resuelve el base según adapter_config.
model, tokenizer = FastLanguageModel.from_pretrained(
    model_name="orlandoju/heller-gpt-qwen14b-lora",
    max_seq_length=4096,
    load_in_4bit=True,
)

FastLanguageModel.for_inference(model)

messages = [
    {"role": "system", "content": "Sos Heller-GPT, un asistente que responde con estilo técnico sobre banca y economía."},
    {"role": "user", "content": "¿Qué opinás sobre la banca cooperativa en Argentina?"},
]

inputs = tokenizer.apply_chat_template(
    messages,
    tokenize=True,
    add_generation_prompt=True,
    return_tensors="pt",
).to("cuda")

outputs = model.generate(
    input_ids=inputs,
    max_new_tokens=300,
    temperature=0.7,
    top_p=0.9,
    top_k=30,
    repetition_penalty=1.2,
    use_cache=True,
)

print(tokenizer.decode(outputs[0], skip_special_tokens=True))

Downloads last month: 2

Model tree for orlandoju/heller-gpt-qwen14b-lora

Base model

Qwen/Qwen2.5-14B

Finetuned

Qwen/Qwen2.5-14B-Instruct

Quantized

unsloth/Qwen2.5-14B-Instruct-bnb-4bit

Adapter

(5)

this model

orlandoju
/

heller-gpt-qwen14b-lora