🧉 Heller-GPT (Qwen 2.5 14B LoRA)

Fine-tuning de Qwen 2.5 14B Instruct para responder con un estilo argumentativo y técnico inspirado en Carlos Heller.

✅ Este repositorio contiene un adaptador LoRA (PEFT).
Para usarlo necesitás descargar el modelo base indicado arriba en base_model.


📋 Descripción

Este es un adaptador LoRA (Low-Rank Adaptation) entrenado sobre:

  • Base real: unsloth/Qwen2.5-14B-Instruct-bnb-4bit
  • Chat template: qwen-2.5
  • Max sequence length: 4096

El objetivo es capturar un tono:

  • técnico
  • explicativo
  • con foco en banca, regulación y economía social

📦 ¿Qué hay en este repo?

Vas a ver archivos típicos de LoRA:

  • adapter_model.safetensors: pesos del adaptador (LoRA)
  • adapter_config.json: configuración del LoRA (rank, módulos target, base_model, etc.)
  • archivos del tokenizer (tokenizer.json, vocab.json, etc.)

📌 Importante: no incluye los pesos completos del modelo 14B (eso está en el modelo base).


🔧 Parámetros del LoRA

Configuración del adaptador:

  • PEFT: LoRA
  • rank (r): 16
  • alpha: 16
  • dropout: 0
  • target modules: q_proj, k_proj, v_proj, o_proj, gate_proj, up_proj, down_proj
  • Parámetros entrenables: 68,812,800 (0.84%)

🧪 Dataset

  • Dataset: orlandoju/heller-gpt-dataset
  • Ejemplos: 131 conversaciones multi-turn

✅ Probar en Google Colab (1 clic)

Este repo contiene un adapter LoRA (PEFT). Para probarlo fácilmente sin instalar nada en tu PC, usá el notebook de Colab:

Open in Colab

Pasos:

  1. Abrí el Colab con el botón.
  2. Runtime → Change runtime type → GPU
  3. Runtime → Run all
  4. Probá tus preguntas en la última celda.

Nota: si Colab no te asigna GPU gratis, un modelo 14B en CPU puede ser muy lento o no entrar en memoria.


🚀 Uso

Opción A — Unsloth (recomendado)

Esta opción es la más consistente con cómo se entrenó el LoRA (Unsloth 4-bit + template qwen-2.5).

from unsloth import FastLanguageModel

# Cargar el adapter (este repo). Unsloth resuelve el base según adapter_config.
model, tokenizer = FastLanguageModel.from_pretrained(
    model_name="orlandoju/heller-gpt-qwen14b-lora",
    max_seq_length=4096,
    load_in_4bit=True,
)

FastLanguageModel.for_inference(model)

messages = [
    {"role": "system", "content": "Sos Heller-GPT, un asistente que responde con estilo técnico sobre banca y economía."},
    {"role": "user", "content": "¿Qué opinás sobre la banca cooperativa en Argentina?"},
]

inputs = tokenizer.apply_chat_template(
    messages,
    tokenize=True,
    add_generation_prompt=True,
    return_tensors="pt",
).to("cuda")

outputs = model.generate(
    input_ids=inputs,
    max_new_tokens=300,
    temperature=0.7,
    top_p=0.9,
    top_k=30,
    repetition_penalty=1.2,
    use_cache=True,
)

print(tokenizer.decode(outputs[0], skip_special_tokens=True))
Downloads last month
2
Inference Providers NEW
This model isn't deployed by any Inference Provider. 🙋 Ask for provider support

Model tree for orlandoju/heller-gpt-qwen14b-lora

Base model

Qwen/Qwen2.5-14B
Adapter
(5)
this model

Dataset used to train orlandoju/heller-gpt-qwen14b-lora