# MTP Mini - Configuración Compatible Mejorada

model:
  vocab_size: 4000          # Mantener vocabulario actual
  d_model: 384              # Dimensión actual (aumentar a 768 cuando tengas más datos)
  n_layers: 6               # Capas actuales (aumentar a 12 cuando tengas más datos)
  n_heads: 6                # Cabezas actuales
  d_ff: 1536                # 4x d_model
  max_seq_len: 256          # Contexto actual (aumentar a 512 cuando tengas más datos)
  dropout: 0.1
  use_swiglu: false         # Cambiar a true cuando tengas 1000+ ejemplos

training:
  batch_size: 8             # Tamaño actual
  accumulation_steps: 1     # Sin accumulation por ahora (activar con más datos)
  epochs: 60               # Más épocas para corpus pequeño
  learning_rate: 0.0001     # LR actual
  min_lr: 0.00001           # LR mínimo
  weight_decay: 0.01        # Weight decay actual
  max_grad_norm: 0.5        
  num_threads: 4
  save_every: 10
  
  # Learning rate schedule
  warmup_steps: 60         # Warmup steps
  use_lr_scheduler: true    # Activar scheduler

data:
  corpus_path: corpus/mtp_mini_corpus.jsonl
  min_text_length: 20
  max_text_length: 1000
  validation_split: 0.1

# NOTA: Cuando tengas 1000+ ejemplos de calidad, actualizar a:
# - vocab_size: 8000
# - d_model: 768
# - n_layers: 12
# - n_heads: 12
# - max_seq_len: 512
# - use_swiglu: true
# - accumulation_steps: 4
# Esto te dará un modelo ~117M parámetros comparable a GPT-2