# MTP Mini - Configuración Compatible Mejorada model: vocab_size: 4000 # Mantener vocabulario actual d_model: 384 # Dimensión actual (aumentar a 768 cuando tengas más datos) n_layers: 6 # Capas actuales (aumentar a 12 cuando tengas más datos) n_heads: 6 # Cabezas actuales d_ff: 1536 # 4x d_model max_seq_len: 256 # Contexto actual (aumentar a 512 cuando tengas más datos) dropout: 0.1 use_swiglu: false # Cambiar a true cuando tengas 1000+ ejemplos training: batch_size: 8 # Tamaño actual accumulation_steps: 1 # Sin accumulation por ahora (activar con más datos) epochs: 60 # Más épocas para corpus pequeño learning_rate: 0.0001 # LR actual min_lr: 0.00001 # LR mínimo weight_decay: 0.01 # Weight decay actual max_grad_norm: 0.5 num_threads: 4 save_every: 10 # Learning rate schedule warmup_steps: 60 # Warmup steps use_lr_scheduler: true # Activar scheduler data: corpus_path: corpus/mtp_mini_corpus.jsonl min_text_length: 20 max_text_length: 1000 validation_split: 0.1 # NOTA: Cuando tengas 1000+ ejemplos de calidad, actualizar a: # - vocab_size: 8000 # - d_model: 768 # - n_layers: 12 # - n_heads: 12 # - max_seq_len: 512 # - use_swiglu: true # - accumulation_steps: 4 # Esto te dará un modelo ~117M parámetros comparable a GPT-2