Spaces:

agentDebugger
/

AgentDebugger-training-v3

Running

shank commited on 13 days ago

Commit

8b16369

1 Parent(s): a5c67b3

Fix GRPOConfig: rename max_new_tokens to max_completion_length for trl==0.14.0

Files changed (1) hide show

training/train_grpo.py CHANGED Viewed

@@ -413,7 +413,7 @@ config = GRPOConfig(
     lr_scheduler_type="cosine",
     warmup_steps=20 if args.test else 40,
     num_generations=8,                   # GRPO key: more rollouts = stronger learning signal (was 4)
-    max_new_tokens=512,                  # longer responses = more complete fixes (was 400)
     temperature=0.9,                     # slightly higher temp = more diverse rollouts for GRPO
     logging_steps=5 if args.test else 5, # log every 5 steps for dense W&B curve
     save_steps=50 if args.test else 100,

     lr_scheduler_type="cosine",
     warmup_steps=20 if args.test else 40,
     num_generations=8,                   # GRPO key: more rollouts = stronger learning signal (was 4)
+    max_completion_length=512,           # longer responses = more complete fixes (was 400)
     temperature=0.9,                     # slightly higher temp = more diverse rollouts for GRPO
     logging_steps=5 if args.test else 5, # log every 5 steps for dense W&B curve
     save_steps=50 if args.test else 100,