Spaces:

K446
/

Opengrid

Running

K446 commited on 17 days ago

Commit

114859b

1 Parent(s): d50432b

Fix batch/num_generations: 4/4 on 1 GPU, grad_accum=4

Files changed (1) hide show

run_training.py CHANGED Viewed

@@ -235,14 +235,14 @@ def run_grpo_training():
     grpo_config = GRPOConfig(
         output_dir="training/outputs/grpo_checkpoints",
         num_train_epochs=3,
-        per_device_train_batch_size=4,   # must be divisible by num_generations (4)
-        gradient_accumulation_steps=2,
         learning_rate=1e-5,
         logging_steps=1,
         save_steps=50,
         max_prompt_length=1024,
         max_completion_length=96,
-        num_generations=4,             # min for meaningful GRPO variance; 2 gives reward_std=0
         report_to="none",
         remove_unused_columns=False,
         bf16=_bf16,

     grpo_config = GRPOConfig(
         output_dir="training/outputs/grpo_checkpoints",
         num_train_epochs=3,
+        per_device_train_batch_size=4,   # must equal num_generations on 1 GPU
+        gradient_accumulation_steps=4,
         learning_rate=1e-5,
         logging_steps=1,
         save_steps=50,
         max_prompt_length=1024,
         max_completion_length=96,
+        num_generations=4,
         report_to="none",
         remove_unused_columns=False,
         bf16=_bf16,