Spaces:

K446
/

Opengrid

Running

K446 commited on 17 days ago

Commit

e1ab78c

1 Parent(s): 7be88b4

Fix GRPO training: reward variance, batch/gen alignment, generation config

Files changed (2) hide show

run_training.py CHANGED Viewed

@@ -235,7 +235,7 @@ def run_grpo_training():
     grpo_config = GRPOConfig(
         output_dir="training/outputs/grpo_checkpoints",
         num_train_epochs=3,
-        per_device_train_batch_size=2,
         gradient_accumulation_steps=2,
         learning_rate=1e-5,
         logging_steps=1,

     grpo_config = GRPOConfig(
         output_dir="training/outputs/grpo_checkpoints",
         num_train_epochs=3,
+        per_device_train_batch_size=4,   # must be divisible by num_generations (4)
         gradient_accumulation_steps=2,
         learning_rate=1e-5,
         logging_steps=1,

training/train_grpo.py CHANGED Viewed

@@ -557,8 +557,8 @@ def train_grpo(args):
     grpo_config = GRPOConfig(
         output_dir=str(Path(args.output_dir) / "grpo_checkpoints"),
         num_train_epochs=args.epochs,
-        per_device_train_batch_size=args.batch_size,
-        gradient_accumulation_steps=max(1, 8 // args.batch_size),
         learning_rate=1e-5,
         logging_steps=1,
         save_steps=50,

     grpo_config = GRPOConfig(
         output_dir=str(Path(args.output_dir) / "grpo_checkpoints"),
         num_train_epochs=args.epochs,
+        per_device_train_batch_size=max(args.batch_size, 4),  # must be >= num_generations
+        gradient_accumulation_steps=max(1, 8 // max(args.batch_size, 4)),
         learning_rate=1e-5,
         logging_steps=1,
         save_steps=50,