Spaces:

agentDebugger
/

AgentDebugger-training-v3

Running

shank commited on 12 days ago

Commit

18b4e8a

1 Parent(s): 024f3c7

Fix: Fixing

Files changed (1) hide show

training/train_grpo.py CHANGED Viewed

@@ -47,8 +47,8 @@ if not args.test_local:
         "wandb==0.18.7",
         "datasets==3.0.2",
         "transformers==4.44.2",
-        "accelerate==1.0.1",
-        "trl==0.12.2",
         "peft==0.13.2",
         "bitsandbytes==0.43.3",
     ]
@@ -466,6 +466,7 @@ config = GRPOConfig(
     warmup_steps=10 if args.test else 30,
     num_generations=_num_gen,
     max_completion_length=_max_comp,
     logging_steps=5,
     save_steps=50,
     report_to="wandb" if WANDB_API_KEY else "none",
@@ -476,7 +477,7 @@ trainer = GRPOTrainer(
     args=config,
     train_dataset=make_dataset(0),
     reward_funcs=reward_fn,
-    tokenizer=tokenizer,
 )
 # ── Curriculum callback ───────────────────────────────────────────────────────

         "wandb==0.18.7",
         "datasets==3.0.2",
         "transformers==4.44.2",
+        "accelerate==0.34.2",
+        "trl==0.15.2",
         "peft==0.13.2",
         "bitsandbytes==0.43.3",
     ]
     warmup_steps=10 if args.test else 30,
     num_generations=_num_gen,
     max_completion_length=_max_comp,
+    temperature=0.9,
     logging_steps=5,
     save_steps=50,
     report_to="wandb" if WANDB_API_KEY else "none",
     args=config,
     train_dataset=make_dataset(0),
     reward_funcs=reward_fn,
+    processing_class=tokenizer,
 )
 # ── Curriculum callback ───────────────────────────────────────────────────────