Spaces:

Ajsaxena
/

deceit1

Paused

Jayant-Kernel commited on 13 days ago

Commit

8e853cb

unverified ·

1 Parent(s): 76117fc

upgrade: Qwen 1.5B model, 150 L1 + 80 L2 steps

Files changed (1) hide show

train.py CHANGED Viewed

@@ -39,8 +39,8 @@ login(token=os.environ["HF_TOKEN"])
 wandb.login(key=os.environ["WANDB_API_KEY"])
 # Config
-MODEL_NAME = "unsloth/Qwen2.5-0.5B-Instruct"
-HF_REPO_ID = "Ajsaxena/deceit-qwen-0.5b-full"
 WANDB_PROJECT = "deceit-full"
 LORA_RANK = 16
@@ -168,7 +168,7 @@ train_dataset = Dataset.from_list([
 # Train — Level 1 (200 steps)
 print("Starting Level 1 training...")
 FastLanguageModel.for_training(model)
-wandb.init(project=WANDB_PROJECT, name="full-level1")
 trainer = GRPOTrainer(
     model=model,
@@ -176,7 +176,7 @@ trainer = GRPOTrainer(
     reward_funcs=[reward_fn],
     args=GRPOConfig(
         output_dir="./deceit-full",
-        max_steps=200,
         per_device_train_batch_size=2,
         num_generations=4,
         learning_rate=5e-6,
@@ -263,14 +263,14 @@ def reward_fn_l2(completions, prompts=None, **kwargs):
 # Train Level 2 (100 steps)
 print("Starting Level 2 training...")
-wandb.init(project=WANDB_PROJECT, name="full-level2")
 trainer_l2 = GRPOTrainer(
     model=model,
     processing_class=tokenizer,
     reward_funcs=[reward_fn_l2],
     args=GRPOConfig(
         output_dir="./deceit-full-l2",
-        max_steps=100,
         per_device_train_batch_size=2,
         num_generations=4,
         learning_rate=2e-6,

 wandb.login(key=os.environ["WANDB_API_KEY"])
 # Config
+MODEL_NAME = "unsloth/Qwen2.5-1.5B-Instruct"
+HF_REPO_ID = "Ajsaxena/deceit-qwen-1.5b-full"
 WANDB_PROJECT = "deceit-full"
 LORA_RANK = 16
 # Train — Level 1 (200 steps)
 print("Starting Level 1 training...")
 FastLanguageModel.for_training(model)
+wandb.init(project=WANDB_PROJECT, name="1.5b-level1")
 trainer = GRPOTrainer(
     model=model,
     reward_funcs=[reward_fn],
     args=GRPOConfig(
         output_dir="./deceit-full",
+        max_steps=150,
         per_device_train_batch_size=2,
         num_generations=4,
         learning_rate=5e-6,
 # Train Level 2 (100 steps)
 print("Starting Level 2 training...")
+wandb.init(project=WANDB_PROJECT, name="1.5b-level2")
 trainer_l2 = GRPOTrainer(
     model=model,
     processing_class=tokenizer,
     reward_funcs=[reward_fn_l2],
     args=GRPOConfig(
         output_dir="./deceit-full-l2",
+        max_steps=80,
         per_device_train_batch_size=2,
         num_generations=4,
         learning_rate=2e-6,