Spaces:

Lomesh7777
/

openenv-multi-agent-RL

Sleeping

Lomesh2000 commited on 13 days ago

Commit

87db122

1 Parent(s): d1fd1c6

fix: prevent Unsloth from attaching adapters twice during GRPO

Files changed (1) hide show

training/train_grpo.py CHANGED Viewed

@@ -84,17 +84,25 @@ if USE_UNSLOTH:
         dtype=None,
         load_in_4bit=True,
     )
-    model = FastLanguageModel.get_peft_model(
-        model,
-        r=LORA_R,
-        lora_alpha=LORA_ALPHA,
-        target_modules=["q_proj", "k_proj", "v_proj", "o_proj",
-                        "gate_proj", "up_proj", "down_proj"],
-        lora_dropout=0.0,
-        bias="none",
-        use_gradient_checkpointing="unsloth",
-        random_state=42,
-    )
 else:
     from transformers import AutoModelForCausalLM, AutoTokenizer, BitsAndBytesConfig
     from peft import get_peft_model, LoraConfig, TaskType

         dtype=None,
         load_in_4bit=True,
     )
+    # If the model is already a PEFT model (e.g. loaded from SFT checkpoint),
+    # we don't need to add new LoRA adapters. Unsloth will throw an error if we try.
+    is_peft = hasattr(model, "peft_config") or "PeftModel" in str(type(model))
+    if not is_peft:
+        model = FastLanguageModel.get_peft_model(
+            model,
+            r=LORA_R,
+            lora_alpha=LORA_ALPHA,
+            target_modules=["q_proj", "k_proj", "v_proj", "o_proj",
+                            "gate_proj", "up_proj", "down_proj"],
+            lora_dropout=0.0,
+            bias="none",
+            use_gradient_checkpointing="unsloth",
+            random_state=42,
+        )
+    else:
+        print("✅ Loaded existing PEFT adapters from checkpoint.")
 else:
     from transformers import AutoModelForCausalLM, AutoTokenizer, BitsAndBytesConfig
     from peft import get_peft_model, LoraConfig, TaskType