Spaces:

YashashMathur
/

aegis_training

Runtime error

YashashMathur commited on 13 days ago

Commit

7a19964

verified ·

1 Parent(s): 9a90a52

Fix: Use Level 1 scenarios only for training

Files changed (1) hide show

train.py CHANGED Viewed

@@ -48,7 +48,7 @@ SFT_STEPS = 40  # More warmup for JSON format
 GRPO_STEPS = 250
 GRPO_K = 2
 GRPO_LR = 1e-5
-CURRICULUM_SWITCH = 150
 GRAD_CLIP = 1.0
 SAVE_EVERY = 50
@@ -100,9 +100,14 @@ def sig(s):
 dataset = list({sig(s): s for s in raw}.values())
 rng = random.Random(42)
 families = defaultdict(list)
-for s in dataset:
     families[(s.get("decision"), s.get("violation_type"))].append(s)
 train_set, eval_set = [], []
@@ -111,7 +116,7 @@ for items in families.values():
     k = int(len(items) * 0.8)
     train_set.extend(items[:k])
     eval_set.extend(items[k:])
-print(f"Dataset: {len(train_set)} train / {len(eval_set)} eval")
 # ─── Policy Rules + Reward ────────────────────────────────────────────────────
 POLICY_RULES = {

 GRPO_STEPS = 250
 GRPO_K = 2
 GRPO_LR = 1e-5
+CURRICULUM_SWITCH = 0  # Start with Level 1, advance early
 GRAD_CLIP = 1.0
 SAVE_EVERY = 50
 dataset = list({sig(s): s for s in raw}.values())
+# Filter for Level 1 scenarios only (for early training)
+level1_data = [s for s in dataset if s.get("level", 1) == 1]
+print(f"Level 1 scenarios: {len(level1_data)} / {len(dataset)}")
 rng = random.Random(42)
 families = defaultdict(list)
+for s in level1_data:
     families[(s.get("decision"), s.get("violation_type"))].append(s)
 train_set, eval_set = [], []
     k = int(len(items) * 0.8)
     train_set.extend(items[:k])
     eval_set.extend(items[k:])
+print(f"Dataset: {len(train_set)} train / {len(eval_set)} eval (Level 1 only)")
 # ─── Policy Rules + Reward ────────────────────────────────────────────────────
 POLICY_RULES = {