Spaces:

srishtichugh
/

orgOS

Running

Taniieeee83 commited on 13 days ago

Commit

1519439

1 Parent(s): 105c5c9

changed reward scores

Files changed (2) hide show

server/environment.py CHANGED Viewed

@@ -37,9 +37,9 @@ class OrgOSEnvironment:
         # Reward component trackers
         self._wf_score     = 0.0   # workflow completion
-        self._rule_score   = 1.0   # compliance (starts perfect, penalized on violation)
         self._schema_score = 0.0   # schema adaptation successes
-        self._efficiency   = 1.0   # degrades with failed/no-op actions
         self._policy_score = 0.0   # policy drift handling bonus
     # ------------------------------------------------------------------
@@ -52,10 +52,10 @@ class OrgOSEnvironment:
         self._workflow_id  = workflow_id or self.WORKFLOWS[(self._episode_num - 1) % 3]
         self._step_count   = 0
         self._last_score   = 0.001
-        self._rule_score   = 1.0
         self._wf_score     = 0.0
         self._schema_score = 0.0
-        self._efficiency   = 1.0
         self._policy_score = 0.0
         self._policy_drift_applied = False
@@ -132,6 +132,10 @@ class OrgOSEnvironment:
                 message=result.get("message", "Operation failed"),
             )
         # Schema adaptation bonus (agent used correct drifted field name)
         if result.get("schema_adapted"):
             self._schema_score = min(1.0, self._schema_score + 0.10)

         # Reward component trackers
         self._wf_score     = 0.0   # workflow completion
+        self._rule_score   = 0.0   # compliance — earned +0.10 per successful action
         self._schema_score = 0.0   # schema adaptation successes
+        self._efficiency   = 0.0   # efficiency — earned +0.10 per successful action
         self._policy_score = 0.0   # policy drift handling bonus
     # ------------------------------------------------------------------
         self._workflow_id  = workflow_id or self.WORKFLOWS[(self._episode_num - 1) % 3]
         self._step_count   = 0
         self._last_score   = 0.001
+        self._rule_score   = 0.0
         self._wf_score     = 0.0
         self._schema_score = 0.0
+        self._efficiency   = 0.0
         self._policy_score = 0.0
         self._policy_drift_applied = False
                 message=result.get("message", "Operation failed"),
             )
+        # Earn compliance + efficiency for every successful action
+        self._rule_score = min(1.0, self._rule_score + 0.10)
+        self._efficiency = min(1.0, self._efficiency + 0.10)
         # Schema adaptation bonus (agent used correct drifted field name)
         if result.get("schema_adapted"):
             self._schema_score = min(1.0, self._schema_score + 0.10)

server/schema_drift.py CHANGED Viewed

@@ -77,17 +77,20 @@ class SchemaDriftEngine:
         return None, False
     def get_hints(self) -> Dict[str, str]:
-        """Return partial schema hints visible in observation.
-        Reveals 1 changed field per app that has drift (agent must discover the rest)."""
-        hints = {}
-        rng = random.Random(self._seed)
         for app, version in self._versions.items():
             mapping = SCHEMA_MAP.get(app, {}).get(version, {})
-            changed = {f"{app}.{k}": v for k, v in mapping.items() if k != v}
-            if changed:
-                key = rng.choice(list(changed.keys()))
-                hints[key] = changed[key]
-        return hints
     def get_all_changes(self) -> Dict[str, Dict[str, str]]:
         """Return all field changes for every app (used by UI schema drift viewer)."""

         return None, False
     def get_hints(self) -> Dict[str, str]:
+        """Return exactly 1 schema hint total across all apps.
+        Agent must probe with get_* / list_* to discover the rest of the drift."""
+        all_hints: Dict[str, str] = {}
         for app, version in self._versions.items():
             mapping = SCHEMA_MAP.get(app, {}).get(version, {})
+            all_hints.update(
+                {f"{app}.{k}": v for k, v in mapping.items() if k != v}
+            )
+        if not all_hints:
+            return {}
+        # Pick one hint deterministically — sorted for reproducibility
+        rng = random.Random(self._seed)
+        key = rng.choice(sorted(all_hints.keys()))
+        return {key: all_hints[key]}
     def get_all_changes(self) -> Dict[str, Dict[str, str]]:
         """Return all field changes for every app (used by UI schema drift viewer)."""