Spaces:

srishtichugh
/

OpenEnv_hack

Sleeping

srishtichugh commited on Apr 8

Commit

28070b8

1 Parent(s): 53ae9f0

Fix rewards

Files changed (2) hide show

openenv.yaml CHANGED Viewed

@@ -46,9 +46,9 @@ api:
   docs:    GET  /docs
 reward:
-  range: [-0.05, 1.2]
   partial: true
-  terminal_bonus: 0.2
 observation_space:
   type: object

   docs:    GET  /docs
 reward:
+  range: [0.001, 0.999]
   partial: true
+  terminal_bonus: 0.0
 observation_space:
   type: object

server/environment.py CHANGED Viewed

@@ -33,7 +33,7 @@ class DataCleaningEnvironment:
         self._step_count: int               = 0
         self._max_steps: int                = 20
         self._total_errors: int             = 0
-        self._last_score: float             = 0.0
         self._task_cycle: int               = 0      # for round-robin default
     # ------------------------------------------------------------------
@@ -76,20 +76,22 @@ class DataCleaningEnvironment:
         score_after    = self._compute_score()
         self._last_score = score_after
-        delta   = score_after - score_before
         if not applied:
-            reward = -0.05
         elif delta <= 0:
-            reward = -0.01
         else:
             reward = round(delta, 4)
         done = (score_after >= 0.95) or (self._step_count >= self._max_steps)
-        if done and score_after >= 0.95:
-            reward = round(reward + 0.2, 4)
         return self._build_obs(reward, done, message)
     def state(self) -> DataCleaningState:
         if self._df is None:
             return DataCleaningState(

         self._step_count: int               = 0
         self._max_steps: int                = 20
         self._total_errors: int             = 0
+        self._last_score: float             = 0.001
         self._task_cycle: int               = 0      # for round-robin default
     # ------------------------------------------------------------------
         score_after    = self._compute_score()
         self._last_score = score_after
+        delta = score_after - score_before
         if not applied:
+            reward = 0.001
         elif delta <= 0:
+            reward = 0.001
         else:
             reward = round(delta, 4)
         done = (score_after >= 0.95) or (self._step_count >= self._max_steps)
+        # Clamp reward strictly within (0.001, 0.999) — no terminal bonus
+        reward = round(max(0.001, min(0.999, reward)), 4)
         return self._build_obs(reward, done, message)
     def state(self) -> DataCleaningState:
         if self._df is None:
             return DataCleaningState(