Spaces:

kush5699
/

data-validation-env

Sleeping

App Files Files Community

kush5699 commited on 12 days ago

Commit

1bac517

verified ·

1 Parent(s): 842577f

Upload folder using huggingface_hub

Browse files

Files changed (2) hide show

env/environment.py +10 -7
env/models.py +2 -2

env/environment.py CHANGED Viewed

@@ -39,7 +39,7 @@ class DataValidationEnvironment(Environment):
             max_steps=task["max_steps"],
             done=False,
             reward_history=[],
-            cumulative_reward=0.0,
             dataset=task["dataset"],
             ground_truth=self._ground_truth,
             errors=self._errors,
@@ -58,8 +58,8 @@ class DataValidationEnvironment(Environment):
             errors_fixed=0,
             step_count=0,
             max_steps=task["max_steps"],
-            reward=0.0,
-            cumulative_reward=0.0,
             done=False,
             last_action_result="Environment reset. Examine errors and fix them.",
             task_hint=task["hint"],
@@ -69,7 +69,7 @@ class DataValidationEnvironment(Environment):
     def step(self, action: DataCleanAction, **kwargs) -> DataCleanObservation:
         if self._state.done:
-            return self._make_observation(0.0, "Episode already done. Call reset().")
         self._state.step_count += 1
@@ -78,7 +78,7 @@ class DataValidationEnvironment(Environment):
         self._state.last_actions.append(action_key)
         if is_repeat:
-            reward = 0.0
             message = "Penalty: repeated identical action"
         else:
             reward, message, fixed = grade_action(
@@ -118,6 +118,9 @@ class DataValidationEnvironment(Environment):
         unfixed_errors = [e for e in self._errors if not e.get("fixed", False)]
         return DataCleanObservation(
             task_name=self._state.task_name,
             task_description=self._task_info.get("description", ""),
@@ -128,8 +131,8 @@ class DataValidationEnvironment(Environment):
             errors_fixed=self._state.errors_fixed,
             step_count=self._state.step_count,
             max_steps=self._state.max_steps,
-            reward=reward,
-            cumulative_reward=self._state.cumulative_reward,
             done=self._state.done,
             last_action_result=message,
             task_hint=self._task_info.get("hint", ""),

             max_steps=task["max_steps"],
             done=False,
             reward_history=[],
+            cumulative_reward=0.01,
             dataset=task["dataset"],
             ground_truth=self._ground_truth,
             errors=self._errors,
             errors_fixed=0,
             step_count=0,
             max_steps=task["max_steps"],
+            reward=0.01,
+            cumulative_reward=0.01,
             done=False,
             last_action_result="Environment reset. Examine errors and fix them.",
             task_hint=task["hint"],
     def step(self, action: DataCleanAction, **kwargs) -> DataCleanObservation:
         if self._state.done:
+            return self._make_observation(0.01, "Episode already done. Call reset().")
         self._state.step_count += 1
         self._state.last_actions.append(action_key)
         if is_repeat:
+            reward = 0.01
             message = "Penalty: repeated identical action"
         else:
             reward, message, fixed = grade_action(
         unfixed_errors = [e for e in self._errors if not e.get("fixed", False)]
+        clamped_reward = max(0.01, min(0.99, reward))
+        clamped_cumulative = max(0.01, min(0.99, self._state.cumulative_reward))
         return DataCleanObservation(
             task_name=self._state.task_name,
             task_description=self._task_info.get("description", ""),
             errors_fixed=self._state.errors_fixed,
             step_count=self._state.step_count,
             max_steps=self._state.max_steps,
+            reward=clamped_reward,
+            cumulative_reward=clamped_cumulative,
             done=self._state.done,
             last_action_result=message,
             task_hint=self._task_info.get("hint", ""),

env/models.py CHANGED Viewed

@@ -21,7 +21,7 @@ class DataCleanObservation(Observation):
     errors_fixed: int = Field(default=0)
     step_count: int = Field(default=0)
     max_steps: int = Field(default=20)
-    cumulative_reward: float = Field(default=0.0)
     last_action_result: str = Field(default="")
     task_hint: str = Field(default="")
     available_actions: List[str] = Field(
@@ -39,7 +39,7 @@ class DataCleanState(State):
     max_steps: int = Field(default=20)
     done: bool = Field(default=False)
     reward_history: List[float] = Field(default_factory=list)
-    cumulative_reward: float = Field(default=0.0)
     dataset: List[Dict[str, Any]] = Field(default_factory=list)
     ground_truth: List[Dict[str, Any]] = Field(default_factory=list)
     errors: List[Dict[str, Any]] = Field(default_factory=list)

     errors_fixed: int = Field(default=0)
     step_count: int = Field(default=0)
     max_steps: int = Field(default=20)
+    cumulative_reward: float = Field(default=0.01)
     last_action_result: str = Field(default="")
     task_hint: str = Field(default="")
     available_actions: List[str] = Field(
     max_steps: int = Field(default=20)
     done: bool = Field(default=False)
     reward_history: List[float] = Field(default_factory=list)
+    cumulative_reward: float = Field(default=0.01)
     dataset: List[Dict[str, Any]] = Field(default_factory=list)
     ground_truth: List[Dict[str, Any]] = Field(default_factory=list)
     errors: List[Dict[str, Any]] = Field(default_factory=list)