Spaces:

uvpatel7271
/

openenv-python-env

Sleeping

App Files Files Community

uvpatel7271 commited on 14 days ago

Commit

605cd75

verified ·

1 Parent(s): a954add

Upload folder using huggingface_hub

Browse files

Files changed (6) hide show

inference.py +1 -2
pytest-cache-files-le0qcl0z/CACHEDIR.TAG +4 -0
pytest-cache-files-le0qcl0z/README.md +8 -0
pytest-cache-files-qm8xzmpt/CACHEDIR.TAG +4 -0
pytest-cache-files-qm8xzmpt/README.md +8 -0
server/env.py +121 -97

inference.py CHANGED Viewed

@@ -170,8 +170,7 @@ def run_task_episode(
         if verbose:
             print(f"Step {step_count}: {action.action_type}")
-            print(f"  Reward: {step_reward:+.4f}")
-            print(f"  Done: {observation.done}")
             if step_reward != 0 or observation.reward_details.reason:
                 print(f"  Reward Details: {observation.reward_details.reason}")
             if observation.last_action_status:

         if verbose:
             print(f"Step {step_count}: {action.action_type}")
+            print(f"  Reward: {step_reward:+.4f} Done: {observation.done}")
             if step_reward != 0 or observation.reward_details.reason:
                 print(f"  Reward Details: {observation.reward_details.reason}")
             if observation.last_action_status:

pytest-cache-files-le0qcl0z/CACHEDIR.TAG ADDED Viewed

	@@ -0,0 +1,4 @@

+Signature: 8a477f597d28d172789f06886806bc55
+# This file is a cache directory tag created by pytest.
+# For information about cache directory tags, see:
+#	https://bford.info/cachedir/spec.html

pytest-cache-files-le0qcl0z/README.md ADDED Viewed

	@@ -0,0 +1,8 @@

+# pytest cache directory #
+This directory contains data from the pytest's cache plugin,
+which provides the `--lf` and `--ff` options, as well as the `cache` fixture.
+**Do not** commit this to version control.
+See [the docs](https://docs.pytest.org/en/stable/how-to/cache.html) for more information.

pytest-cache-files-qm8xzmpt/CACHEDIR.TAG ADDED Viewed

	@@ -0,0 +1,4 @@

+Signature: 8a477f597d28d172789f06886806bc55
+# This file is a cache directory tag created by pytest.
+# For information about cache directory tags, see:
+#	https://bford.info/cachedir/spec.html

pytest-cache-files-qm8xzmpt/README.md ADDED Viewed

	@@ -0,0 +1,8 @@

+# pytest cache directory #
+This directory contains data from the pytest's cache plugin,
+which provides the `--lf` and `--ff` options, as well as the `cache` fixture.
+**Do not** commit this to version control.
+See [the docs](https://docs.pytest.org/en/stable/how-to/cache.html) for more information.

server/env.py CHANGED Viewed

@@ -20,9 +20,13 @@ from models import (
 from tasks import TaskSpec, get_task, list_task_descriptors, list_task_summaries, task_ids
-# Reward shaping constants
-INVALID_ACTION_PENALTY = 0.1
-QUALITY_BONUS_SCALE = 0.15
 class PythonCodeReviewEnvironment(
@@ -197,11 +201,11 @@ class PythonCodeReviewEnvironment(
             },
         )
-    def _handle_analyze(self) -> tuple[RewardDetails, str]:
-        """Analyze code for errors and test status."""
-        if self._task is None:
-            return RewardDetails(value=0.0, reason="Invalid state"), "Error: task not loaded"
         grade = grade_task(self._state.current_code, self._task, include_hidden=False)
         error = grade.details.get("compile_error", "")
@@ -209,21 +213,22 @@ class PythonCodeReviewEnvironment(
             self._state.errors = error
             self._state.test_results = "Compilation failed. Fix syntax first."
             summary = f"Syntax error detected: {error}"
-        else:
-            self._state.errors = ""
-            if self._task.task_kind == "syntax_fix":
-                self._state.test_results = "Code compiles successfully."
-                summary = "Code compiles. Ready to submit."
-            else:
-                visible_total = len(self._task.visible_tests)
-                visible_passed = grade.tests_passed
-                self._state.test_results = f"Test run: {visible_passed}/{visible_total} passing."
-                summary = self._state.test_results
-        reward = RewardDetails(value=0.0, reason=summary)
-        self._append_history("analyze_code", summary, reward.value)
-        self._sync_score(include_hidden=False)
-        return reward, summary
     def _handle_edit(self, action: PythonCodeReviewAction) -> tuple[RewardDetails, str]:
         """Edit the code and compute reward for progress."""
@@ -241,74 +246,80 @@ class PythonCodeReviewEnvironment(
             self._append_history("edit_code", status, reward.value)
             return reward, status
-        # Grade before and after
-        previous_grade = grade_task(self._state.current_code, self._task, include_hidden=False)
-        new_grade = grade_task(code, self._task, include_hidden=False)
-        self._state.current_code = code
         # Update state
         self._state.errors = new_grade.details.get("compile_error", "")
         self._state.test_results = self._format_test_results(new_grade)
-        # Compute reward with shaping
-        syntax_reward = 0.0
-        if previous_grade.syntax_score < 1.0 and new_grade.syntax_score == 1.0:
-            syntax_reward = 0.2
-            self._syntax_reward_awarded = True
-        quality_delta = max(new_grade.quality_score - self._best_quality_score, 0.0)
-        quality_bonus = 0.0
-        if quality_delta > 0:
-            quality_bonus = min(quality_delta * QUALITY_BONUS_SCALE, 0.1)
-            self._best_quality_score = new_grade.quality_score
-        test_delta = 0.0
-        if new_grade.tests_total > 0:
-            current_test_fraction = new_grade.tests_passed / new_grade.tests_total
-            test_delta = max(current_test_fraction - self._best_visible_test_fraction, 0.0)
-            self._best_visible_test_fraction = max(self._best_visible_test_fraction, current_test_fraction)
-        reward_value = syntax_reward + quality_bonus + (0.15 * test_delta)
-        status = "Code updated."
-        if self._state.errors:
-            status = f"Code updated with syntax issues: {self._state.errors}"
-        elif new_grade.tests_total > 0:
             status = self._state.test_results
-        reward = RewardDetails(
-            value=reward_value,
-            syntax_reward=syntax_reward,
-            quality_bonus=quality_bonus,
-            test_reward=0.15 * test_delta,
-            reason=status,
-        )
-        self._append_history("edit_code", status, reward_value)
-        self._sync_score(include_hidden=False)
-        return reward, status
     def _handle_run_tests(self) -> tuple[RewardDetails, str]:
         """Run tests and provide feedback."""
         if self._task is None:
             return RewardDetails(value=0.0, reason="Invalid state"), "Error: task not loaded"
-        grade = grade_task(self._state.current_code, self._task, include_hidden=False)
-        self._state.errors = grade.details.get("compile_error", "")
-        self._state.test_results = self._format_test_results(grade)
-        if grade.tests_total > 0:
-            current_fraction = grade.tests_passed / grade.tests_total
-            test_delta = max(current_fraction - self._best_visible_test_fraction, 0.0)
-            self._best_visible_test_fraction = max(self._best_visible_test_fraction, current_fraction)
-            test_reward = 0.15 * test_delta
-        else:
-            test_reward = 0.0
-        status = self._state.test_results if not self._state.errors else self._state.errors
-        reward = RewardDetails(value=test_reward, test_reward=test_reward, reason=status)
-        self._append_history("run_tests", status, reward.value)
-        self._sync_score(include_hidden=False)
-        return reward, status
     def _handle_submit(self) -> tuple[RewardDetails, str]:
         """Submit solution and finalize episode."""
@@ -319,23 +330,25 @@ class PythonCodeReviewEnvironment(
         self._state.errors = grade.details.get("compile_error", "")
         self._state.test_results = self._format_test_results(grade)
-        # Compute final reward bonuses
-        correctness_bonus = 0.0
-        if grade.score >= 0.999999 and not self._full_correctness_awarded:
-            correctness_bonus = 0.5
-            self._full_correctness_awarded = True
-        reward_value = correctness_bonus
-        self._finalize_episode(auto_submit=False, grade=grade)
-        status = f"Solution submitted. Final score: {grade.score:.3f}"
-        reward = RewardDetails(
-            value=reward_value,
-            correctness_bonus=correctness_bonus,
-            reason=status,
-        )
-        self._append_history("submit_solution", status, reward_value)
-        return reward, status
     def _finalize_episode(self, auto_submit: bool, grade: Optional[TaskGrade] = None) -> None:
         """Mark episode as done and set final score."""
@@ -350,8 +363,8 @@ class PythonCodeReviewEnvironment(
         self._done = True
         self._state.done = True
-        if auto_submit:
-            self._last_status = f"Step budget exhausted. Final score: {grade.score:.3f}"
     def _sync_score(self, include_hidden: bool) -> None:
         """Update visible score based on current code."""
@@ -380,6 +393,17 @@ class PythonCodeReviewEnvironment(
         )
         self._state.history.append(entry)
 # Backwards-compatible aliases used elsewhere in the repo.
 PythonEnvironment = PythonCodeReviewEnvironment

 from tasks import TaskSpec, get_task, list_task_descriptors, list_task_summaries, task_ids
+# Reward shaping constants
+INVALID_ACTION_PENALTY = 0.1
+QUALITY_BONUS_SCALE = 0.15
+ANALYZE_FAILURE_PENALTY = 0.05
+RUN_FAILURE_PENALTY = 0.05
+TIMEOUT_PENALTY = 0.1
+SUBMIT_BASE_SCALE = 0.1
 class PythonCodeReviewEnvironment(
             },
         )
+    def _handle_analyze(self) -> tuple[RewardDetails, str]:
+        """Analyze code for errors and test status."""
+        if self._task is None:
+            return RewardDetails(value=0.0, reason="Invalid state"), "Error: task not loaded"
         grade = grade_task(self._state.current_code, self._task, include_hidden=False)
         error = grade.details.get("compile_error", "")
             self._state.errors = error
             self._state.test_results = "Compilation failed. Fix syntax first."
             summary = f"Syntax error detected: {error}"
+        else:
+            self._state.errors = ""
+            if self._task.task_kind == "syntax_fix":
+                self._state.test_results = "Code compiles successfully."
+                summary = "Code compiles. Ready to submit."
+            else:
+                visible_total = len(self._task.visible_tests)
+                visible_passed = grade.tests_passed
+                self._state.test_results = f"Test run: {visible_passed}/{visible_total} passing."
+                summary = self._state.test_results
+        reward_value = round((grade.score * 0.05) - self._grade_penalty(grade, failure_penalty=ANALYZE_FAILURE_PENALTY), 6)
+        reward = RewardDetails(value=reward_value, reason=summary)
+        self._append_history("analyze_code", summary, reward.value)
+        self._sync_score(include_hidden=False)
+        return reward, summary
     def _handle_edit(self, action: PythonCodeReviewAction) -> tuple[RewardDetails, str]:
         """Edit the code and compute reward for progress."""
             self._append_history("edit_code", status, reward.value)
             return reward, status
+        # Grade before and after
+        previous_grade = grade_task(self._state.current_code, self._task, include_hidden=False)
+        new_grade = grade_task(code, self._task, include_hidden=False)
+        self._state.current_code = code
         # Update state
         self._state.errors = new_grade.details.get("compile_error", "")
         self._state.test_results = self._format_test_results(new_grade)
+        # Compute reward with shaping
+        syntax_reward = 0.0
+        if previous_grade.syntax_score < 1.0 and new_grade.syntax_score == 1.0:
+            syntax_reward = 0.2
+            self._syntax_reward_awarded = True
+        quality_delta = new_grade.quality_score - previous_grade.quality_score
+        quality_bonus = max(min(quality_delta * QUALITY_BONUS_SCALE, 0.1), -0.1)
+        if new_grade.quality_score > self._best_quality_score:
+            self._best_quality_score = new_grade.quality_score
+        progress_reward = 0.2 * (new_grade.score - previous_grade.score)
+        if new_grade.tests_total > 0:
+            current_test_fraction = new_grade.tests_passed / new_grade.tests_total
+            self._best_visible_test_fraction = max(self._best_visible_test_fraction, current_test_fraction)
+        penalty = self._grade_penalty(new_grade)
+        reward_value = round(progress_reward + syntax_reward + quality_bonus - penalty, 6)
+        status = "Code updated."
+        if self._state.errors:
+            status = f"Code updated with syntax issues: {self._state.errors}"
+        elif new_grade.tests_total > 0:
             status = self._state.test_results
+        reward = RewardDetails(
+            value=reward_value,
+            syntax_reward=syntax_reward,
+            quality_bonus=round(quality_bonus, 6),
+            test_reward=round(progress_reward, 6),
+            timeout_penalty=TIMEOUT_PENALTY if new_grade.timed_out else 0.0,
+            reason=status,
+        )
+        self._append_history("edit_code", status, reward_value)
+        self._sync_score(include_hidden=False)
+        return reward, status
     def _handle_run_tests(self) -> tuple[RewardDetails, str]:
         """Run tests and provide feedback."""
         if self._task is None:
             return RewardDetails(value=0.0, reason="Invalid state"), "Error: task not loaded"
+        grade = grade_task(self._state.current_code, self._task, include_hidden=False)
+        self._state.errors = grade.details.get("compile_error", "")
+        self._state.test_results = self._format_test_results(grade)
+        previous_score = self._state.score
+        progress_reward = 0.2 * (grade.score - previous_score)
+        completion_bonus = 0.05 if grade.tests_total > 0 and grade.tests_passed == grade.tests_total else 0.0
+        penalty = self._grade_penalty(grade, failure_penalty=RUN_FAILURE_PENALTY)
+        reward_value = round(progress_reward + completion_bonus - penalty, 6)
+        if grade.tests_total > 0:
+            current_fraction = grade.tests_passed / grade.tests_total
+            self._best_visible_test_fraction = max(self._best_visible_test_fraction, current_fraction)
+        status = self._state.test_results if not self._state.errors else self._state.errors
+        reward = RewardDetails(
+            value=reward_value,
+            test_reward=round(progress_reward + completion_bonus, 6),
+            timeout_penalty=TIMEOUT_PENALTY if grade.timed_out else 0.0,
+            reason=status,
+        )
+        self._append_history("run_tests", status, reward.value)
+        self._sync_score(include_hidden=False)
+        return reward, status
     def _handle_submit(self) -> tuple[RewardDetails, str]:
         """Submit solution and finalize episode."""
         self._state.errors = grade.details.get("compile_error", "")
         self._state.test_results = self._format_test_results(grade)
+        # Compute final reward bonuses
+        correctness_bonus = 0.0
+        if grade.score >= 0.999999 and not self._full_correctness_awarded:
+            correctness_bonus = 0.5
+            self._full_correctness_awarded = True
+        penalty = self._grade_penalty(grade, failure_penalty=RUN_FAILURE_PENALTY)
+        reward_value = round((grade.score * SUBMIT_BASE_SCALE) + correctness_bonus - penalty, 6)
+        self._finalize_episode(auto_submit=False, grade=grade)
+        status = f"Solution submitted. Final score: {grade.score:.3f}"
+        reward = RewardDetails(
+            value=reward_value,
+            correctness_bonus=correctness_bonus,
+            timeout_penalty=TIMEOUT_PENALTY if grade.timed_out else 0.0,
+            reason=status,
+        )
+        self._append_history("submit_solution", status, reward_value)
+        return reward, status
     def _finalize_episode(self, auto_submit: bool, grade: Optional[TaskGrade] = None) -> None:
         """Mark episode as done and set final score."""
         self._done = True
         self._state.done = True
+        if auto_submit:
+            self._last_status = f"Step budget exhausted. Final score: {grade.score:.3f}"
     def _sync_score(self, include_hidden: bool) -> None:
         """Update visible score based on current code."""
         )
         self._state.history.append(entry)
+    def _grade_penalty(self, grade: TaskGrade, failure_penalty: float = RUN_FAILURE_PENALTY) -> float:
+        """Return a negative signal when the action leads to an obviously bad result."""
+        penalty = 0.0
+        if grade.details.get("compile_error"):
+            penalty += failure_penalty + grade.score
+        if grade.timed_out:
+            penalty += TIMEOUT_PENALTY
+        if grade.tests_total > 0 and grade.tests_passed == 0:
+            penalty += failure_penalty
+        return round(penalty, 6)
 # Backwards-compatible aliases used elsewhere in the repo.
 PythonEnvironment = PythonCodeReviewEnvironment