Spaces:

modelbuilderhq
/

HyperBrickCaseOps

Sleeping

modelbuilderhq commited on about 1 month ago

Commit

220e9f3

verified ·

1 Parent(s): 1305932

Upload folder using huggingface_hub

Files changed (4) hide show

inference.py CHANGED Viewed

@@ -32,6 +32,8 @@ MAX_STEPS = int(os.getenv("MAX_STEPS", "8"))
 TEMPERATURE = float(os.getenv("TEMPERATURE", "0"))
 MAX_TOKENS = int(os.getenv("MAX_TOKENS", "300"))
 SUCCESS_SCORE_THRESHOLD = float(os.getenv("SUCCESS_SCORE_THRESHOLD", "0.1"))
 SYSTEM_PROMPT = """You are a support operations agent solving one triage ticket.
 Return exactly one JSON object with this schema:
@@ -181,6 +183,10 @@ def _log_end(success: bool, steps: int, score: float, rewards: list[float]) -> N
     )
 def _run_local_episode(task_id: str, client: OpenAI | None) -> EpisodeResult:
     env = SupportDeskEnvironment(task_id=task_id)
     observation = env.reset()
@@ -280,8 +286,8 @@ async def main() -> None:
             episode = await _run_docker_episode(TASK_NAME, client)
         else:
             episode = _run_local_episode(TASK_NAME, client)
-        final_score = episode.final_score
-        success = episode.final_score >= SUCCESS_SCORE_THRESHOLD
         steps_taken = episode.steps_taken
         rewards = episode.rewards
     finally:

 TEMPERATURE = float(os.getenv("TEMPERATURE", "0"))
 MAX_TOKENS = int(os.getenv("MAX_TOKENS", "300"))
 SUCCESS_SCORE_THRESHOLD = float(os.getenv("SUCCESS_SCORE_THRESHOLD", "0.1"))
+SUBMISSION_SCORE_MIN = 0.01
+SUBMISSION_SCORE_MAX = 0.99
 SYSTEM_PROMPT = """You are a support operations agent solving one triage ticket.
 Return exactly one JSON object with this schema:
     )
+def _submission_score(score: float) -> float:
+    return max(SUBMISSION_SCORE_MIN, min(SUBMISSION_SCORE_MAX, score))
 def _run_local_episode(task_id: str, client: OpenAI | None) -> EpisodeResult:
     env = SupportDeskEnvironment(task_id=task_id)
     observation = env.reset()
             episode = await _run_docker_episode(TASK_NAME, client)
         else:
             episode = _run_local_episode(TASK_NAME, client)
+        final_score = _submission_score(episode.final_score)
+        success = final_score >= SUCCESS_SCORE_THRESHOLD
         steps_taken = episode.steps_taken
         rewards = episode.rewards
     finally:

openenv.yaml CHANGED Viewed

@@ -6,3 +6,12 @@ runtime: fastapi
 app: supportdesk_env.server.app:app
 port: 8000
 description: Enterprise support operations environment with SLA pressure, business-impact aware triage, and primary-vs-secondary issue prioritization.

 app: supportdesk_env.server.app:app
 port: 8000
 description: Enterprise support operations environment with SLA pressure, business-impact aware triage, and primary-vs-secondary issue prioritization.
+tasks:
+  - id: billing_refund_easy
+    grader: supportdesk_env.graders:BillingRefundEasyGrader
+  - id: account_takeover_medium
+    grader: supportdesk_env.graders:AccountTakeoverMediumGrader
+  - id: api_incident_hard
+    grader: supportdesk_env.graders:ApiIncidentHardGrader
+  - id: regulated_export_exception_hard
+    grader: supportdesk_env.graders:RegulatedExportExceptionHardGrader

supportdesk_env/graders.py CHANGED Viewed

@@ -8,7 +8,7 @@ from dataclasses import dataclass
 from supportdesk_env.models import SupportCaseProgress
 from supportdesk_env.tasks import SupportTaskSpec, get_task
-STRICT_SCORE_EPSILON = 0.001
 @dataclass(frozen=True)
@@ -137,3 +137,31 @@ def grade_task_id(task_id: str, case: SupportCaseProgress) -> GradeBreakdown:
     """Convenience wrapper used by tests and evaluation scripts."""
     return grade_case(get_task(task_id), case)

 from supportdesk_env.models import SupportCaseProgress
 from supportdesk_env.tasks import SupportTaskSpec, get_task
+STRICT_SCORE_EPSILON = 0.01
 @dataclass(frozen=True)
     """Convenience wrapper used by tests and evaluation scripts."""
     return grade_case(get_task(task_id), case)
+class _TaskSpecificGrader:
+    """Importable task-specific grader wrapper for validator task discovery."""
+    task_id: str = ""
+    def grade(self, case: SupportCaseProgress) -> float:
+        return grade_task_id(self.task_id, case).total_score
+    def __call__(self, case: SupportCaseProgress) -> float:
+        return self.grade(case)
+class BillingRefundEasyGrader(_TaskSpecificGrader):
+    task_id = "billing_refund_easy"
+class AccountTakeoverMediumGrader(_TaskSpecificGrader):
+    task_id = "account_takeover_medium"
+class ApiIncidentHardGrader(_TaskSpecificGrader):
+    task_id = "api_incident_hard"
+class RegulatedExportExceptionHardGrader(_TaskSpecificGrader):
+    task_id = "regulated_export_exception_hard"

tests/test_supportdesk.py CHANGED Viewed

@@ -66,7 +66,7 @@ def test_perfect_solution_grades_full_score():
     )
     breakdown = grade_case(task, env.state.case)
-    assert breakdown.total_score == 0.999
 def test_max_steps_ends_episode():
@@ -86,6 +86,26 @@ def test_grade_is_bounded_between_zero_and_one():
     assert 0.0 < breakdown.total_score < 1.0
 def test_state_includes_episode_id_after_reset():
     env = SupportDeskEnvironment(task_id="billing_refund_easy")
     env.reset(episode_id="episode-123")

     )
     breakdown = grade_case(task, env.state.case)
+    assert breakdown.total_score == 0.99
 def test_max_steps_ends_episode():
     assert 0.0 < breakdown.total_score < 1.0
+def test_task_specific_graders_are_importable_and_clamped():
+    from supportdesk_env.graders import (
+        AccountTakeoverMediumGrader,
+        ApiIncidentHardGrader,
+        BillingRefundEasyGrader,
+        RegulatedExportExceptionHardGrader,
+    )
+    from supportdesk_env.models import SupportCaseProgress
+    case = SupportCaseProgress()
+    scores = [
+        BillingRefundEasyGrader().grade(case),
+        AccountTakeoverMediumGrader().grade(case),
+        ApiIncidentHardGrader().grade(case),
+        RegulatedExportExceptionHardGrader().grade(case),
+    ]
+    assert scores == [0.15, 0.01, 0.01, 0.01]
 def test_state_includes_episode_id_after_reset():
     env = SupportDeskEnvironment(task_id="billing_refund_easy")
     env.reset(episode_id="episode-123")