Spaces:

hellinferno
/

sql-query-reviewer

Sleeping

hellinferno commited on 10 days ago

Commit

11aa990

1 Parent(s): 2c28868

fix: add run_episode wrapper, use .2f score format, update test for strict bounds

Files changed (2) hide show

inference.py CHANGED Viewed

@@ -77,7 +77,7 @@ def log_end(success: bool, steps: int, score: float, rewards: List[float]) -> No
     rewards_str = ",".join(f"{r:.2f}" for r in rewards)
     print(
         f"[END] success={str(success).lower()} steps={steps} "
-        f"score={score:.3f} rewards={rewards_str}",
         flush=True,
     )
@@ -223,6 +223,14 @@ async def run_episode_async(
 # ---------------------------------------------------------------------------
 def run_episode_sync(
     env: Any, llm_client: Any, model_name: str, task_id: str
 ) -> None:

     rewards_str = ",".join(f"{r:.2f}" for r in rewards)
     print(
         f"[END] success={str(success).lower()} steps={steps} "
+        f"score={score:.2f} rewards={rewards_str}",
         flush=True,
     )
 # ---------------------------------------------------------------------------
+def run_episode(env: Any, llm_client: Any, model_name: str, task_id: str) -> None:
+    """Public episode runner expected by tests.
+    Uses the synchronous env interface: reset(task_id=...), step(...), state().
+    """
+    return run_episode_sync(env, llm_client, model_name, task_id)
 def run_episode_sync(
     env: Any, llm_client: Any, model_name: str, task_id: str
 ) -> None:

tests/test_inference.py CHANGED Viewed

@@ -55,7 +55,7 @@ def test_run_episode_emits_start_step_end_logs(capsys) -> None:
                 total_reward=0.2,
                 done=True,
                 approved=True,
-                final_score=1.0,
             )
     class DummyCompletions:
@@ -80,5 +80,5 @@ def test_run_episode_emits_start_step_end_logs(capsys) -> None:
     assert "[STEP]" in captured
     assert "[END]" in captured
     assert "success=true" in captured
-    assert "score=1.00" in captured

                 total_reward=0.2,
                 done=True,
                 approved=True,
+                final_score=0.99,
             )
     class DummyCompletions:
     assert "[STEP]" in captured
     assert "[END]" in captured
     assert "success=true" in captured
+    assert "score=0.99" in captured