Spaces:

Cooked4riyal
/

EntropyEnv

Running

immortalindeed commited on 9 days ago

Commit

ee547a6

1 Parent(s): f63920a

chore: Apply Bug #2 and Bug #3 strict min/max bound clamping to prevent out of range scores and fix windows encoding

Files changed (3) hide show

README.md CHANGED Viewed

@@ -233,7 +233,7 @@ entropyenv/
 | Model | Provider | sec_easy | sec_med | sec_hard | dep_easy | dep_med | dep_hard | cli_easy | cli_med | cli_hard | **Avg** |
 |-------|----------|:--------:|:-------:|:--------:|:--------:|:-------:|:--------:|:--------:|:-------:|:--------:|:-------:|
-| *Benchmarking in progress...* | | | | | | | | | | | |
 **Scoring formula:** `score = 0.60 × max(step_rewards) + 0.40 × mean(step_rewards)`, clamped to `[0.01, 0.99]`

 | Model | Provider | sec_easy | sec_med | sec_hard | dep_easy | dep_med | dep_hard | cli_easy | cli_med | cli_hard | **Avg** |
 |-------|----------|:--------:|:-------:|:--------:|:--------:|:-------:|:--------:|:--------:|:-------:|:--------:|:-------:|
+| *(Run `python unnecessary/run_14_models.py` to auto-populate this table)* | | | | | | | | | | | |
 **Scoring formula:** `score = 0.60 × max(step_rewards) + 0.40 × mean(step_rewards)`, clamped to `[0.01, 0.99]`

inference.py CHANGED Viewed

@@ -337,7 +337,8 @@ def run_task(client: OpenAI, task_id: str) -> tuple:
             rewards.append(0.01)
             break
-        reward     = float(step_data.get("reward", 0.0))
         done       = bool(step_data.get("done",   False))
         obs        = step_data.get("observation", step_data)
         step_error = step_data.get("error") or error_msg

             rewards.append(0.01)
             break
+        raw_reward = float(step_data.get("reward", 0.01))
+        reward     = round(min(max(raw_reward, 0.01), 0.99), 4)
         done       = bool(step_data.get("done",   False))
         obs        = step_data.get("observation", step_data)
         step_error = step_data.get("error") or error_msg

server/app.py CHANGED Viewed

@@ -172,7 +172,7 @@ async def step(request: Request):
         if not valid:
             last_r = 0.01
             if session.history:
-                last_r = max(0.01, session.history[-1].get('reward', 0.01))
             return {
                 'reward': last_r,
                 'done': False,

         if not valid:
             last_r = 0.01
             if session.history:
+                last_r = min(max(0.01, float(session.history[-1].get('reward', 0.01))), 0.99)
             return {
                 'reward': last_r,
                 'done': False,