Spaces:

hellinferno
/

sql-query-reviewer

Sleeping

hellinferno commited on 21 days ago

Commit

2c28868

1 Parent(s): ad826e7

fix: clamp scores to strict (0,1) exclusive — validator requires no 0.0 or 1.0

Files changed (3) hide show

inference.py CHANGED Viewed

@@ -207,7 +207,7 @@ async def run_episode_async(
         except Exception:
             score = sum(rewards) / max(len(rewards), 1) if rewards else 0.0
-        score = max(0.0, min(1.0, score))
         success = score >= SUCCESS_SCORE_THRESHOLD
     except Exception as exc:
@@ -283,7 +283,7 @@ def run_episode_sync(
         except Exception:
             score = sum(rewards) / max(len(rewards), 1) if rewards else 0.0
-        score = max(0.0, min(1.0, score))
         success = score >= SUCCESS_SCORE_THRESHOLD
     except Exception as exc:
@@ -305,7 +305,7 @@ async def async_main() -> int:
         print("[DEBUG] WARNING: No API key found (HF_TOKEN / API_KEY / OPENAI_API_KEY)", flush=True)
         for tid in ["easy_001", "medium_001", "hard_001"]:
             log_start(task=tid, env=BENCHMARK, model=MODEL_NAME)
-            log_end(success=False, steps=0, score=0.0, rewards=[])
         return 1
     llm_client = OpenAI(api_key=API_KEY, base_url=API_BASE_URL)
@@ -380,7 +380,7 @@ async def async_main() -> int:
         print("[DEBUG] All connection methods exhausted", flush=True)
         for task_id in task_ids:
             log_start(task=task_id, env=BENCHMARK, model=MODEL_NAME)
-            log_end(success=False, steps=0, score=0.0, rewards=[])
         return 1
     except Exception as exc:

         except Exception:
             score = sum(rewards) / max(len(rewards), 1) if rewards else 0.0
+        score = max(0.01, min(0.99, score))
         success = score >= SUCCESS_SCORE_THRESHOLD
     except Exception as exc:
         except Exception:
             score = sum(rewards) / max(len(rewards), 1) if rewards else 0.0
+        score = max(0.01, min(0.99, score))
         success = score >= SUCCESS_SCORE_THRESHOLD
     except Exception as exc:
         print("[DEBUG] WARNING: No API key found (HF_TOKEN / API_KEY / OPENAI_API_KEY)", flush=True)
         for tid in ["easy_001", "medium_001", "hard_001"]:
             log_start(task=tid, env=BENCHMARK, model=MODEL_NAME)
+            log_end(success=False, steps=0, score=0.01, rewards=[])
         return 1
     llm_client = OpenAI(api_key=API_KEY, base_url=API_BASE_URL)
         print("[DEBUG] All connection methods exhausted", flush=True)
         for task_id in task_ids:
             log_start(task=task_id, env=BENCHMARK, model=MODEL_NAME)
+            log_end(success=False, steps=0, score=0.01, rewards=[])
         return 1
     except Exception as exc:

server/grader.py CHANGED Viewed

@@ -79,7 +79,7 @@ def grade_episode(
     false_positive_count: int,
 ) -> float:
     if not ground_truth_issues:
-        return 1.0 if false_positive_count == 0 else clamp(1.0 - (0.1 * false_positive_count), 0.0, 1.0)
     total_severity = sum(issue.severity for issue in ground_truth_issues)
     found_severity = sum(issue.severity for issue in ground_truth_issues if issue.id in found_issue_ids)
@@ -87,5 +87,5 @@ def grade_episode(
     efficiency_bonus = max(0.0, 0.1 * (1 - (total_steps / max(max_steps, 1))))
     false_positive_penalty = 0.05 * false_positive_count
     final_score = coverage_score + efficiency_bonus - false_positive_penalty
-    return clamp(final_score, 0.0, 1.0)

     false_positive_count: int,
 ) -> float:
     if not ground_truth_issues:
+        return 0.99 if false_positive_count == 0 else clamp(1.0 - (0.1 * false_positive_count), 0.01, 0.99)
     total_severity = sum(issue.severity for issue in ground_truth_issues)
     found_severity = sum(issue.severity for issue in ground_truth_issues if issue.id in found_issue_ids)
     efficiency_bonus = max(0.0, 0.1 * (1 - (total_steps / max(max_steps, 1))))
     false_positive_penalty = 0.05 * false_positive_count
     final_score = coverage_score + efficiency_bonus - false_positive_penalty
+    return clamp(final_score, 0.01, 0.99)

sql_query_reviewer/models.py CHANGED Viewed

@@ -85,7 +85,7 @@ class SQLReviewState(StrictModel):
     approved: bool = False
     fixes_suggested: list[str] = Field(default_factory=list)
     false_positive_count: int = Field(default=0, ge=0)
-    final_score: float | None = Field(default=None, ge=0.0, le=1.0)
 class StepResult(StrictModel):

     approved: bool = False
     fixes_suggested: list[str] = Field(default_factory=list)
     false_positive_count: int = Field(default=0, ge=0)
+    final_score: float | None = Field(default=None, gt=0.0, lt=1.0)
 class StepResult(StrictModel):