Spaces:

kushalExplores
/

metric_tracker_rl

Sleeping

kushalExplores commited on Apr 8

Commit

9ba4021

verified ·

1 Parent(s): 15a0c0f

Upload folder using huggingface_hub

Files changed (2) hide show

evaluation.py CHANGED Viewed

@@ -11,6 +11,8 @@ except ImportError:
     from analysis_tools import preview_submission_rows, submission_row_key
     from models import MetricSubmissionRow, RewardBreakdown, SubmissionIssue, SubmissionPreview
 @dataclass(frozen=True)
 class EvaluationConfig:
@@ -42,6 +44,12 @@ class EvaluationResult:
     is_perfect: bool
 def evaluate_submission(
     submitted_rows: list[dict] | list[MetricSubmissionRow],
     expected_rows: list[MetricSubmissionRow],
@@ -133,7 +141,7 @@ def evaluate_submission(
         - invalid_penalty
         - exploit_penalty
     )
-    total_score = max(0.0, min(1.0, round(total_score, 6)))
     breakdown = RewardBreakdown(
         precision=round(precision, 6),

     from analysis_tools import preview_submission_rows, submission_row_key
     from models import MetricSubmissionRow, RewardBreakdown, SubmissionIssue, SubmissionPreview
+SCORE_EPSILON = 0.000001
 @dataclass(frozen=True)
 class EvaluationConfig:
     is_perfect: bool
+def _bounded_total_score(score: float) -> float:
+    """Clamp evaluator scores to the open interval (0, 1)."""
+    rounded_score = round(score, 6)
+    return min(1.0 - SCORE_EPSILON, max(SCORE_EPSILON, rounded_score))
 def evaluate_submission(
     submitted_rows: list[dict] | list[MetricSubmissionRow],
     expected_rows: list[MetricSubmissionRow],
         - invalid_penalty
         - exploit_penalty
     )
+    total_score = _bounded_total_score(total_score)
     breakdown = RewardBreakdown(
         precision=round(precision, 6),

tests/test_metric_tracker_rl.py CHANGED Viewed

@@ -92,7 +92,8 @@ def test_evaluator_scores_perfect_submission():
     result = evaluate_submission(expected_rows, expected_rows)
     assert result.is_perfect is True
-    assert result.reward_breakdown.total_score == 1.0
     assert result.reward_breakdown.extra_rows == 0
     assert result.reward_breakdown.duplicate_rows == 0
     assert result.reward_breakdown.invalid_rows == 0
@@ -117,7 +118,8 @@ def test_task_grader_scores_perfect_submission():
     result = task.grade_submission(episode.expected_rows, episode.expected_rows)
     assert result.is_perfect is True
-    assert result.reward_breakdown.total_score == 1.0
 def test_duplicate_and_extra_rows_are_penalized():

     result = evaluate_submission(expected_rows, expected_rows)
     assert result.is_perfect is True
+    assert 0.0 < result.reward_breakdown.total_score < 1.0
+    assert result.reward_breakdown.total_score == 0.999999
     assert result.reward_breakdown.extra_rows == 0
     assert result.reward_breakdown.duplicate_rows == 0
     assert result.reward_breakdown.invalid_rows == 0
     result = task.grade_submission(episode.expected_rows, episode.expected_rows)
     assert result.is_perfect is True
+    assert 0.0 < result.reward_breakdown.total_score < 1.0
+    assert result.reward_breakdown.total_score == 0.999999
 def test_duplicate_and_extra_rows_are_penalized():