Spaces:

qimma
/

leaderboard

Running on CPU Upgrade

Alyafeai commited on Mar 13

Commit

8cbc289

1 Parent(s): 5af9331

fix to show bert score for each sample

Files changed (1) hide show

backend/data_loader.py CHANGED Viewed

@@ -848,12 +848,14 @@ def _read_detail_parquet(
         )
         predicted = rec.get("predicted_answer") or output
-        gold = rec.get("gold_answer") or rec.get("gold_verse_explanations")
         is_correct = None
-        binary_mode = _is_primitive_answer(gold) and _is_primitive_answer(predicted)
         if binary_mode:
-            gold_norm = _norm_answer(gold)
             pred_norm = _norm_answer(predicted)
             if gold_norm and pred_norm:
                 is_correct = (gold_norm == pred_norm)
@@ -866,7 +868,7 @@ def _read_detail_parquet(
             task_name=benchmark_base,
             prompt=rec.get("prompt"),
             output=output,
-            gold_answer=gold,
             predicted_answer=predicted,
             metric_name=metric_key,
             metric_value=metric_value,
@@ -944,6 +946,7 @@ def _read_detail_fannorflop_rows(records: List[Any], subtask: str, benchmark_bas
         predicted = rec.get("predicted_answer") or output
         gold = rec.get("gold_answer")
         is_correct = None
         binary_mode = _is_primitive_answer(gold) and _is_primitive_answer(predicted)
         if binary_mode and gold not in (None, "") and predicted not in (None, ""):
             is_correct = (_norm_answer(gold) == _norm_answer(predicted))

         )
         predicted = rec.get("predicted_answer") or output
+        gold_raw = rec.get("gold_answer")
+        gold_display = gold_raw if gold_raw not in (None, "") else rec.get("gold_verse_explanations")
         is_correct = None
+        # Only enable binary correct/wrong mode for explicit gold_answer labels.
+        binary_mode = _is_primitive_answer(gold_raw) and _is_primitive_answer(predicted)
         if binary_mode:
+            gold_norm = _norm_answer(gold_raw)
             pred_norm = _norm_answer(predicted)
             if gold_norm and pred_norm:
                 is_correct = (gold_norm == pred_norm)
             task_name=benchmark_base,
             prompt=rec.get("prompt"),
             output=output,
+            gold_answer=gold_display,
             predicted_answer=predicted,
             metric_name=metric_key,
             metric_value=metric_value,
         predicted = rec.get("predicted_answer") or output
         gold = rec.get("gold_answer")
         is_correct = None
+        # Only enable binary mode when explicit gold_answer exists.
         binary_mode = _is_primitive_answer(gold) and _is_primitive_answer(predicted)
         if binary_mode and gold not in (None, "") and predicted not in (None, ""):
             is_correct = (_norm_answer(gold) == _norm_answer(predicted))