Spaces:

qimma
/

leaderboard

Running on CPU Upgrade

App Files Files Community

Alyafeai commited on Apr 21

Commit

7749d9c

1 Parent(s): 4f2765c

fix(ui): render structured benchmark details correctly

Browse files

Files changed (2) hide show

backend/data_loader.py +37 -5
frontend/leaderboard.html +1 -1

backend/data_loader.py CHANGED Viewed

@@ -590,6 +590,30 @@ def _py_scalar(value: Any) -> Any:
     return value
 def _json_safe(value: Any) -> Any:
     value = _py_scalar(value)
     if isinstance(value, dict):
@@ -853,7 +877,11 @@ def _read_detail_parquet(
         )
         predicted = rec.get("predicted_answer") or output
         gold_raw = rec.get("gold_answer")
-        gold_display = gold_raw if gold_raw not in (None, "") else rec.get("gold_verse_explanations")
         is_correct = None
         # Only enable binary correct/wrong mode for explicit gold_answer labels.
@@ -920,12 +948,12 @@ def _make_simple_row(
         "subtask": subtask,
         "question_id": _py_scalar(question_id),
         "task_name": _py_scalar(task_name),
-        "prompt": prompt or "",
         "input_prompt": None,
-        "output": output,
         "choices": [],
-        "gold_answer": _py_scalar(gold_answer),
-        "predicted_answer": _py_scalar(predicted_answer),
         "is_correct": is_correct,
         "metric_name": metric_name,
         "metric": _to_float_scalar(metric_value),
@@ -949,6 +977,10 @@ def _read_detail_fannorflop_rows(records: List[Any], subtask: str, benchmark_bas
         output = rec.get("extracted_response") or rec.get("response")
         predicted = rec.get("predicted_answer") or output
         gold = rec.get("gold_answer")
         is_correct = None
         # Only enable binary mode when explicit gold_answer exists.
         binary_mode = _is_primitive_answer(gold) and _is_primitive_answer(predicted)

     return value
+def _decode_structured_string(value: Any) -> Any:
+    value = _py_scalar(value)
+    if not isinstance(value, str):
+        return value
+    s = value.strip()
+    if not s:
+        return value
+    looks_structured = (
+        (s.startswith("{") and s.endswith("}")) or
+        (s.startswith("[") and s.endswith("]"))
+    )
+    if not looks_structured:
+        return value
+    for parser in (json.loads, ast.literal_eval):
+        with contextlib.suppress(Exception):
+            parsed = parser(s)
+            if isinstance(parsed, (dict, list)):
+                return _json_safe(parsed)
+    return value
 def _json_safe(value: Any) -> Any:
     value = _py_scalar(value)
     if isinstance(value, dict):
         )
         predicted = rec.get("predicted_answer") or output
         gold_raw = rec.get("gold_answer")
+        gold_display = gold_raw if gold_raw not in (None, "") else (
+            rec.get("gold_verse_explanations")
+            if rec.get("gold_verse_explanations") not in (None, "")
+            else rec.get("verse_explanations")
+        )
         is_correct = None
         # Only enable binary correct/wrong mode for explicit gold_answer labels.
         "subtask": subtask,
         "question_id": _py_scalar(question_id),
         "task_name": _py_scalar(task_name),
+        "prompt": _decode_structured_string(prompt or ""),
         "input_prompt": None,
+        "output": _decode_structured_string(output),
         "choices": [],
+        "gold_answer": _decode_structured_string(gold_answer),
+        "predicted_answer": _decode_structured_string(predicted_answer),
         "is_correct": is_correct,
         "metric_name": metric_name,
         "metric": _to_float_scalar(metric_value),
         output = rec.get("extracted_response") or rec.get("response")
         predicted = rec.get("predicted_answer") or output
         gold = rec.get("gold_answer")
+        if gold in (None, ""):
+            gold = rec.get("gold_verse_explanations")
+        if gold in (None, ""):
+            gold = rec.get("verse_explanations")
         is_correct = None
         # Only enable binary mode when explicit gold_answer exists.
         binary_mode = _is_primitive_answer(gold) and _is_primitive_answer(predicted)

frontend/leaderboard.html CHANGED Viewed

@@ -1517,7 +1517,7 @@ window.toggleExpandText = function (idBase, btn) {
                                 ? formatDetailValue(r.prompt, false)
                                 : asUnknown(r.prompt)
                         );
-                        const output = asUnknown(r.output);
                         const gold = formatDetailValue(r.gold_answer, !isCodeEvalBenchmark);
                         const predicted = formatDetailValue(r.predicted_answer);
                         const sampleMeta = [

                                 ? formatDetailValue(r.prompt, false)
                                 : asUnknown(r.prompt)
                         );
+                        const output = formatDetailValue(r.output);
                         const gold = formatDetailValue(r.gold_answer, !isCodeEvalBenchmark);
                         const predicted = formatDetailValue(r.predicted_answer);
                         const sampleMeta = [