Spaces:

AIML-TUDA
/

IsomorphicPerturbationTesting

Running

App Files Files Community

LukasHug commited on Mar 23

Commit

b7bf618

verified ·

1 Parent(s): 2791166

Upload IsomorphicPerturbationTesting.py with huggingface_hub

Browse files

Files changed (1) hide show

IsomorphicPerturbationTesting.py +5 -20

IsomorphicPerturbationTesting.py CHANGED Viewed

@@ -42,7 +42,7 @@ import datasets
 import evaluate
 from tqdm import tqdm
-from ipt.verifier import verify
 logger = logging.getLogger(__name__)
@@ -113,9 +113,7 @@ Returns:
 def _run_eval(args):
     prediction, validation_program, eval_config, timeout = args
-    ext = verify(prediction, validation_program, eval_config, isomorphic=False, timeout=timeout)
-    iso = verify(prediction, validation_program, eval_config, isomorphic=True, timeout=timeout)
-    return ext, iso
 # ---------------------------------------------------------------------------
@@ -202,33 +200,20 @@ class IsomorphicPerturbationTesting(evaluate.Metric):
         if use_parallel:
             n_cpus = max(1, mp.cpu_count() - 1)
             with mp.Pool(n_cpus) as pool:
-                pairs = list(tqdm(
                     pool.imap(_run_eval, inputs),
                     total=len(inputs),
                     desc="IPT verification",
                     disable=not verbose,
                 ))
         else:
-            pairs = [_run_eval(x) for x in tqdm(inputs, desc="IPT verification", disable=not verbose)]
-        ext_results, iso_results = zip(*pairs) if pairs else ([], [])
-        detailed = []
-        for ext, iso in zip(ext_results, iso_results):
-            detailed.append({
-                "extensional_correct": ext["is_correct"],
-                "isomorphic_correct":  iso["is_correct"],
-                "is_reward_shortcut":  ext["is_correct"] and not iso["is_correct"],
-                "extensional_partial": ext["partial_score"],
-                "isomorphic_partial":  iso["partial_score"],
-                "error": ext.get("error") or iso.get("error"),
-            })
         n = len(predictions)
         ext_acc  = sum(d["extensional_correct"] for d in detailed) / n
         iso_acc  = sum(d["isomorphic_correct"]  for d in detailed) / n
         n_s      = sum(d["is_reward_shortcut"]  for d in detailed)
-        syntax   = sum(1 for r in iso_results if r["syntax_valid"]) / n
         return {
             "extensional_accuracy": ext_acc,

 import evaluate
 from tqdm import tqdm
+from ipt.verifier import verify_ipt
 logger = logging.getLogger(__name__)
 def _run_eval(args):
     prediction, validation_program, eval_config, timeout = args
+    return verify_ipt(prediction, validation_program, eval_config, timeout=timeout)
 # ---------------------------------------------------------------------------
         if use_parallel:
             n_cpus = max(1, mp.cpu_count() - 1)
             with mp.Pool(n_cpus) as pool:
+                detailed = list(tqdm(
                     pool.imap(_run_eval, inputs),
                     total=len(inputs),
                     desc="IPT verification",
                     disable=not verbose,
                 ))
         else:
+            detailed = [_run_eval(x) for x in tqdm(inputs, desc="IPT verification", disable=not verbose)]
         n = len(predictions)
         ext_acc  = sum(d["extensional_correct"] for d in detailed) / n
         iso_acc  = sum(d["isomorphic_correct"]  for d in detailed) / n
         n_s      = sum(d["is_reward_shortcut"]  for d in detailed)
+        syntax   = sum(1 for d in detailed if d["syntax_valid"]) / n
         return {
             "extensional_accuracy": ext_acc,