Spaces:

ronitraj
/

QuantumScribe

Sleeping

App Files Files Community

QuantumScribe / scripts /eval.py

ronitraj

Upload scripts/eval.py with huggingface_hub

ff28459 verified 12 days ago

raw

history blame

12.5 kB

	"""scripts/eval.py - held-out evaluation harness (Sections 6.2 + 7.3).

	Runs a model (or one of the deterministic baselines) over a held-out set
	of syndromes and reports:

	* format compliance rate
	* logical correction rate
	* mean Hamming-overlap with PyMatching
	* PyMatching beat-rate
	* mean total reward

	Usage::

	# Baseline run (no model; uses PyMatching-imitator):
	python -m scripts.eval --policy pymatching --episodes 200

	# Trained model (loads adapters via Unsloth):
	python -m scripts.eval --adapter checkpoints/grpo --episodes 500

	# With W&B logging (summary + per-episode table):
	python -m scripts.eval --adapter checkpoints/grpo --episodes 500 \
	--report-to wandb --wandb-group my-experiment
	"""
	from __future__ import annotations

	import argparse
	import json
	import sys
	from typing import Iterable

	from qubit_medic.client.client import LocalDecoderClient
	from qubit_medic.config import primary_level


	def _summary(name: str, results: list[dict]) -> dict:
	"""Aggregate per-episode reward dicts into the metrics the master spec
	benchmarks against (sections 6 + 7 of the locked spec).

	Each entry in ``results`` is the env's per-step ``info["rewards"]``
	dict, optionally with extra fields the eval loop decorated:
	* ``exact_match_pymatching`` (model-eval only)
	* ``output_length`` (model-eval only)
	* ``n_true_errors`` (any caller; enables hard-syndrome subset)
	"""
	n = max(1, len(results))
	# Hard-syndrome subset = episodes where the simulated truth contains
	# at least 2 X\|Z errors. This is the cohort where MWPM ambiguity
	# matters and trained-model contributions are most visible.
	hard = [r for r in results if int(r.get("n_true_errors", 0)) >= 2]
	n_hard = len(hard)
	out = {
	"name": name,
	"episodes": len(results),
	# Headline metrics (master spec, section 6).
	"logical_correction_rate":
	sum(r["logical_correction"] >= 0.5 for r in results) / n,
	"pymatching_beat_rate":
	sum(r["pymatching_beat"] >= 0.5 for r in results) / n,
	"format_compliance_rate":
	sum(r["format_compliance"] >= 0.999 for r in results) / n,
	"format_partial_rate":
	sum((r["format_compliance"] >= 0.5
	and r["format_compliance"] < 0.999) for r in results) / n,
	# Continuous progress metrics.
	"syndrome_consistency_rate":
	sum(r["syndrome_consistency"] >= 0.999 for r in results) / n,
	"mean_syndrome_consistency":
	sum(r["syndrome_consistency"] for r in results) / n,
	"mean_hamming_overlap":
	sum(r["hamming_overlap"] for r in results) / n,
	"mean_total_reward":
	sum(r["total"] for r in results) / n,
	# Model-eval extras (present iff the model loop populated them).
	"exact_match_pymatching":
	sum(int(r.get("exact_match_pymatching", 0)) for r in results) / n,
	"mean_output_length":
	sum(int(r.get("output_length", 0)) for r in results) / n,
	# Hard-syndrome subset (FIX 5, 2026-04 eval spec). Easy syndromes
	# are where every baseline already hits ~95%+; the hard subset is
	# where differentiation actually shows up.
	"hard_syndrome_count": n_hard,
	"hard_syndrome_lcr":
	(sum(r["logical_correction"] >= 0.5 for r in hard) / n_hard
	if n_hard else 0.0),
	"hard_syndrome_beat_rate":
	(sum(r["pymatching_beat"] >= 0.5 for r in hard) / n_hard
	if n_hard else 0.0),
	}
	return out


	def _eval_baseline(name: str, episodes: int, level: str,
	collect_rows: bool = False):
	from scripts.baseline_policies import (
	policy_pymatching, policy_zeros, policy_random,
	)
	import random as _r
	rng = _r.Random(0)
	pol_map = {
	"pymatching": lambda obs: policy_pymatching(obs, env_client=None),
	"zeros": policy_zeros,
	"random": lambda obs: policy_random(obs, rng=rng),
	}
	if name not in pol_map:
	raise ValueError(f"unknown baseline {name}; choose from {sorted(pol_map)}")
	pol = pol_map[name]
	client = LocalDecoderClient()
	rewards = []
	rows = []
	for ep in range(episodes):
	obs = client.reset(forced_level=level, seed=10_000 + ep)
	completion = pol(obs)
	result = client.step(raw_response=completion, episode_id=obs.episode_id)
	rwd = dict(result.info["rewards"]) # copy so we can decorate
	# Tag with true-error count so _summary can filter the hard subset.
	rwd["n_true_errors"] = (
	len(result.info.get("pymatching_x_errors", []) or [])
	+ len(result.info.get("pymatching_z_errors", []) or [])
	)
	rewards.append(rwd)
	if collect_rows and ep < 50: # cap table size
	rows.append({
	"episode": ep,
	"completion": completion,
	"logical_correction": rwd["logical_correction"],
	"syndrome_consistency": rwd["syndrome_consistency"],
	"hamming_overlap": rwd["hamming_overlap"],
	"format_compliance": rwd["format_compliance"],
	"pymatching_beat": rwd["pymatching_beat"],
	"total": rwd["total"],
	"actual_obs_flip": result.info["actual_observable_flip"],
	"pm_obs_flip": result.info["pymatching_observable_pred"],
	})
	return _summary(name, rewards), rows


	def _eval_model(adapter: str, episodes: int, level: str,
	base_model: str, max_new_tokens: int,
	collect_rows: bool = False):
	"""Use Unsloth to load the adapter and generate completions.

	Populates ``exact_match_pymatching`` and ``output_length`` on each
	per-episode reward dict so :func:`_summary` can report the master
	spec's full benchmark suite (section 6 + section 7).
	"""
	from unsloth import FastLanguageModel
	model, tokenizer = FastLanguageModel.from_pretrained(
	model_name=adapter if adapter else base_model,
	max_seq_length=2048,
	load_in_4bit=True,
	dtype=None,
	)
	FastLanguageModel.for_inference(model)

	client = LocalDecoderClient()
	rewards = []
	rows = []
	for ep in range(episodes):
	obs = client.reset(forced_level=level, seed=10_000 + ep)
	chat = [{"role": "user", "content": obs.prompt}]
	text = tokenizer.apply_chat_template(chat, tokenize=False,
	add_generation_prompt=True)
	inputs = tokenizer(text, return_tensors="pt").to(model.device)
	out = model.generate(
	**inputs, max_new_tokens=max_new_tokens,
	do_sample=False, # deterministic / greedy eval
	eos_token_id=tokenizer.eos_token_id,
	pad_token_id=tokenizer.pad_token_id or tokenizer.eos_token_id,
	)
	gen_ids = out[0][inputs["input_ids"].shape[1]:]
	completion = tokenizer.decode(gen_ids, skip_special_tokens=True)
	n_tokens = int(gen_ids.shape[0])
	result = client.step(raw_response=completion, episode_id=obs.episode_id)
	rwd = dict(result.info["rewards"]) # copy so we can decorate

	# Decorate with the master-spec extras.
	action = result.info.get("parsed_action", {}) or {}
	pm_x = sorted(set(map(int, result.info.get("pymatching_x_errors", []) or [])))
	pm_z = sorted(set(map(int, result.info.get("pymatching_z_errors", []) or [])))
	our_x = sorted(set(map(int, action.get("x_error_qubits", []) or [])))
	our_z = sorted(set(map(int, action.get("z_error_qubits", []) or [])))
	rwd["exact_match_pymatching"] = int(
	bool(action.get("parse_success", False))
	and our_x == pm_x and our_z == pm_z
	)
	rwd["output_length"] = n_tokens
	rwd["n_true_errors"] = len(pm_x) + len(pm_z)
	rewards.append(rwd)

	if collect_rows and ep < 50:
	rows.append({
	"episode": ep,
	"completion": completion[:300],
	"logical_correction": rwd["logical_correction"],
	"syndrome_consistency": rwd["syndrome_consistency"],
	"hamming_overlap": rwd["hamming_overlap"],
	"format_compliance": rwd["format_compliance"],
	"pymatching_beat": rwd["pymatching_beat"],
	"exact_match_pymatching": rwd["exact_match_pymatching"],
	"output_length": rwd["output_length"],
	"total": rwd["total"],
	"actual_obs_flip": result.info["actual_observable_flip"],
	"pm_obs_flip": result.info["pymatching_observable_pred"],
	})
	return _summary(f"model[{adapter}]", rewards), rows


	def main(argv: Iterable[str] = ()) -> int:
	parser = argparse.ArgumentParser(description=__doc__)
	parser.add_argument("--policy", choices=["random", "zeros", "pymatching"],
	default=None,
	help="evaluate a deterministic baseline instead of a model")
	parser.add_argument("--adapter", type=str, default=None,
	help="path to LoRA adapter dir; mutually exclusive with --policy")
	parser.add_argument("--base-model", type=str,
	default="Qwen/Qwen2.5-3B-Instruct")
	parser.add_argument("--episodes", type=int, default=200)
	parser.add_argument("--level", type=str, default=primary_level().name)
	parser.add_argument("--max-new-tokens", type=int, default=160)
	parser.add_argument("--out", type=str, default=None)
	parser.add_argument("--report-to", type=str, default="none",
	choices=["wandb", "none"],
	help="If 'wandb', log summary + per-episode table.")
	parser.add_argument("--wandb-run-name", type=str, default=None)
	parser.add_argument("--wandb-group", type=str, default=None)
	parser.add_argument("--wandb-tags", type=str, nargs="*", default=("eval",))
	parser.add_argument("--wandb-notes", type=str, default=None)
	args = parser.parse_args(list(argv))

	if (args.policy is None) == (args.adapter is None):
	print("ERROR: exactly one of --policy and --adapter is required",
	file=sys.stderr)
	return 1

	from qubit_medic import wandb_utils

	report_to = wandb_utils.derive_report_to(args.report_to)
	use_wandb = report_to == "wandb"
	if use_wandb:
	slug = args.policy or (args.adapter or "model").replace("/", "_")
	run_name = args.wandb_run_name or wandb_utils.make_run_name(
	"eval", suffix=slug)
	wandb_utils.init_run(
	run_name=run_name,
	job_type="eval",
	tags=tuple(list(args.wandb_tags) + [args.level]),
	notes=args.wandb_notes,
	group=args.wandb_group,
	extra_config={
	"cli": {
	"policy": args.policy,
	"adapter": args.adapter,
	"episodes": args.episodes,
	"level": args.level,
	"max_new_tokens": args.max_new_tokens,
	"base_model": args.base_model,
	},
	},
	)

	if args.policy is not None:
	result, rows = _eval_baseline(args.policy, args.episodes, args.level,
	collect_rows=use_wandb)
	else:
	result, rows = _eval_model(args.adapter, args.episodes, args.level,
	args.base_model, args.max_new_tokens,
	collect_rows=use_wandb)
	result["level"] = args.level
	print(json.dumps(result, indent=2))

	if args.out:
	from pathlib import Path
	Path(args.out).parent.mkdir(parents=True, exist_ok=True)
	with open(args.out, "w") as f:
	json.dump(result, f, indent=2)

	if use_wandb:
	wandb_utils.log_eval_summary(result, prefix="eval")
	if rows:
	wandb_utils.log_generation_table(
	rows, step=None, table_name="eval/episode_breakdown",
	)
	wandb_utils.update_summary({
	"eval/policy_or_adapter": args.policy or args.adapter,
	"eval/episodes": args.episodes,
	"eval/level": args.level,
	})
	wandb_utils.finish_run()

	return 0


	if __name__ == "__main__":
	sys.exit(main(sys.argv[1:]))