Upload benchmark.py

512e317 verified 12 days ago

9.99 kB

	"""
	Benchmark evaluation script for telecom intent-to-config models.
	Evaluates on a test dataset and computes metrics:
	- JSON validity rate
	- Schema compliance (key presence)
	- Semantic fidelity (embedding similarity)
	- Per-target-layer breakdown

	Usage on Kaggle:
	python benchmark.py \
	--adapter_path ./qwen2.5-7b-telecom-intent-lora \
	--dataset nraptisss/TMF921-intent-to-config-augmented \
	--split test \
	--max_samples 100 \
	--output benchmark_results.json
	"""

	import argparse
	import json
	import os
	import re
	import sys

	import torch
	from datasets import load_dataset
	from transformers import AutoModelForCausalLM, AutoTokenizer
	from peft import PeftModel
	from sentence_transformers import SentenceTransformer
	import numpy as np

	# ============================================================================
	# CONFIGURATION
	# ============================================================================

	BASE_MODEL = "Qwen/Qwen2.5-7B-Instruct"
	MAX_NEW_TOKENS = 1024
	TEMPERATURE = 0.1
	TOP_P = 0.95


	def load_model(adapter_path: str, base_model: str):
	"""Load base model + LoRA adapters."""
	adapter_path = os.path.abspath(adapter_path)
	if not os.path.isdir(adapter_path):
	print(f"ERROR: Adapter path not found: {adapter_path}")
	print("Run train.py first to generate adapters.")
	sys.exit(1)

	print(f"Loading base model: {base_model}")
	model = AutoModelForCausalLM.from_pretrained(
	base_model,
	dtype=torch.float16,
	device_map="auto",
	trust_remote_code=True,
	)
	print(f"Loading LoRA adapters: {adapter_path}")
	model = PeftModel.from_pretrained(model, adapter_path)
	model.eval()

	tokenizer = AutoTokenizer.from_pretrained(
	base_model,
	trust_remote_code=True,
	padding_side="left",
	)
	if tokenizer.pad_token is None:
	tokenizer.pad_token = tokenizer.eos_token

	return model, tokenizer


	def generate_config(model, tokenizer, messages: list) -> str:
	"""Generate config from messages list."""
	prompt = tokenizer.apply_chat_template(
	messages,
	tokenize=False,
	add_generation_prompt=True,
	)
	inputs = tokenizer(prompt, return_tensors="pt").to(model.device)

	with torch.no_grad():
	outputs = model.generate(
	**inputs,
	max_new_tokens=MAX_NEW_TOKENS,
	temperature=TEMPERATURE,
	top_p=TOP_P,
	do_sample=True,
	pad_token_id=tokenizer.pad_token_id,
	eos_token_id=tokenizer.eos_token_id,
	)

	generated = tokenizer.decode(outputs[0], skip_special_tokens=True)
	response = generated[len(prompt):].strip()

	# Extract JSON from markdown code blocks
	json_match = re.search(r"```(?:json)?\s(.?)\s*```", response, re.DOTALL)
	if json_match:
	response = json_match.group(1)

	return response.strip()


	def validate_json(text: str) -> tuple[bool, dict \| None]:
	"""Try to parse as JSON."""
	try:
	text = text.strip()
	start = text.find("{")
	end = text.rfind("}")
	if start != -1 and end != -1 and end > start:
	text = text[start:end + 1]
	parsed = json.loads(text)
	return True, parsed
	except json.JSONDecodeError:
	return False, None


	def check_schema_compliance(parsed: dict, target_layer: str) -> dict:
	"""Check required keys based on target layer."""
	schema_map = {
	"tmf921": ["intent", "intentId", "name"],
	"camara": ["networkSliceBooking", "sliceType"],
	"intent_3gpp": ["ManagedElement", "intent"],
	"etsi_zsm": ["intent", "serviceProfile"],
	"a1_policy": ["policy", "policyType"],
	"o1_nrm": ["ManagedElement", "GNBDUFunction"],
	}

	expected = schema_map.get(target_layer.lower(), [])
	present = [k for k in expected if k in parsed]
	missing = [k for k in expected if k not in parsed]

	return {
	"compliance_score": len(present) / max(len(expected), 1),
	"present_keys": present,
	"missing_keys": missing,
	}


	def main():
	parser = argparse.ArgumentParser(description="Telecom Intent Benchmark")
	parser.add_argument(
	"--adapter_path",
	type=str,
	default="./qwen2.5-7b-telecom-intent-lora",
	help="Path to LoRA adapters",
	)
	parser.add_argument(
	"--base_model",
	type=str,
	default=BASE_MODEL,
	help="Base model name",
	)
	parser.add_argument(
	"--dataset",
	type=str,
	default="nraptisss/TMF921-intent-to-config-augmented",
	help="Dataset to evaluate on",
	)
	parser.add_argument(
	"--dataset_config",
	type=str,
	default="default",
	help="Dataset config name",
	)
	parser.add_argument(
	"--split",
	type=str,
	default="test",
	help="Dataset split to evaluate",
	)
	parser.add_argument(
	"--max_samples",
	type=int,
	default=100,
	help="Max number of samples to evaluate",
	)
	parser.add_argument(
	"--output",
	type=str,
	default="benchmark_results.json",
	help="Output file for results",
	)
	args = parser.parse_args()

	# Load model
	model, tokenizer = load_model(args.adapter_path, args.base_model)

	# Load dataset
	print(f"\nLoading dataset: {args.dataset} ({args.split})")
	ds = load_dataset(args.dataset, args.dataset_config, split=args.split)
	if args.max_samples:
	ds = ds.select(range(min(args.max_samples, len(ds))))
	print(f"Evaluating on {len(ds)} samples")

	# Load embedding model for semantic similarity
	try:
	embed_model = SentenceTransformer("sentence-transformers/all-MiniLM-L6-v2")
	use_embedding = True
	print("Loaded embedding model for semantic similarity")
	except Exception as e:
	print(f"Embedding model not available ({e}), using string similarity only")
	use_embedding = False

	# Run evaluation
	results = []
	valid_count = 0
	compliance_scores = []
	layer_stats = {}

	for i, sample in enumerate(ds):
	messages = sample["messages"]
	target_layer = sample.get("target_layer", "unknown")

	# Extract reference (assistant content)
	reference = ""
	for m in messages:
	if m.get("role") == "assistant":
	reference = m.get("content", "")
	break

	# Reconstruct user messages for generation
	gen_messages = [m for m in messages if m.get("role") != "assistant"]

	# Generate
	generated = generate_config(model, tokenizer, gen_messages)
	is_valid, parsed = validate_json(generated)

	if is_valid:
	valid_count += 1
	schema = check_schema_compliance(parsed, target_layer)
	compliance_scores.append(schema["compliance_score"])
	else:
	schema = {"compliance_score": 0.0, "present_keys": [], "missing_keys": []}

	# Semantic similarity
	semantic_sim = None
	if use_embedding and is_valid:
	ref_emb = embed_model.encode(reference, convert_to_tensor=True)
	gen_emb = embed_model.encode(generated, convert_to_tensor=True)
	semantic_sim = float(torch.cosine_similarity(ref_emb, gen_emb, dim=0))

	result = {
	"id": sample.get("id", i),
	"target_layer": target_layer,
	"slice_type": sample.get("slice_type", "unknown"),
	"intent": next((m["content"] for m in messages if m.get("role") == "user"), ""),
	"generated": generated,
	"reference": reference,
	"json_valid": is_valid,
	"schema_compliance": schema,
	"semantic_similarity": semantic_sim,
	}
	results.append(result)

	# Per-layer stats
	if target_layer not in layer_stats:
	layer_stats[target_layer] = {"total": 0, "valid": 0, "compliance": []}
	layer_stats[target_layer]["total"] += 1
	if is_valid:
	layer_stats[target_layer]["valid"] += 1
	layer_stats[target_layer]["compliance"].append(schema["compliance_score"])

	if (i + 1) % 10 == 0:
	print(f" Processed {i + 1}/{len(ds)} samples")

	# Compute summary statistics
	total = len(results)
	summary = {
	"total_samples": total,
	"json_valid_rate": valid_count / total,
	"avg_schema_compliance": float(np.mean(compliance_scores)) if compliance_scores else 0.0,
	"semantic_similarity_avg": float(np.mean([r["semantic_similarity"] for r in results if r["semantic_similarity"] is not None])) if any(r["semantic_similarity"] is not None for r in results) else None,
	"per_layer": {},
	}

	for layer, stats in layer_stats.items():
	summary["per_layer"][layer] = {
	"total": stats["total"],
	"valid_rate": stats["valid"] / stats["total"],
	"avg_compliance": float(np.mean(stats["compliance"])) if stats["compliance"] else 0.0,
	}

	# Save results
	output_data = {"summary": summary, "results": results}
	with open(args.output, "w") as f:
	json.dump(output_data, f, indent=2)

	# Print summary
	print(f"\n{'=' * 60}")
	print("BENCHMARK RESULTS")
	print(f"{'=' * 60}")
	print(f"Total samples: {summary['total_samples']}")
	print(f"JSON valid rate: {summary['json_valid_rate']:.1%}")
	print(f"Schema compliance: {summary['avg_schema_compliance']:.1%}")
	if summary["semantic_similarity_avg"] is not None:
	print(f"Semantic similarity: {summary['semantic_similarity_avg']:.3f}")
	print(f"\nPer-layer breakdown:")
	for layer, s in summary["per_layer"].items():
	print(f" {layer:20s} valid={s['valid_rate']:.1%} compliance={s['avg_compliance']:.1%}")
	print(f"\nDetailed results saved to: {args.output}")


	if __name__ == "__main__":
	main()