Spaces:

alezsd
/

NSF-RAG-Codex

Sleeping

App Files Files Community

NSF-RAG-Codex / evaluator.py

alezsd

NSF RAG v1.0

9abe007 about 1 month ago

raw

history blame contribute delete

6.55 kB

	"""
	evaluator.py
	────────────
	Métricas de calidad para las correcciones del sistema RAG.

	- CER (Character Error Rate) : nivel de carácter
	- WER (Word Error Rate) : nivel de palabra
	- Modernism score : penalización por formas modernas introducidas
	- Batch evaluation : evalúa el sistema sobre un conjunto de pares con GT

	Uso:
	from evaluator import Evaluator
	ev = Evaluator()
	metrics = ev.evaluate_pair(htr="...", corrected="...", gt="...")
	report = ev.batch_evaluate(corrector, pairs[:50])
	"""

	import re
	from typing import List, Dict, Tuple
	from knowledge_base import GRAFIA_PATTERNS


	class Evaluator:

	# ── Métricas de edición ──────────────────────────────────────────────────

	@staticmethod
	def cer(reference: str, hypothesis: str) -> float:
	"""Character Error Rate (Levenshtein a nivel carácter)."""
	r, h = list(reference), list(hypothesis)
	return Evaluator._levenshtein(r, h) / max(len(r), 1)

	@staticmethod
	def wer(reference: str, hypothesis: str) -> float:
	"""Word Error Rate (Levenshtein a nivel palabra)."""
	r = reference.split()
	h = hypothesis.split()
	return Evaluator._levenshtein(r, h) / max(len(r), 1)

	@staticmethod
	def _levenshtein(seq1: list, seq2: list) -> int:
	m, n = len(seq1), len(seq2)
	dp = list(range(n + 1))
	for i in range(1, m + 1):
	prev = dp[:]
	dp[0] = i
	for j in range(1, n + 1):
	if seq1[i - 1] == seq2[j - 1]:
	dp[j] = prev[j - 1]
	else:
	dp[j] = 1 + min(prev[j], dp[j - 1], prev[j - 1])
	return dp[n]

	# ── Detector de modernismos ──────────────────────────────────────────────

	@staticmethod
	def modernism_penalty(original_htr: str, corrected: str) -> Dict:
	"""
	Detecta formas modernas introducidas por el LLM que no estaban
	en el HTR original. Retorna lista de problemas detectados.
	"""
	issues = []
	orig_lower = original_htr.lower()
	corr_lower = corrected.lower()

	for p in GRAFIA_PATTERNS:
	modern = p["modern"].lower()
	ancient_forms = [f.strip().lower() for f in p["ancient"].split("/")]

	# Si el corrected contiene la forma moderna Y el original no la tenía
	if modern in corr_lower and modern not in orig_lower:
	# Verificar que tampoco era una forma antigua válida
	if not any(af in orig_lower for af in ancient_forms):
	issues.append({
	"modern": p["modern"],
	"ancient": p["ancient"],
	"rule": p["rule"],
	})

	return {
	"count": len(issues),
	"issues": issues,
	"score": max(0.0, 1.0 - len(issues) * 0.1), # 0.0–1.0
	}

	# ── Evaluación de un par ─────────────────────────────────────────────────

	def evaluate_pair(
	self, htr: str, corrected: str, gt: str
	) -> Dict:
	"""
	Evalúa una sola corrección comparando con el groundtruth.
	"""
	cer_htr = self.cer(gt, htr) # CER antes de corregir
	cer_corr = self.cer(gt, corrected) # CER después de corregir
	wer_htr = self.wer(gt, htr)
	wer_corr = self.wer(gt, corrected)

	modernism = self.modernism_penalty(htr, corrected)

	return {
	"cer_before": round(cer_htr, 4),
	"cer_after": round(cer_corr, 4),
	"cer_improvement": round(cer_htr - cer_corr, 4),
	"wer_before": round(wer_htr, 4),
	"wer_after": round(wer_corr, 4),
	"wer_improvement": round(wer_htr - wer_corr, 4),
	"modernism": modernism,
	}

	# ── Evaluación en batch ──────────────────────────────────────────────────

	def batch_evaluate(
	self, corrector, pairs: List[Dict], verbose: bool = True
	) -> Dict:
	"""
	Evalúa el sistema sobre una lista de pares con groundtruth.
	Retorna métricas agregadas + detalle por par.
	"""
	results = []
	for i, pair in enumerate(pairs):
	if verbose:
	print(f" Evaluando {i+1}/{len(pairs)}: {pair['id']}")
	try:
	out = corrector.correct(pair["htr"])
	metrics = self.evaluate_pair(
	htr=pair["htr"],
	corrected=out["corrected"],
	gt=pair["gt"],
	)
	metrics["id"] = pair["id"]
	metrics["htr"] = pair["htr"]
	metrics["corrected"] = out["corrected"]
	metrics["gt"] = pair["gt"]
	results.append(metrics)
	except Exception as e:
	print(f" ❌ Error en {pair['id']}: {e}")

	if not results:
	return {"error": "Sin resultados"}

	avg = lambda key: round(sum(r[key] for r in results) / len(results), 4)

	summary = {
	"n_evaluated": len(results),
	"avg_cer_before": avg("cer_before"),
	"avg_cer_after": avg("cer_after"),
	"avg_cer_improvement": avg("cer_improvement"),
	"avg_wer_before": avg("wer_before"),
	"avg_wer_after": avg("wer_after"),
	"avg_wer_improvement": avg("wer_improvement"),
	"avg_modernism_score": avg("modernism"), # via nested
	"detail": results,
	}

	if verbose:
	print(f"\n📊 RESUMEN EVALUACIÓN ({len(results)} pares)")
	print(f" CER: {summary['avg_cer_before']:.2%} → {summary['avg_cer_after']:.2%} "
	f"(mejora: {summary['avg_cer_improvement']:+.2%})")
	print(f" WER: {summary['avg_wer_before']:.2%} → {summary['avg_wer_after']:.2%} "
	f"(mejora: {summary['avg_wer_improvement']:+.2%})")

	return summary