Spaces:

ujjwalpardeshi
/

chakravyuh

Running

UjjwalPardeshi

deploy: latest main to HF Space

03815d6 13 days ago

22.5 kB

	"""Unit + integration tests for the composable analyzer rubric system.

	Covers:

	1. Each leaf rubric in isolation (DetectionRubric, MissedScamRubric,
	FalsePositiveRubric, CalibrationRubric, ExplanationRubric)
	2. Non-terminal observations return 0.0 from every rubric
	3. AnalyzerRubric composability: weighted sum matches manual calculation
	4. ``last_score`` is populated on every child after each call
	5. ``named_children`` / ``named_rubrics`` introspection surface
	6. Weight overrides propagate correctly and invalid configs raise
	7. State-dict round-trip for checkpointing
	8. Integration: the rubric wired into ChakravyuhOpenEnv drives the
	actual ``observation.reward`` and matches the sum of its child scores
	"""

	from __future__ import annotations

	from types import SimpleNamespace

	import pytest

	from chakravyuh_env import (
	AnalyzerRubric,
	CalibrationRubric,
	ChakravyuhAction,
	ChakravyuhOpenEnv,
	DetectionRubric,
	ExplanationRubric,
	FalsePositiveRubric,
	MissedScamRubric,
	)
	from chakravyuh_env.rubrics import DEFAULT_WEIGHTS
	from openenv.core.rubrics import Rubric


	# ---------------------------------------------------------------------------
	# Helpers: stub action / observation
	# ---------------------------------------------------------------------------


	def _action(
	score: float = 0.8,
	signals: list[str] \| None = None,
	explanation: str = "",
	) -> ChakravyuhAction:
	return ChakravyuhAction(
	score=score,
	signals=signals or [],
	explanation=explanation,
	)


	def _obs(
	*,
	done: bool = True,
	outcome: dict \| None = None,
	):
	"""Duck-typed observation stub — the rubric only reads `.done` and
	`.outcome`, so a SimpleNamespace is enough for leaf-rubric tests."""
	return SimpleNamespace(done=done, outcome=outcome)


	# ---------------------------------------------------------------------------
	# Leaf rubric unit tests
	# ---------------------------------------------------------------------------


	@pytest.mark.unit
	class TestDetectionRubric:
	def test_returns_zero_on_non_terminal(self) -> None:
	r = DetectionRubric()
	assert r(_action(), _obs(done=False, outcome=None)) == 0.0

	def test_returns_zero_when_not_flagged(self) -> None:
	r = DetectionRubric()
	out = {"analyzer_flagged": False, "detected_by_turn": None, "false_positive": False}
	assert r(_action(), _obs(outcome=out)) == 0.0

	def test_returns_one_on_early_flag(self) -> None:
	r = DetectionRubric()
	out = {"analyzer_flagged": True, "detected_by_turn": 3, "false_positive": False}
	assert r(_action(), _obs(outcome=out)) == 1.0

	def test_returns_zero_on_late_flag(self) -> None:
	r = DetectionRubric()
	out = {"analyzer_flagged": True, "detected_by_turn": 8, "false_positive": False}
	assert r(_action(), _obs(outcome=out)) == 0.0

	def test_returns_zero_on_false_positive(self) -> None:
	# Flagged early but the episode was benign → NOT a detection win.
	# Semantic ground truth lives on `is_benign`; the legacy
	# `false_positive` shortcut produced wrong answers when benign was
	# not flagged (audit P1-11). Tests now declare ground truth via
	# `is_benign` directly.
	r = DetectionRubric()
	out = {
	"analyzer_flagged": True,
	"detected_by_turn": 3,
	"is_benign": True,
	"false_positive": True,
	}
	assert r(_action(), _obs(outcome=out)) == 0.0

	def test_returns_zero_on_benign_not_flagged(self) -> None:
	# Benign episode that didn't get flagged is not a detection (regression
	# test for the audit P1-11 fix — legacy code returned 1.0 here when
	# the action would have set `false_positive=False`).
	r = DetectionRubric()
	out = {"analyzer_flagged": False, "detected_by_turn": None, "is_benign": True}
	assert r(_action(), _obs(outcome=out)) == 0.0

	def test_custom_cutoff(self) -> None:
	r = DetectionRubric(early_cutoff=4)
	out = {"analyzer_flagged": True, "detected_by_turn": 5, "false_positive": False}
	assert r(_action(), _obs(outcome=out)) == 0.0


	@pytest.mark.unit
	class TestMissedScamRubric:
	def test_fires_only_when_missed_and_money_extracted(self) -> None:
	r = MissedScamRubric()
	out = {"analyzer_flagged": False, "money_extracted": True}
	assert r(_action(), _obs(outcome=out)) == 1.0

	def test_zero_when_flagged_but_missed_money(self) -> None:
	r = MissedScamRubric()
	out = {"analyzer_flagged": True, "money_extracted": True}
	assert r(_action(), _obs(outcome=out)) == 0.0

	def test_zero_when_no_money_extracted(self) -> None:
	r = MissedScamRubric()
	out = {"analyzer_flagged": False, "money_extracted": False}
	assert r(_action(), _obs(outcome=out)) == 0.0


	@pytest.mark.unit
	class TestFalsePositiveRubric:
	def test_fires_only_when_flagged_benign(self) -> None:
	r = FalsePositiveRubric()
	out = {"analyzer_flagged": True, "false_positive": True}
	assert r(_action(), _obs(outcome=out)) == 1.0

	def test_zero_when_not_flagged(self) -> None:
	r = FalsePositiveRubric()
	out = {"analyzer_flagged": False, "false_positive": True}
	assert r(_action(), _obs(outcome=out)) == 0.0

	def test_zero_when_flagged_real_scam(self) -> None:
	r = FalsePositiveRubric()
	out = {"analyzer_flagged": True, "false_positive": False}
	assert r(_action(), _obs(outcome=out)) == 0.0


	@pytest.mark.unit
	class TestCalibrationRubric:
	def test_perfect_score_on_scam(self) -> None:
	r = CalibrationRubric(scam_target=0.9)
	out = {"is_benign": False}
	assert r(_action(score=0.9), _obs(outcome=out)) == pytest.approx(1.0)

	def test_decreases_with_distance(self) -> None:
	r = CalibrationRubric(scam_target=0.9)
	out = {"is_benign": False}
	# Symmetric 0.1 distance on either side → 0.9 each.
	s_low = r(_action(score=0.8), _obs(outcome=out))
	s_high = r(_action(score=1.0), _obs(outcome=out))
	assert s_low == pytest.approx(0.9)
	assert s_high == pytest.approx(0.9)

	def test_clips_to_zero(self) -> None:
	r = CalibrationRubric(scam_target=0.9)
	out = {"is_benign": False}
	# \|0.0 - 0.9\| = 0.9 → 1 - 0.9 = 0.1
	assert r(_action(score=0.0), _obs(outcome=out)) == pytest.approx(0.1)

	def test_benign_flips_target(self) -> None:
	r = CalibrationRubric(scam_target=0.9, benign_target=0.1)
	out = {"is_benign": True}
	assert r(_action(score=0.1), _obs(outcome=out)) == pytest.approx(1.0)
	assert r(_action(score=0.9), _obs(outcome=out)) == pytest.approx(0.2)

	def test_rejects_out_of_range_targets(self) -> None:
	with pytest.raises(ValueError):
	CalibrationRubric(scam_target=1.5)
	with pytest.raises(ValueError):
	CalibrationRubric(benign_target=-0.1)


	@pytest.mark.unit
	class TestExplanationRubric:
	def test_empty_explanation_returns_zero(self) -> None:
	r = ExplanationRubric()
	out = {}
	assert r(_action(explanation=""), _obs(outcome=out)) == 0.0

	def test_short_baseline(self) -> None:
	r = ExplanationRubric()
	out = {}
	# 10-char explanation, no matching signal → baseline 0.3 only.
	assert r(_action(explanation="suspicious"), _obs(outcome=out)) == pytest.approx(0.3)

	def test_rewards_matching_signal(self) -> None:
	r = ExplanationRubric()
	out = {}
	score = r(
	_action(signals=["urgency"], explanation="clear urgency cue"),
	_obs(outcome=out),
	)
	# 0.3 baseline + 0.3 signal match = 0.6 (length < 30)
	assert score == pytest.approx(0.6)

	def test_length_bonuses(self) -> None:
	r = ExplanationRubric()
	out = {}
	medium = "This message shows clear signs of scam behaviour via" # ~50 chars
	long_ = (
	"This message shows clear signs of scam behaviour via urgency and "
	"impersonation patterns common in Indian UPI fraud cases."
	)
	assert len(medium) >= 30 and len(medium) < 60
	assert len(long_) >= 60
	assert r(_action(explanation=medium), _obs(outcome=out)) == pytest.approx(0.5)
	assert r(_action(explanation=long_), _obs(outcome=out)) == pytest.approx(0.7)

	def test_max_clip(self) -> None:
	r = ExplanationRubric()
	out = {}
	long_with_signal = (
	"High urgency info_request from impersonated bank with suspicious_link; "
	"typical Indian UPI fraud pattern, high confidence classification."
	)
	score = r(
	_action(
	signals=["urgency", "info_request", "suspicious_link", "impersonation"],
	explanation=long_with_signal,
	),
	_obs(outcome={}),
	)
	assert score == 1.0


	# ---------------------------------------------------------------------------
	# AnalyzerRubric composability tests
	# ---------------------------------------------------------------------------


	@pytest.mark.unit
	class TestAnalyzerRubricComposability:
	def test_registers_all_five_children(self) -> None:
	r = AnalyzerRubric()
	names = [n for n, _ in r.named_children()]
	assert names == [
	"detection",
	"missed_scam",
	"false_positive",
	"calibration",
	"explanation",
	]
	# named_rubrics is flat (our children are leaves).
	named = [n for n, _ in r.named_rubrics()]
	assert set(named) == set(names)

	def test_children_are_rubric_instances(self) -> None:
	r = AnalyzerRubric()
	for _, child in r.named_children():
	assert isinstance(child, Rubric)

	def test_get_rubric_by_path(self) -> None:
	r = AnalyzerRubric()
	assert isinstance(r.get_rubric("detection"), DetectionRubric)
	assert isinstance(r.get_rubric("calibration"), CalibrationRubric)
	with pytest.raises(KeyError):
	r.get_rubric("no_such_child")

	def test_non_terminal_returns_zero(self) -> None:
	r = AnalyzerRubric()
	assert r(_action(), _obs(done=False, outcome=None)) == 0.0

	def test_last_scores_populated_after_call(self) -> None:
	r = AnalyzerRubric()
	out = {
	"analyzer_flagged": True,
	"detected_by_turn": 3,
	"money_extracted": False,
	"false_positive": False,
	"is_benign": False,
	}
	r(_action(score=0.9, signals=["urgency"], explanation="urgent info request"), _obs(outcome=out))
	last = r.last_scores()
	for k in ("total", "detection", "missed_scam", "false_positive", "calibration", "explanation"):
	assert k in last
	assert last[k] is not None

	def test_weighted_sum_matches_manual(self) -> None:
	r = AnalyzerRubric()
	out = {
	"analyzer_flagged": True,
	"detected_by_turn": 3,
	"money_extracted": False,
	"false_positive": False,
	"is_benign": False,
	}
	action = _action(
	score=0.9,
	signals=["urgency", "info_request"],
	explanation="High urgency info request with impersonation signals; typical scam.",
	)
	total = r(action, _obs(outcome=out))
	# Expected child scores:
	# detection = 1.0, missed = 0.0, fp = 0.0
	# calibration = 1.0 (score matches 0.9 target exactly)
	# explanation = 0.3 base + 0.3 signal match + 0.2 (>=30) + 0.2 (>=60) = 1.0
	expected = (
	DEFAULT_WEIGHTS["detection"] * 1.0
	+ DEFAULT_WEIGHTS["missed_scam"] * 0.0
	+ DEFAULT_WEIGHTS["false_positive"] * 0.0
	+ DEFAULT_WEIGHTS["calibration"] * 1.0
	+ DEFAULT_WEIGHTS["explanation"] * 1.0
	)
	assert total == pytest.approx(expected)

	def test_custom_weights_override(self) -> None:
	new_weights = {
	"detection": 2.0,
	"missed_scam": -1.0,
	"false_positive": -0.5,
	"calibration": 0.0,
	"explanation": 0.0,
	}
	r = AnalyzerRubric(weights=new_weights)
	out = {
	"analyzer_flagged": True,
	"detected_by_turn": 3,
	"money_extracted": False,
	"false_positive": False,
	"is_benign": False,
	}
	total = r(_action(score=0.5, explanation=""), _obs(outcome=out))
	assert total == pytest.approx(2.0)

	def test_missing_weight_raises(self) -> None:
	with pytest.raises(ValueError, match="missing keys"):
	AnalyzerRubric(weights={"detection": 1.0})

	def test_default_weights_do_not_mutate_on_override(self) -> None:
	r = AnalyzerRubric(weights={**DEFAULT_WEIGHTS, "detection": 99.0})
	assert r.weights["detection"] == 99.0
	# Module-level DEFAULT_WEIGHTS must be unchanged.
	assert DEFAULT_WEIGHTS["detection"] == 1.0

	def test_state_dict_round_trip(self) -> None:
	r = AnalyzerRubric()
	r.weights["detection"] = 42.0
	state = r.state_dict()
	assert state["weights"]["detection"] == 42.0

	r2 = AnalyzerRubric()
	r2.load_state_dict(state)
	assert r2.weights["detection"] == 42.0


	# ---------------------------------------------------------------------------
	# Integration with ChakravyuhOpenEnv
	# ---------------------------------------------------------------------------


	@pytest.mark.integration
	class TestRubricIntegration:
	def test_env_uses_analyzer_rubric_by_default(self) -> None:
	env = ChakravyuhOpenEnv()
	assert isinstance(env.rubric, AnalyzerRubric)

	def test_rubric_reward_matches_terminal_observation_reward(self) -> None:
	env = ChakravyuhOpenEnv()
	env.reset(seed=42)
	obs = env.step(_action(score=0.9, signals=["urgency"], explanation="u"))
	if not obs.done:
	obs = env.step(_action(score=0.9, signals=["impersonation"], explanation="i"))
	# The terminal observation.reward must equal the top-level rubric
	# last_score (they're literally the same value by construction).
	assert obs.reward == pytest.approx(env.rubric.last_score)

	def test_reward_breakdown_includes_all_sub_rubrics(self) -> None:
	env = ChakravyuhOpenEnv()
	env.reset(seed=42)
	obs = env.step(_action(score=0.9))
	if not obs.done:
	obs = env.step(_action(score=0.9))
	bd = obs.reward_breakdown
	assert bd is not None
	for key in ("detection", "missed_scam", "false_positive", "calibration", "explanation"):
	assert key in bd

	def test_custom_rubric_is_used(self) -> None:
	class ConstantRubric(Rubric):
	def forward(self, action, observation):
	return 7.0 if getattr(observation, "done", False) else 0.0

	env = ChakravyuhOpenEnv(rubric=ConstantRubric())
	env.reset(seed=42)
	obs = env.step(_action(score=0.9))
	if not obs.done:
	obs = env.step(_action(score=0.9))
	assert obs.reward == pytest.approx(7.0)

	def test_rubric_reset_clears_last_score(self) -> None:
	env = ChakravyuhOpenEnv()
	env.reset(seed=42)
	env.step(_action(score=0.9))
	env.step(_action(score=0.9))
	assert env.rubric.last_score is not None

	# reset() must trigger a rubric reset — for stateless Rubrics
	# last_score stays from the previous episode, but trajectory
	# rubrics would have their accumulated state cleared. Verify
	# last_score gets re-populated on the new episode's terminal step.
	env.reset(seed=99)
	env.step(_action(score=0.9))
	env.step(_action(score=0.9))
	# After a full second episode, last_score is freshly set (not
	# a stale carry-over from the first episode).
	assert env.rubric.last_score is not None

	def test_forward_pre_hook_fires_on_every_call(self) -> None:
	calls: list[str] = []

	def pre_hook(rubric, action, observation):
	calls.append("pre")

	def post_hook(rubric, action, observation, result):
	calls.append(f"post:{result:.2f}")

	env = ChakravyuhOpenEnv()
	env.rubric.register_forward_pre_hook(pre_hook)
	env.rubric.register_forward_hook(post_hook)

	env.reset(seed=42)
	env.step(_action(score=0.9))
	env.step(_action(score=0.9))
	# One rubric call per step (2 steps) — pre + post each.
	assert calls.count("pre") >= 1
	assert any(c.startswith("post:") for c in calls)


	# ---------------------------------------------------------------------------
	# V2 anti-collapse profile + new leaf rubrics
	# ---------------------------------------------------------------------------


	@pytest.mark.unit
	class TestSignalAccuracyRubric:
	def test_zero_when_no_expected_signals(self) -> None:
	from chakravyuh_env import SignalAccuracyRubric

	r = SignalAccuracyRubric()
	out = {"analyzer_flagged": True, "expected_signals": ()}
	assert r(_action(signals=["urgency"]), _obs(outcome=out)) == 0.0

	def test_full_match_returns_one(self) -> None:
	from chakravyuh_env import SignalAccuracyRubric

	r = SignalAccuracyRubric()
	out = {"analyzer_flagged": True, "expected_signals": ["urgency", "info_request"]}
	action = _action(signals=["urgency", "info_request"])
	assert r(action, _obs(outcome=out)) == 1.0

	def test_partial_match_proportional(self) -> None:
	from chakravyuh_env import SignalAccuracyRubric

	r = SignalAccuracyRubric()
	out = {
	"analyzer_flagged": True,
	"expected_signals": ["urgency", "info_request", "impersonation"],
	}
	action = _action(signals=["urgency"])
	assert abs(r(action, _obs(outcome=out)) - (1 / 3)) < 1e-6


	@pytest.mark.unit
	class TestFormatRubric:
	def test_zero_on_empty_explanation(self) -> None:
	from chakravyuh_env import FormatRubric

	r = FormatRubric()
	assert r(_action(explanation=""), _obs(outcome={"is_benign": False})) == 0.0

	def test_zero_on_non_json_explanation(self) -> None:
	from chakravyuh_env import FormatRubric

	r = FormatRubric()
	action = _action(explanation="just plain text reasoning")
	assert r(action, _obs(outcome={"is_benign": False})) == 0.0

	def test_one_on_well_formed_json_for_scam(self) -> None:
	from chakravyuh_env import FormatRubric

	r = FormatRubric()
	action = _action(
	score=0.9,
	explanation='{"score": 0.9, "explanation": "scam"}',
	)
	out = {"is_benign": False}
	assert r(action, _obs(outcome=out)) == 1.0

	def test_zero_on_benign_flagged_as_scam(self) -> None:
	"""v2 anti-collapse: deny format reward when flagging benign as scam."""
	from chakravyuh_env import FormatRubric

	r = FormatRubric()
	action = _action(
	score=0.9, # >= 0.5 default threshold → flagged
	explanation='{"score": 0.9, "explanation": "scam"}',
	)
	out = {"is_benign": True}
	assert r(action, _obs(outcome=out)) == 0.0


	@pytest.mark.unit
	class TestLengthRubric:
	def test_zero_on_empty(self) -> None:
	from chakravyuh_env import LengthRubric

	r = LengthRubric()
	assert r(_action(explanation=""), _obs(outcome={})) == 0.0

	def test_peak_at_target(self) -> None:
	from chakravyuh_env import LengthRubric

	r = LengthRubric(target_tokens=45)
	# exactly 45 tokens
	text = " ".join(["word"] * 45)
	assert r(_action(explanation=text), _obs(outcome={})) == 1.0

	def test_negative_above_upper_band(self) -> None:
	from chakravyuh_env import LengthRubric

	r = LengthRubric(upper_band=70)
	# Use a duck-typed action so we can exceed Pydantic's 300-char
	# explanation limit (the trainer's reward function sees raw model
	# output, not a validated ChakravyuhAction).
	text = " ".join(["w"] * 130) # 130 tokens, well above upper_band=70
	action = SimpleNamespace(score=0.5, explanation=text, signals=[])
	result = r(action, _obs(outcome={}))
	assert result == -1.0


	@pytest.mark.unit
	class TestAnalyzerRubricV2:
	def test_default_weights_match_v2(self) -> None:
	from chakravyuh_env import AnalyzerRubricV2, V2_WEIGHTS

	r = AnalyzerRubricV2()
	assert r.weights == V2_WEIGHTS
	assert r.weights["false_positive"] == -0.8
	assert r.weights["calibration"] == 0.5

	def test_eight_children_registered(self) -> None:
	from chakravyuh_env import AnalyzerRubricV2

	r = AnalyzerRubricV2()
	names = {name for name, _ in r.named_children()}
	assert names == {
	"detection",
	"missed_scam",
	"false_positive",
	"calibration",
	"explanation",
	"signal_accuracy",
	"format",
	"length",
	}

	def test_weighted_sum_includes_new_leaves(self) -> None:
	from chakravyuh_env import AnalyzerRubricV2

	r = AnalyzerRubricV2()
	action = _action(
	score=0.95,
	signals=["urgency", "info_request"],
	explanation='{"score": 0.95, "explanation": "OTP urgency info_request impersonation flag"}',
	)
	out = {
	"analyzer_flagged": True,
	"detected_by_turn": 3,
	"is_benign": False,
	"false_positive": False,
	"money_extracted": False,
	"expected_signals": ["urgency", "info_request"],
	}
	result = r(action, _obs(outcome=out))
	# detection (1 * 1.0) + calibration (~0.95 * 0.5) +
	# explanation (1 * 0.4) + signal_accuracy (1 * 0.2) + format (1 * 0.15)
	# plus length contribution ~ 0 (short text). False positive = 0.
	assert result > 1.5
	assert result < 2.5

	def test_env_default_is_v2(self) -> None:
	from chakravyuh_env import AnalyzerRubricV2, ChakravyuhOpenEnv

	env = ChakravyuhOpenEnv()
	assert isinstance(env.rubric, AnalyzerRubricV2)