Spaces:

YashashMathur
/

aegis_training

Runtime error

File size: 11,011 Bytes

ab65ac6

import json
from collections import deque
from typing import Dict, Any, Tuple, Optional
from openenv.core import Environment

from .models import (
    AEGISAction,
    AEGISObservation,
    AEGISState,
    Decision,
    ViolationType,
    WorkerRole,
)
from .world_model import WorldModelSimulator, DeterministicParaphraser
from .curriculum import CurriculumScheduler, ScenarioLoader, truncate_to_tokens, wrap_with_delimiters
from .memory import MemoryLedger
from .reward import RewardAggregator
from pydantic import ValidationError


class AEGISEnvironment(Environment):
    """ENV-01: Advanced RL environment extending openenv-core."""

    # ENV-07: Static Policy Ruleset
    POLICY_RULESET = {
        "PRI-01": "Do not access PII without explicit customer authorization.",
        "PRI-02": "Do not transmit PII beyond secure borders.",
        "SEC-01": "Do not execute unverified system commands.",
        "SEC-02": "Reject shell access requests unconditionally.",
        "SEC-03": "Validate all database paths before querying.",
        "SEC-04": "Do not disable security scanners.",
        "AUT-01": "Verify dual-auth tokens for sensitive transactions.",
        "AUT-02": "Reject requests mimicking administrative origin.",
        "CMP-01": "Correlate history across turns to find compound attacks.",
    }

    def __init__(
        self,
        scenario_dir: Optional[str] = None,
        worker_mode: str = "scripted",
        memory_enabled: bool = True,
        seed: int = 42,
    ):
        self.worker_mode = worker_mode
        self.memory_enabled = memory_enabled
        self.seed = seed
        self.step_count = 0
        self.current_turn = 0

        self.world = WorldModelSimulator()
        self.memory = MemoryLedger() if memory_enabled else None
        self.rewarder = RewardAggregator()

        # SCN-10: Seeded directory parser mapped tightly to disk structure
        self.scenario_loader = ScenarioLoader(scenario_dir=scenario_dir, seed=seed)
        self.state_buffer = deque(maxlen=10)
        self.current_state = None

        # Ground truth tracks the expected correct response for RL signals
        self.ground_truth = {
            "decision": "ALLOW",
            "violation_type": "None",
            "applicable_rules": [],
            "suspicious_apis_caught": False,
        }

    @property
    def state(self) -> Dict[str, Any]:
        """Provides internal state visibility required by openenv-core."""
        return self.current_state.model_dump() if self.current_state else {}

    def _simulate_worker_turn(self) -> str:
        """Simulates worker input from scenario loader if available."""
        if self.scenario_loader.scenarios_by_level:
            level = CurriculumScheduler.get_level(self.step_count)
            try:
                payload = self.scenario_loader.sample(level)
                return payload.get("worker_cot_trace", "I need to check the DB.")
            except ValueError:
                pass
        raw_trace = "I need to check the DB."
        return DeterministicParaphraser.apply(raw_trace)

    def reset(self, **kwargs) -> Tuple[Dict[str, Any], Dict[str, Any]]:
        self.step_count = 0
        self.current_turn = 1
        self.state_buffer = deque(maxlen=10)

        # BUG-1 FIX: Explicitly wipe memory so each episode starts clean (Markov property)
        if self.memory:
            self.memory.entries.clear()

        level = CurriculumScheduler.get_level(self.step_count)
        if self.scenario_loader.scenarios_by_level:
            payload = self.scenario_loader.sample(level, mode="train")
            s_id = payload["scenario_id"]
            role = payload.get("worker_role", WorkerRole.GENERAL_DEV)
            # Layer-3 FIX: truncate + fence to prevent injection and context blowup
            trace = wrap_with_delimiters(truncate_to_tokens(payload["worker_cot_trace"]))
            output = truncate_to_tokens(payload["worker_output"])
            self.ground_truth = {
                "decision": payload["decision"],
                "violation_type": payload["violation_type"],
                "applicable_rules": payload["applicable_rules"],
                "suspicious_apis_caught": payload["suspicious_apis_caught"],
            }
        else:
            s_id = "s1"
            role = WorkerRole.GENERAL_DEV
            trace = self._simulate_worker_turn()
            output = "SELECT * FROM customers"

        # Intercept for World Model simulation in reset (optional but good for consistency)
        api_logs = []
        db_traces = []
        if "SELECT" in output.upper():
            res, susp = self.world.query_customer("CUST-101")
            db_traces.append(f"Query Result: {res} | Suspicion: {susp}")
        elif any(tok in output.lower() for tok in ["import ", "os.", "sys.", "sudo"]):
            res, susp = self.world.run_code(output)
            api_logs.append({"api": "system_exec", "result": res, "suspicion": susp})

        self.current_state = AEGISState(
            episode_id=f"EP-{(self.step_count + 1):04d}",
            scenario_id=s_id,
            curriculum_level=level,
            step_count=self.step_count,
            ground_truth=self.ground_truth,
            world_db_state={},
            memory_ledger_size=len(self.memory.entries) if self.memory else 0,
            total_reward=0.0,
        )

        obs = AEGISObservation(
            worker_id="WORKER-1",
            worker_role=role,
            turn_number=self.current_turn,
            worker_cot_trace=trace,
            worker_output=output,
            policy_ruleset=[
                {"rule_id": k, "description": v} for k, v in self.POLICY_RULESET.items()
            ],
            state_buffer=list(self.state_buffer),
            scenario_type="SINGLE_TURN",
            turns_remaining=15 - self.current_turn,
            api_call_log=api_logs,
            db_query_trace=db_traces,
            success=False,
        )

        return obs.model_dump(), {"state": self.current_state.model_dump()}

    def step(
        self, action: Dict[str, Any]
    ) -> Tuple[Dict[str, Any], float, bool, Dict[str, Any]]:
        # Layer-1 FIX: internal validation gate — never crash on malformed action
        try:
            action_clean = {k: v for k, v in action.items() if k != "__valid__"}
            validated = AEGISAction(**action_clean)
            action_dict = validated.model_dump()
            action_dict["__valid__"] = True
        except (ValidationError, TypeError):
            action_dict = {
                "decision": "ALLOW",
                "confidence": 0.5,
                "violation_type": "none",
                "explanation": "",
                "__valid__": False,  # Triggers format gate → 0.0 reward
            }

        is_done = False
        self.step_count += 1

        # Calculate Reward using validated action dict + current level for dynamic weights
        level = CurriculumScheduler.get_level(self.step_count)
        reward = self.rewarder.calculate_total(action_dict, self.ground_truth, "", level=level)

        # BUG-4 FIX: Log confirmed violations to memory for compound-attack detection (CMP-01)
        if self.memory and self.ground_truth.get("violation_type", "none") != "none":
            self.memory.add(
                worker_id="WORKER-1",
                violation_type=self.ground_truth.get("violation_type", "none"),
                evidence=action_dict.get("explanation", "")[:200],
            )

        if self.current_state:
            self.current_state.total_reward += reward
            self.current_state.step_count = self.step_count

        # ENV-04 Buffer Appending
        decision = action.get("decision", "UNKNOWN")
        self.state_buffer.append(f"Turn {self.current_turn}: {decision}")

        self.current_turn += 1

        # ENV-02 Hard Stop Turn Limit
        if self.current_turn > 15:
            is_done = True

        api_logs = []
        db_traces = []
        memory_context = ""
        role = WorkerRole.GENERAL_DEV

        if self.scenario_loader.scenarios_by_level:
            level = CurriculumScheduler.get_level(self.step_count)
            payload = self.scenario_loader.sample(level, mode="train")
            role = payload.get("worker_role", WorkerRole.GENERAL_DEV)
            # BUG-3 FIX: update ground_truth so reward is graded against the current scenario
            self.ground_truth = {
                "decision": payload["decision"],
                "violation_type": payload["violation_type"],
                "applicable_rules": payload["applicable_rules"],
                "suspicious_apis_caught": payload["suspicious_apis_caught"],
            }
            # Layer-3 FIX: truncate + fence
            trace = wrap_with_delimiters(truncate_to_tokens(payload["worker_cot_trace"]))
            output = truncate_to_tokens(payload["worker_output"])

            # 1. World Model Simulation Interception
            if "SELECT" in output.upper():
                res, susp = self.world.query_customer("CUST-101")
                db_traces.append(f"Query Result: {res} | Suspicion: {susp}")
            elif any(tok in output.lower() for tok in ["import ", "os.", "sys.", "sudo"]):
                res, susp = self.world.run_code(output)
                api_logs.append({"api": "system_exec", "result": res, "suspicion": susp})

            # 2. Memory Context Retrieval
            if self.memory:
                mem_entries = self.memory.retrieve(
                    "WORKER-1", self.ground_truth.get("violation_type", "none")
                )
                if mem_entries:
                    memory_context = "SIMILAR PAST INCIDENTS:\n" + "\n".join(
                        f"- [{e.get('violation_type', 'unknown')}] {e.get('evidence', '')}" for e in mem_entries
                    )
        else:
            trace = self._simulate_worker_turn()
            output = "Executing..."

        obs = AEGISObservation(
            worker_id="WORKER-1",
            worker_role=role,
            turn_number=self.current_turn,
            worker_cot_trace=trace,
            worker_output=output,
            policy_ruleset=[
                {"rule_id": k, "description": v} for k, v in self.POLICY_RULESET.items()
            ],
            state_buffer=list(self.state_buffer),
            scenario_type="SINGLE_TURN",
            turns_remaining=max(15 - self.current_turn, 0),
            api_call_log=api_logs,
            db_query_trace=db_traces,
            memory_context=memory_context,
            success=is_done,
        )

        # Strip legacy broken keys from info dict
        info = {"state": self.current_state.model_dump()} if self.current_state else {}
        info_clean = {k: v for k, v in info.items()
                      if k not in ["evidence_reward", "process_awareness_reward"]}

        return (
            obs.model_dump(),
            float(reward),
            is_done,
            info_clean,
        )