Spaces:

rishi38
/

Emergency_service_environment_2

Sleeping

App Files Files Community

Emergency_service_environment_2 / server /environment.py

rishi38

Upload folder using huggingface_hub

6f17311 verified 15 days ago

raw

history blame contribute delete

17.7 kB

	import random
	import uuid
	import time
	from typing import Dict, List, Optional, Any
	import copy

	from models import (
	EmergencyAction,
	EmergencyObservation,
	EmergencyReward,
	EmergencyState,
	StepResult,
	)
	from city_graph import CityGraph
	from call_generator import CallGenerator
	from reward import RewardCalculator
	from config import REWARD, TASKS, CITY

	# Map event types to the resource they need
	EVENT_TYPE_TO_RESOURCE = {
	"Building Fire": "fire_truck",
	"Car Accident": "ambulance",
	"Medical Emergency": "ambulance",
	"Gas Leak": "fire_truck",
	"Violent Incident": "police",
	"Noise Complaint": "police",
	}

	VEHICLE_TYPE_MAP = {
	"AMB": "ambulance",
	"FIRE": "fire_truck",
	"POL": "police",
	}


	class EmergencyDispatchEnvironment:
	"""
	Smart City Emergency Dispatch Environment — OpenEnv compliant.
	- Config-driven multi-component rewards
	- Task-based curriculum (easy → medium → hard)
	- Anti-hacking protections
	"""

	def __init__(self, seed: int = 42):
	self.episode_id: Optional[str] = None
	self.task_id: int = 1
	self.task_cfg: dict = TASKS[1]
	self.seed = seed
	self.rng = random.Random(seed)

	self.graph = None
	self.reward_calc = RewardCalculator()
	self.call_gen = CallGenerator(seed=seed)

	# Episode state
	self.event_queue: List[dict] = []
	self.resources: List[dict] = []
	self.calls: List[dict] = []
	self.call_index = 0
	self.current_call: Optional[dict] = None
	self.step_count = 0
	self.done = True
	self.cumulative_reward = 0.0
	self.cases_resolved = 0
	self.critical_failures = 0

	# Bookkeeping
	self._ground_truth: Dict[str, dict] = {}
	self._dispatched_events: Dict[str, list] = {}
	self._classified_calls: set = set()
	self._step_start_time = 0.0

	# ──────────────────────────────────────────────────────────────
	# PUBLIC API
	# ──────────────────────────────────────────────────────────────

	def reset(self, task_id: int = 1, seed: Optional[int] = None) -> EmergencyObservation:
	"""Start a new episode with task-specific curriculum."""
	if task_id not in TASKS:
	raise ValueError(f"task_id must be 1, 2, or 3 — got {task_id}")

	self.episode_id = str(uuid.uuid4())
	self.task_id = task_id
	self.task_cfg = TASKS[task_id]
	if seed is not None:
	self.seed = seed

	self.rng = random.Random(self.seed)

	# Build city and task-specific vehicles
	self.graph = CityGraph(seed=self.seed)
	self._init_vehicles()

	# Generate task-specific calls
	self.calls = self.call_gen.generate_episode_calls(
	nodes=self.graph.nodes,
	num_events=self.task_cfg["unique_events"],
	num_calls=self.task_cfg["calls_per_episode"],
	)
	self.call_index = 0

	# Reset state
	self.event_queue = []
	self.step_count = 0
	self.done = False
	self.cumulative_reward = 0.0
	self.cases_resolved = 0
	self.critical_failures = 0
	self._ground_truth = {}
	self._dispatched_events = {}
	self._classified_calls = set()
	self.reward_calc.reset()

	# Load first call
	self._advance_call()

	return self._make_observation(reward=0.0)

	def step(self, action: EmergencyAction) -> StepResult:
	"""Execute one step in the environment."""
	if self.done:
	raise ValueError("Episode is done. Call reset().")

	self._step_start_time = time.time()
	self.step_count += 1

	# 1. Execute the action
	self._execute_action(action)

	# 2. Advance simulation
	self._tick_vehicles()
	self._check_resolutions()
	self._advance_call()
	self._tick_waiting_steps()

	# 3. Check termination BEFORE reward calc so penalties are included
	self._check_termination()

	# 4. Calculate rewards (multi-component)
	reward_breakdown = self.reward_calc.calculate_step_reward()
	step_reward = reward_breakdown["total"]
	self.cumulative_reward += step_reward

	obs = self._make_observation(reward=step_reward)

	return StepResult(
	observation=obs,
	reward=step_reward,
	done=self.done,
	info={
	"reward_breakdown": reward_breakdown,
	"cases_resolved": self.cases_resolved,
	"critical_failures": self.critical_failures,
	"events_active": len([e for e in self.event_queue if e["status"] != "resolved"]),
	"step_latency_ms": round((time.time() - self._step_start_time) * 1000, 2),
	}
	)

	def state(self) -> EmergencyState:
	"""Return current metadata."""
	return EmergencyState(
	episode_id=self.episode_id or "",
	task_id=self.task_id,
	step_count=self.step_count,
	cumulative_reward=round(self.cumulative_reward, 4),
	done=self.done
	)

	# ──────────────────────────────────────────────────────────────
	# PRIVATE HELPERS
	# ──────────────────────────────────────────────────────────────

	def _init_vehicles(self):
	"""Initialize vehicles based on task-specific config."""
	self.resources = []
	stations = ["STATION_1", "STATION_2", "STATION_3"]
	counts = {
	"AMB": self.task_cfg["ambulances"],
	"FIRE": self.task_cfg["fire_trucks"],
	"POL": self.task_cfg["police"],
	}

	for prefix, count in counts.items():
	v_type = VEHICLE_TYPE_MAP[prefix]
	for i in range(count):
	self.resources.append({
	"vehicle_id": f"{prefix}-{i+1:02d}",
	"type": v_type,
	"status": "available",
	"current_location": stations[i % len(stations)],
	"destination": None,
	"destination_event": None,
	"path": [],
	"steps_to_arrival": 0,
	})

	def _execute_action(self, action: EmergencyAction):
	cmd = action.command

	# Anti-hacking: reject if step time exceeded
	if time.time() - self._step_start_time > 1.0:
	self.reward_calc.record_signal("penalties", REWARD["TIME_EXCEEDED"])
	return

	if cmd == "CLASSIFY":
	self._handle_classify(action.event_id, action.severity)
	elif cmd == "MERGE":
	self._handle_merge(action.call_id or action.event_id, action.into_event_id)
	elif cmd == "ESCALATE":
	self._handle_escalate(action.event_id, action.severity)
	elif cmd == "DISCARD":
	self._handle_discard(action.call_id)
	elif cmd == "DISPATCH":
	self._handle_dispatch(action.vehicle_id, action.event_id)
	elif cmd == "REROUTE":
	self._handle_reroute(action.vehicle_id, action.event_id)
	elif cmd == "HOLD":
	self._handle_hold(action.event_id)
	elif cmd == "RECALL":
	self._handle_recall(action.vehicle_id)
	elif cmd == "WAIT":
	self.reward_calc.record_signal("efficiency", REWARD["WAIT_PENALTY"])
	else:
	self.reward_calc.record_signal("penalties", REWARD["INVALID_ACTION"])

	def _make_observation(self, reward: float) -> EmergencyObservation:
	return EmergencyObservation(
	current_call_id=self.current_call["call_id"] if self.current_call else None,
	transcript=self.current_call["transcript"] if self.current_call else None,
	active_events=copy.deepcopy(self.event_queue),
	resources=copy.deepcopy(self.resources),
	step=self.step_count,
	calls_remaining=len(self.calls) - self.call_index,
	cases_resolved=self.cases_resolved,
	reward=reward,
	cumulative_reward=round(self.cumulative_reward, 4),
	done=self.done
	)

	# ── Action Handlers (all use config REWARD values) ──

	def _handle_classify(self, event_id, severity):
	if not self.current_call or not severity:
	self.reward_calc.record_signal("penalties", REWARD["INVALID_ACTION"])
	return

	call = self.current_call
	gt_event = call["ground_truth_event"]
	gt_severity = call["ground_truth_severity"]

	if event_id and event_id not in {call["call_id"], gt_event}:
	self.reward_calc.record_signal("penalties", REWARD["INVALID_ACTION"])
	return

	resource_needed = EVENT_TYPE_TO_RESOURCE.get(call.get("ground_truth_type", ""), "ambulance")

	# Create or update event
	existing = [e for e in self.event_queue if e["event_id"] == gt_event]
	if not existing:
	self.event_queue.append({
	"event_id": gt_event,
	"severity": severity,
	"location": call["ground_truth_node"],
	"resource_needed": resource_needed,
	"steps_waiting": 0,
	"status": "unserved",
	})
	self._ground_truth[gt_event] = {
	"severity": gt_severity,
	"node": call["ground_truth_node"],
	}

	# Scoring — config-driven
	if severity == gt_severity:
	self.reward_calc.record_signal("triage", REWARD["CORRECT_CLASSIFY"])
	elif self._severity_rank(severity) < self._severity_rank(gt_severity):
	self.reward_calc.record_signal("triage", REWARD["MISCLASSIFY_DOWN"])
	else:
	self.reward_calc.record_signal("triage", REWARD["MISCLASSIFY_UP"])

	self._classified_calls.add(call["call_id"])
	self.current_call = None

	def _handle_dispatch(self, vehicle_id, event_id):
	vehicle = self._find_vehicle(vehicle_id)
	event = self._find_event(event_id)

	if not vehicle or not event or event["status"] == "resolved" or vehicle["status"] != "available":
	self.reward_calc.record_signal("penalties", REWARD["INVALID_ACTION"])
	return

	# Double dispatch penalty
	if event_id in self._dispatched_events and len(self._dispatched_events[event_id]) > 0:
	self.reward_calc.record_signal("penalties", REWARD["DOUBLE_DISPATCH"])
	return

	# Vehicle type match
	v_prefix = vehicle_id.split("-")[0]
	v_type = VEHICLE_TYPE_MAP.get(v_prefix, "")
	if v_type != event["resource_needed"]:
	self.reward_calc.record_signal("dispatch", REWARD["WRONG_VEHICLE"])
	else:
	self.reward_calc.record_signal("dispatch", REWARD["CORRECT_DISPATCH"])

	# Route vehicle
	path = self.graph.shortest_path(vehicle["current_location"], event["location"])
	if path:
	dist_penalty = (len(path) - 1) * REWARD["DISTANCE_PER_HOP"]
	self.reward_calc.record_signal("efficiency", dist_penalty)

	vehicle["status"] = "en_route"
	vehicle["destination"] = event["location"]
	vehicle["destination_event"] = event_id
	vehicle["path"] = path[1:]
	vehicle["steps_to_arrival"] = len(path) - 1
	if not vehicle["path"]:
	vehicle["status"] = "on_scene"
	vehicle["current_location"] = vehicle["destination"]
	self._dispatched_events.setdefault(event_id, []).append(vehicle_id)
	else:
	self.reward_calc.record_signal("penalties", REWARD["INVALID_ACTION"])

	def _handle_merge(self, call_id, into_event_id):
	if not self.current_call:
	return
	if into_event_id == self.current_call["ground_truth_event"]:
	self.reward_calc.record_signal("triage", REWARD["CORRECT_MERGE"])
	else:
	self.reward_calc.record_signal("triage", REWARD["FALSE_MERGE"])
	self.current_call = None

	def _handle_discard(self, call_id):
	if self.current_call:
	gt_sev = self.current_call.get("ground_truth_severity", "")
	if gt_sev in {"CRITICAL", "SEMI_CRITICAL", "NORMAL"}:
	self.reward_calc.record_signal("penalties", REWARD["DISCARD_REAL"])
	self.current_call = None

	def _handle_escalate(self, event_id, new_severity):
	event = self._find_event(event_id)
	if event and new_severity:
	event["severity"] = new_severity
	self.reward_calc.add_waiting_event(event_id, new_severity)
	self.reward_calc.record_signal("triage", REWARD["ESCALATE_BONUS"])

	def _handle_reroute(self, vehicle_id, new_event_id):
	self._handle_recall(vehicle_id)
	self._handle_dispatch(vehicle_id, new_event_id)
	self.reward_calc.record_signal("efficiency", REWARD["REROUTE_PENALTY"])

	def _handle_hold(self, event_id):
	event = self._find_event(event_id)
	if event:
	if event["severity"] == "CRITICAL":
	self.reward_calc.record_signal("penalties", REWARD["HOLD_CRITICAL"])
	else:
	self.reward_calc.record_signal("efficiency", REWARD["HOLD_NORMAL"])

	def _handle_recall(self, vehicle_id):
	vehicle = self._find_vehicle(vehicle_id)
	if vehicle and vehicle["status"] in ("en_route", "on_scene"):
	old_event = vehicle.get("destination_event")
	if old_event in self._dispatched_events:
	if vehicle_id in self._dispatched_events[old_event]:
	self._dispatched_events[old_event].remove(vehicle_id)
	vehicle["status"] = "available"
	vehicle["destination"] = None
	vehicle["destination_event"] = None
	vehicle["path"] = []
	vehicle["steps_to_arrival"] = 0
	self.reward_calc.record_signal("efficiency", REWARD["RECALL_PENALTY"])

	# ── Simulation Ticks ──

	def _tick_vehicles(self):
	for v in self.resources:
	if v["status"] == "en_route" and v["path"]:
	v["current_location"] = v["path"].pop(0)
	v["steps_to_arrival"] = len(v["path"])
	if not v["path"]:
	v["status"] = "on_scene"
	v["current_location"] = v["destination"]

	def _check_resolutions(self):
	for event in self.event_queue:
	if event["status"] == "resolved":
	continue
	eid = event["event_id"]
	for v in self.resources:
	if v["status"] == "on_scene" and v["destination_event"] == eid:
	if v["type"] == event["resource_needed"]:
	event["status"] = "resolved"
	self.cases_resolved += 1
	self.reward_calc.remove_waiting_event(eid)
	v["status"] = "available"
	v["destination"] = None
	v["destination_event"] = None
	# Resolution reward from config
	bonus = {
	"CRITICAL": REWARD["CRITICAL_RESOLVED"],
	"SEMI_CRITICAL": REWARD["SEMI_RESOLVED"],
	"NORMAL": REWARD["NORMAL_RESOLVED"],
	}.get(event["severity"], 0.0)
	self.reward_calc.record_signal("triage", bonus)
	break

	def _advance_call(self):
	if self.current_call is None and self.call_index < len(self.calls):
	self.current_call = self.calls[self.call_index]
	self.call_index += 1

	def _tick_waiting_steps(self):
	for event in self.event_queue:
	if event["status"] != "resolved":
	event["steps_waiting"] += 1

	def _check_termination(self):
	"""Check termination — uses task-specific critical timeout."""
	timeout = self.task_cfg["critical_failure_wait"]
	max_steps = self.task_cfg["max_steps"]

	for event in self.event_queue:
	if event["severity"] == "CRITICAL" and event["steps_waiting"] > timeout:
	self.done = True
	self.critical_failures += 1
	self.reward_calc.record_signal("penalties", REWARD["CRITICAL_FAILURE"])

	if self.step_count >= max_steps:
	self.done = True

	if (self.call_index >= len(self.calls)
	and self.current_call is None
	and all(e["status"] == "resolved" for e in self.event_queue)):
	self.done = True

	# ── Lookups ──

	def _find_event(self, eid):
	for e in self.event_queue:
	if e["event_id"] == eid:
	return e
	return None

	def _find_vehicle(self, vid):
	for v in self.resources:
	if v["vehicle_id"] == vid:
	return v
	return None

	@staticmethod
	def _severity_rank(severity: str) -> int:
	return {"CRITICAL": 3, "SEMI_CRITICAL": 2, "NORMAL": 1}.get(severity, 0)