Spaces:

srikrishna2005
/

openenv

Running

sentinel-space-publisher

space: publish latest Sentinel app snapshot

c452421 13 days ago

40 kB

	# -- coding: utf-8 --
	"""FastAPI server exposing the OpenEnv API endpoints.

	Endpoints:
	POST /reset - Reset environment for a task (returns session_id)
	POST /step - Take an agent action (requires X-Session-ID header)
	GET /state - Get current environment state (requires X-Session-ID)
	GET /tasks - List available tasks with action schema
	POST /grader - Get grader score for episode (requires X-Session-ID)
	POST /baseline - Run rule-based baseline on all tasks (in-process)

	POST /sentinel/reset - Reset SENTINEL oversight environment (returns session_id)
	POST /sentinel/step - Execute SENTINEL decision (requires X-Session-ID header)
	GET /sentinel/state - Get current SENTINEL environment state (requires X-Session-ID)
	POST /sentinel/grade - Get SENTINEL grader score (requires X-Session-ID)

	GET /metrics - Telemetry counters (JSON or Prometheus text)
	GET /curriculum - Curriculum learning progression (ordered task stages)
	GET /prometheus/metrics - Live scenario service metrics (Prometheus text scrape)
	GET /prometheus/query - PromQL instant query (standard Prometheus JSON envelope)
	GET /prometheus/query_range - PromQL range query (matrix, from TSDB ring buffer)
	GET /render - Human-readable incident dashboard (requires X-Session-ID)
	GET /leaderboard - Top scores per task from completed episodes
	GET /health - Standard OpenEnv liveness probe
	GET / - Human landing page for the live demo
	GET /try - Human landing page for trying SENTINEL
	GET /info - Rich JSON service info with telemetry
	WS /ws - WebSocket persistent session (no session header needed)
	GET /web - Interactive browser-based incident dashboard
	"""

	from __future__ import annotations

	import asyncio
	import logging
	import os
	from contextlib import asynccontextmanager

	from fastapi import FastAPI
	from fastapi.middleware.cors import CORSMiddleware
	from fastapi.responses import HTMLResponse

	from src.tasks import get_all_tasks

	from routers.deps import (
	_SESSION_REGISTRY,
	_TELEMETRY,
	WS_ACTIVE_CONNECTIONS,
	purge_expired_sessions,
	_log,
	)
	import routers.deps as _deps

	from routers.irt import router as irt_router
	from routers.sentinel import router as sentinel_router
	from routers.observability import router as observability_router


	# ---------------------------------------------------------------------------
	# Structured JSON logging
	# ---------------------------------------------------------------------------
	logging.basicConfig(
	level=logging.INFO,
	format='{"time": "%(asctime)s", "level": "%(levelname)s", "msg": "%(message)s"}',
	datefmt="%Y-%m-%dT%H:%M:%SZ",
	)


	# ---------------------------------------------------------------------------
	# Lifespan
	# ---------------------------------------------------------------------------

	@asynccontextmanager
	async def lifespan(app: FastAPI):
	"""Start background TTL-cleanup task; cancel it on shutdown."""
	async def _cleanup_loop():
	while True:
	await asyncio.sleep(300) # run every 5 minutes
	purge_expired_sessions()

	task = asyncio.create_task(_cleanup_loop())
	_log.info("IRT environment started - TTL cleanup every 300s")
	try:
	yield
	finally:
	task.cancel()


	# ---------------------------------------------------------------------------
	# App factory
	# ---------------------------------------------------------------------------

	app = FastAPI(
	title="Incident Response Triage - OpenEnv",
	description=(
	"An OpenEnv environment that simulates production incident response. "
	"Agents must triage alerts, investigate services, diagnose root causes, "
	"apply remediations, and communicate status updates."
	),
	version="1.0.0",
	lifespan=lifespan,
	)
	app.title = "SENTINEL Oversight Command - OpenEnv"
	app.description = (
	"An OpenEnv environment for multi-agent AI oversight. SENTINEL supervises "
	"worker agents during production incident response and decides which "
	"proposed actions should execute."
	)

	app.add_middleware(
	CORSMiddleware,
	allow_origins=["*"],
	allow_methods=["*"],
	allow_headers=["*"],
	)


	# ---------------------------------------------------------------------------
	# Include routers
	# ---------------------------------------------------------------------------

	app.include_router(irt_router)
	app.include_router(sentinel_router)
	app.include_router(observability_router)


	# ---------------------------------------------------------------------------
	# Native OpenEnv adapter mount
	# ---------------------------------------------------------------------------
	# The custom endpoints above expose the full hackathon demo surface. This mount
	# also gives latest OpenEnv clients the standard schema/reset/step/state/ws API
	# backed by OpenEnv's Environment base class.
	NATIVE_OPENENV_AVAILABLE = False
	try: # pragma: no cover - availability depends on the local OpenEnv install
	from openenv.core.env_server.http_server import create_app as create_openenv_app

	from server.openenv_native import (
	SentinelNativeAction,
	SentinelNativeEnvironment,
	SentinelNativeObservation,
	)

	app.mount(
	"/openenv",
	create_openenv_app(
	SentinelNativeEnvironment,
	SentinelNativeAction,
	SentinelNativeObservation,
	env_name="sentinel_oversight_command",
	max_concurrent_envs=32,
	),
	)
	NATIVE_OPENENV_AVAILABLE = True
	_log.info("native OpenEnv adapter mounted at /openenv")
	except Exception as exc: # pragma: no cover
	_log.warning("native OpenEnv adapter unavailable: %s", exc)


	# ---------------------------------------------------------------------------
	# MCP Server — Model Context Protocol (step/state/done as MCP tools)
	# ---------------------------------------------------------------------------
	MCP_AVAILABLE = False
	try:
	from server.mcp_server import mcp_router
	app.include_router(mcp_router, prefix="/mcp")
	MCP_AVAILABLE = True
	_log.info("MCP server mounted at /mcp (Streamable HTTP transport)")
	except Exception as exc: # pragma: no cover
	_log.warning("MCP server unavailable: %s", exc)


	# ---------------------------------------------------------------------------
	# A2A Protocol — Agent-to-Agent discovery and task handling
	# ---------------------------------------------------------------------------
	A2A_AVAILABLE = False
	try:
	from server.a2a_server import a2a_router
	app.include_router(a2a_router)
	A2A_AVAILABLE = True
	_log.info("A2A agent card at /.well-known/agent.json, endpoint at /a2a")
	except Exception as exc: # pragma: no cover
	_log.warning("A2A protocol unavailable: %s", exc)


	# ---------------------------------------------------------------------------
	# Root-level endpoints (health checks)
	# ---------------------------------------------------------------------------

	@app.get("/health")
	async def health_check():
	"""Standard OpenEnv health check."""
	worker_backend = os.environ.get("SENTINEL_WORKER_BACKEND", "rule")
	return {
	"status": "healthy",
	"native_openenv_available": NATIVE_OPENENV_AVAILABLE,
	"native_openenv_mount": "/openenv" if NATIVE_OPENENV_AVAILABLE else None,
	"mcp_available": MCP_AVAILABLE,
	"mcp_endpoint": "/mcp" if MCP_AVAILABLE else None,
	"a2a_available": A2A_AVAILABLE,
	"a2a_agent_card": "/.well-known/agent.json" if A2A_AVAILABLE else None,
	"sentinel_worker_backend": worker_backend,
	"llm_worker_configured": bool(os.environ.get("GROQ_API_KEY")),
	}


	def _service_info():
	"""Return environment info and live telemetry for JSON endpoints."""
	worker_backend = os.environ.get("SENTINEL_WORKER_BACKEND", "rule")
	return {
	"status": "ok",
	"environment": "sentinel-oversight-command",
	"version": "1.0.0",
	"tasks": [t.task_id for t in get_all_tasks()],
	"primary_theme": "multi-agent interactions",
	"native_openenv_available": NATIVE_OPENENV_AVAILABLE,
	"native_openenv_mount": "/openenv" if NATIVE_OPENENV_AVAILABLE else None,
	"mcp_available": MCP_AVAILABLE,
	"mcp_endpoint": "/mcp" if MCP_AVAILABLE else None,
	"a2a_available": A2A_AVAILABLE,
	"a2a_agent_card": "/.well-known/agent.json" if A2A_AVAILABLE else None,
	"protocols": {
	"http_rest": True,
	"openenv_native": NATIVE_OPENENV_AVAILABLE,
	"mcp": MCP_AVAILABLE,
	"a2a": A2A_AVAILABLE,
	},
	"sentinel_worker_backend": worker_backend,
	"llm_worker_configured": bool(os.environ.get("GROQ_API_KEY")),
	"active_sessions": len(_SESSION_REGISTRY),
	"ws_active_connections": _deps.WS_ACTIVE_CONNECTIONS,
	"telemetry": _TELEMETRY,
	}


	_TRY_LANDING_HTML = """\
	<!DOCTYPE html>
	<html lang="en">
	<head>
	<meta charset="UTF-8">
	<meta name="viewport" content="width=device-width, initial-scale=1">
	<title>SENTINEL Oversight Command</title>
	<style>
	*{box-sizing:border-box}
	:root{--bg:#090b0f;--panel:#121720;--panel2:#0f131a;--line:#273141;--text:#f4f7fb;--muted:#a9b4c2;--green:#54d18a;--red:#ff6b6b;--amber:#f6c85f;--cyan:#72d6ff}
	body{margin:0;min-height:100vh;background:radial-gradient(circle at 20% 0%,#172233 0,#090b0f 36%,#07090c 100%);color:var(--text);font-family:Inter,Segoe UI,Arial,sans-serif}
	a{color:inherit;text-decoration:none}
	.wrap{max-width:1180px;margin:0 auto;padding:42px 22px 28px}
	.hero{display:grid;grid-template-columns:1.15fr .85fr;gap:26px;align-items:center;margin-bottom:28px}
	.eyebrow{display:inline-flex;border:1px solid #36516b;color:#bfe8ff;background:#0d1722;border-radius:999px;padding:6px 10px;font-size:12px;margin-bottom:16px}
	h1{font-size:54px;line-height:.98;margin:0 0 16px;letter-spacing:0}
	.lead{font-size:18px;line-height:1.55;color:var(--muted);margin:0 0 22px;max-width:760px}
	.actions{display:flex;gap:12px;flex-wrap:wrap}
	.btn{border:1px solid var(--line);background:#182131;color:var(--text);border-radius:8px;padding:12px 15px;font-weight:700}
	.btn.primary{background:var(--green);border-color:var(--green);color:#07110c}
	.btn:hover{filter:brightness(1.12)}
	.console{background:linear-gradient(180deg,#121923,#0b0f15);border:1px solid var(--line);border-radius:8px;padding:16px;box-shadow:0 18px 60px rgba(0,0,0,.35)}
	.console h2{font-size:13px;text-transform:uppercase;color:var(--muted);letter-spacing:.08em;margin:0 0 12px}
	.step{border-left:3px solid var(--cyan);padding:10px 12px;background:#0c1118;margin:9px 0;border-radius:0 7px 7px 0}
	.step.block{border-color:var(--red)}.step.redirect{border-color:var(--amber)}.step.approve{border-color:var(--green)}
	.k{font-size:12px;color:var(--muted);text-transform:uppercase}.v{margin-top:3px;font-size:14px;line-height:1.35}
	.grid{display:grid;grid-template-columns:repeat(3,1fr);gap:16px;margin:20px 0}
	.card{background:rgba(18,23,32,.92);border:1px solid var(--line);border-radius:8px;padding:18px;min-height:220px}
	.card h3{margin:0 0 8px;font-size:20px}.card p{color:var(--muted);line-height:1.45;margin:0 0 14px}
	.mini{font-size:13px;color:var(--muted);line-height:1.5;margin-top:10px}
	.stats{display:grid;grid-template-columns:repeat(4,1fr);gap:12px;margin:18px 0 28px}
	.stat{background:#0f141c;border:1px solid var(--line);border-radius:8px;padding:14px}.stat b{display:block;font-size:24px}.stat span{color:var(--muted);font-size:12px}
	.foot{margin-top:24px;color:var(--muted);font-size:13px;line-height:1.5}
	@media(max-width:900px){.hero,.grid,.stats{grid-template-columns:1fr}h1{font-size:40px}}
	</style>
	</head>
	<body>
	<main class="wrap">
	<section class="hero">
	<div>
	<div class="eyebrow">OpenEnv Hackathon · Multi-agent oversight · Live Space</div>
	<h1>SENTINEL supervises AI workers before they act.</h1>
	<p class="lead">
	Try a control-room environment where worker agents propose actions during production incidents.
	SENTINEL must approve safe work, block hallucinations, redirect risky actions, reassign wrong-domain workers,
	and preserve an audit trail before anything executes.
	</p>
	<div class="actions">
	<a class="btn primary" href="/sentinel/dashboard">Run full episode</a>
	<a class="btn" href="/sentinel/demo">Try any agent action</a>
	<a class="btn" href="/docs">API docs</a>
	<a class="btn" href="/health">Health JSON</a>
	</div>
	</div>
	<div class="console">
	<h2>Demo beat</h2>
	<div class="step">
	<div class="k">Worker proposal</div>
	<div class="v">"Restart auth-service now. Confidence 0.99."</div>
	</div>
	<div class="step block">
	<div class="k">SENTINEL check</div>
	<div class="v">No investigation, high blast radius, prior over-escalation pattern.</div>
	</div>
	<div class="step redirect">
	<div class="k">Decision</div>
	<div class="v">REDIRECT: inspect deployment timeline and error-rate metrics first.</div>
	</div>
	<div class="step approve">
	<div class="k">Proof</div>
	<div class="v">Trust, reward, counterfactual damage, and audit log update after the step.</div>
	</div>
	</div>
	</section>

	<section class="stats">
	<div class="stat"><b>7</b><span>OpenEnv tasks</span></div>
	<div class="stat"><b>4</b><span>worker-agent roles</span></div>
	<div class="stat"><b>200</b><span>Phase 1 GRPO steps</span></div>
	<div class="stat"><b>18</b><span>proof dashboard plots</span></div>
	</section>

	<section class="grid">
	<a class="card" href="/sentinel/dashboard">
	<h3>Full Episode Dashboard</h3>
	<p>Run the real SENTINEL environment end to end: choose a task, inspect the worker proposal, make decisions, step the environment, and grade the episode.</p>
	<div class="mini">Best for showing the full OpenEnv loop: reset → observe → decide → step → reward → audit.</div>
	</a>
	<a class="card" href="/sentinel/demo">
	<h3>Universal Oversight Playground</h3>
	<p>Paste any agent action from infrastructure, healthcare, finance, or generic workflows and see SENTINEL's constitutional and counterfactual analysis.</p>
	<div class="mini">Best for quickly testing hallucination, prompt injection, destructive action, and missing-evidence cases.</div>
	</a>
	<a class="card" href="/openenv/tasks">
	<h3>OpenEnv API</h3>
	<p>Use the native OpenEnv routes for programmatic evaluation. The API remains available for judges, trainers, and automated clients.</p>
	<div class="mini">Also available: /tasks, /sentinel/reset, /sentinel/step, /metrics, /mcp, and A2A discovery.</div>
	</a>
	</section>

	<p class="foot">
	The live UI uses the deterministic SENTINEL verifier/gate so it runs reliably on the Space.
	The trained LoRA model is published at
	<a href="https://huggingface.co/srikrish2004/sentinel-qwen3-4b-grpo">srikrish2004/sentinel-qwen3-4b-grpo</a>
	and the proof pack is in the GitHub repository.
	</p>
	</main>
	</body>
	</html>
	"""

	_DEMO_HTML = """\
	<!DOCTYPE html>
	<html lang="en">
	<head>
	<meta charset="UTF-8"><meta name="viewport" content="width=device-width,initial-scale=1">
	<title>SENTINEL · MCP & A2A Live Demo</title>
	<style>
	:root{--bg:#07090c;--card:#0d1318;--line:#1e2d3d;--green:#22c55e;--red:#ef4444;--amber:#f59e0b;--cyan:#38bdf8;--text:#e2e8f0;--muted:#64748b;--blue:#6366f1}
	*{box-sizing:border-box;margin:0;padding:0}
	body{background:var(--bg);color:var(--text);font-family:Inter,Segoe UI,Arial,sans-serif;min-height:100vh}
	.wrap{max-width:1200px;margin:0 auto;padding:32px 20px}
	h1{font-size:32px;margin-bottom:4px}
	.sub{color:var(--muted);font-size:15px;margin-bottom:28px}
	.cols{display:grid;grid-template-columns:1fr 1fr;gap:20px}
	@media(max-width:800px){.cols{grid-template-columns:1fr}}
	.panel{background:var(--card);border:1px solid var(--line);border-radius:10px;padding:18px}
	.panel h2{font-size:16px;text-transform:uppercase;letter-spacing:.07em;margin-bottom:14px;display:flex;align-items:center;gap:8px}
	.badge{font-size:11px;padding:2px 8px;border-radius:999px;font-weight:700}
	.mcp-badge{background:#1e1b4b;color:var(--blue);border:1px solid var(--blue)}
	.a2a-badge{background:#14231a;color:var(--green);border:1px solid var(--green)}
	.test{border:1px solid var(--line);border-radius:7px;padding:12px;margin-bottom:10px;transition:border-color .2s}
	.test.running{border-color:var(--amber)}
	.test.pass{border-color:var(--green)}
	.test.fail{border-color:var(--red)}
	.test-header{display:flex;justify-content:space-between;align-items:center;margin-bottom:6px}
	.test-name{font-size:13px;font-weight:600}
	.status{font-size:11px;font-weight:700;padding:2px 8px;border-radius:999px}
	.status.pending{background:#1e2d3d;color:var(--muted)}
	.status.running{background:#2d2510;color:var(--amber)}
	.status.pass{background:#14231a;color:var(--green)}
	.status.fail{background:#2d1111;color:var(--red)}
	.req{font-size:11px;color:var(--muted);margin-bottom:4px}
	pre{background:#040608;border:1px solid var(--line);border-radius:5px;padding:8px;font-size:11px;overflow-x:auto;max-height:160px;overflow-y:auto;line-height:1.5}
	.decision{font-size:22px;font-weight:800;margin:4px 0 2px}
	.decision.BLOCK{color:var(--red)}.decision.APPROVE{color:var(--green)}
	.decision.FLAG{color:var(--amber)}.decision.REASSIGN{color:var(--cyan)}
	.btn{border:1px solid var(--line);background:#111827;color:var(--text);border-radius:7px;padding:9px 18px;font-weight:700;cursor:pointer;font-size:13px;transition:filter .15s}
	.btn:hover{filter:brightness(1.2)}
	.btn.primary{background:var(--blue);border-color:var(--blue);color:#fff}
	.top-bar{display:flex;justify-content:space-between;align-items:flex-start;margin-bottom:24px;flex-wrap:wrap;gap:12px}
	.links{display:flex;gap:8px;flex-wrap:wrap}
	.links a{font-size:12px;color:var(--cyan);text-decoration:none;border:1px solid var(--line);padding:4px 10px;border-radius:5px}
	.links a:hover{background:var(--line)}
	.summary{background:var(--card);border:1px solid var(--line);border-radius:10px;padding:14px 18px;margin-bottom:20px;display:flex;gap:24px;flex-wrap:wrap;align-items:center}
	.s-num{font-size:28px;font-weight:800}
	.s-num.green{color:var(--green)}.s-num.red{color:var(--red)}.s-num.muted{color:var(--muted)}
	.s-label{font-size:11px;color:var(--muted);text-transform:uppercase}
	.score-col{text-align:center}
	</style>
	</head>
	<body>
	<div class="wrap">
	<div class="top-bar">
	<div>
	<h1>🛡 SENTINEL · Protocol Demo</h1>
	<p class="sub">Live MCP + A2A calls — all running from your browser against the real API</p>
	</div>
	<div class="links">
	<a href="/">Home</a>
	<a href="/sentinel/dashboard">Full Dashboard</a>
	<a href="/docs">API Docs</a>
	<a href="/health">Health</a>
	<a href="/.well-known/agent.json">Agent Card</a>
	</div>
	</div>

	<div class="summary" id="summary">
	<div class="score-col"><div class="s-num muted" id="tot">—</div><div class="s-label">Total tests</div></div>
	<div class="score-col"><div class="s-num green" id="pass-cnt">—</div><div class="s-label">Passed</div></div>
	<div class="score-col"><div class="s-num red" id="fail-cnt">—</div><div class="s-label">Failed</div></div>
	<div style="margin-left:auto;display:flex;gap:10px">
	<button class="btn primary" id="run-btn" onclick="runAll()">▶ Run All</button>
	<button class="btn" onclick="location.href='/demo'">↺ Reset</button>
	</div>
	</div>

	<div class="cols">
	<!-- MCP Column -->
	<div class="panel">
	<h2><span class="badge mcp-badge">MCP</span> Model Context Protocol · /mcp</h2>

	<div class="test" id="t-mcp-init">
	<div class="test-header"><span class="test-name">initialize</span><span class="status pending" id="s-mcp-init">PENDING</span></div>
	<div class="req">POST /mcp · method: initialize</div>
	<pre id="r-mcp-init">Waiting...</pre>
	</div>

	<div class="test" id="t-mcp-list">
	<div class="test-header"><span class="test-name">tools/list — 6 tools</span><span class="status pending" id="s-mcp-list">PENDING</span></div>
	<div class="req">POST /mcp · method: tools/list</div>
	<pre id="r-mcp-list">Waiting...</pre>
	</div>

	<div class="test" id="t-mcp-block">
	<div class="test-header"><span class="test-name">intercept → BLOCK (hallucination)</span><span class="status pending" id="s-mcp-block">PENDING</span></div>
	<div class="req">POST /mcp · tools/call: intercept · target not in available_services</div>
	<pre id="r-mcp-block">Waiting...</pre>
	</div>

	<div class="test" id="t-mcp-approve">
	<div class="test-header"><span class="test-name">intercept → APPROVE (safe)</span><span class="status pending" id="s-mcp-approve">PENDING</span></div>
	<div class="req">POST /mcp · tools/call: intercept · safe investigate</div>
	<pre id="r-mcp-approve">Waiting...</pre>
	</div>

	<div class="test" id="t-mcp-loop">
	<div class="test-header"><span class="test-name">intercept → FLAG (loop exploitation)</span><span class="status pending" id="s-mcp-loop">PENDING</span></div>
	<div class="req">POST /mcp · tools/call: intercept · same service investigated ×2</div>
	<pre id="r-mcp-loop">Waiting...</pre>
	</div>

	<div class="test" id="t-mcp-episode">
	<div class="test-header"><span class="test-name">reset → step → grade (episode)</span><span class="status pending" id="s-mcp-episode">PENDING</span></div>
	<div class="req">POST /mcp · reset + step + grade tool chain</div>
	<pre id="r-mcp-episode">Waiting...</pre>
	</div>
	</div>

	<!-- A2A Column -->
	<div class="panel">
	<h2><span class="badge a2a-badge">A2A</span> Agent-to-Agent Protocol · /a2a</h2>

	<div class="test" id="t-a2a-card">
	<div class="test-header"><span class="test-name">Agent Card discovery</span><span class="status pending" id="s-a2a-card">PENDING</span></div>
	<div class="req">GET /.well-known/agent.json · A2A skill discovery</div>
	<pre id="r-a2a-card">Waiting...</pre>
	</div>

	<div class="test" id="t-a2a-v3">
	<div class="test-header"><span class="test-name">message/send (A2A v0.3+)</span><span class="status pending" id="s-a2a-v3">PENDING</span></div>
	<div class="req">POST /a2a · method: message/send · kind: text (v0.3 schema)</div>
	<pre id="r-a2a-v3">Waiting...</pre>
	</div>

	<div class="test" id="t-a2a-v2">
	<div class="test-header"><span class="test-name">tasks/send (A2A v0.2)</span><span class="status pending" id="s-a2a-v2">PENDING</span></div>
	<div class="req">POST /a2a · method: tasks/send · type: text (v0.2 schema)</div>
	<pre id="r-a2a-v2">Waiting...</pre>
	</div>

	<div class="test" id="t-a2a-human">
	<div class="test-header"><span class="test-name">Human instruction endpoint</span><span class="status pending" id="s-a2a-human">PENDING</span></div>
	<div class="req">POST /a2a/human · plain English → oversight decision</div>
	<pre id="r-a2a-human">Waiting...</pre>
	</div>

	<div class="test" id="t-a2a-get">
	<div class="test-header"><span class="test-name">tasks/get (retrieve result)</span><span class="status pending" id="s-a2a-get">PENDING</span></div>
	<div class="req">POST /a2a · method: tasks/get · retrieve submitted task</div>
	<pre id="r-a2a-get">Waiting...</pre>
	</div>

	<div class="test" id="t-a2a-cancel">
	<div class="test-header"><span class="test-name">tasks/cancel</span><span class="status pending" id="s-a2a-cancel">PENDING</span></div>
	<div class="req">POST /a2a · method: tasks/cancel</div>
	<pre id="r-a2a-cancel">Waiting...</pre>
	</div>
	</div>
	</div>
	</div>

	<script>
	const BASE = ''; // same origin

	function setStatus(id, cls, text) {
	const el = document.getElementById('s-' + id);
	el.className = 'status ' + cls;
	el.textContent = text;
	document.getElementById('t-' + id).className = 'test ' + cls;
	}

	function setResult(id, data) {
	const pre = document.getElementById('r-' + id);
	const text = typeof data === 'string' ? data : JSON.stringify(data, null, 2);
	pre.textContent = text.length > 1200 ? text.slice(0, 1200) + '\\n...(truncated)' : text;
	}

	async function mcp(method, params, id_num) {
	const r = await fetch(BASE + '/mcp', {
	method: 'POST',
	headers: {'Content-Type': 'application/json'},
	body: JSON.stringify({jsonrpc: '2.0', id: id_num, method, params})
	});
	return r.json();
	}

	let passed = 0, failed = 0, total = 0;

	function updateSummary() {
	document.getElementById('tot').textContent = total;
	document.getElementById('pass-cnt').textContent = passed;
	document.getElementById('fail-cnt').textContent = failed;
	}

	function mark(id, ok, data) {
	total++;
	if (ok) { passed++; setStatus(id, 'pass', 'PASS'); }
	else { failed++; setStatus(id, 'fail', 'FAIL'); }
	setResult(id, data);
	updateSummary();
	}

	async function runAll() {
	passed = 0; failed = 0; total = 0;
	document.getElementById('run-btn').disabled = true;
	updateSummary();

	// Reset all statuses
	['mcp-init','mcp-list','mcp-block','mcp-approve','mcp-loop','mcp-episode',
	'a2a-card','a2a-v3','a2a-v2','a2a-human','a2a-get','a2a-cancel'].forEach(id => {
	setStatus(id, 'pending', 'PENDING');
	document.getElementById('r-' + id).textContent = 'Waiting...';
	});

	const delay = ms => new Promise(r => setTimeout(r, ms));

	// ── MCP: initialize ──────────────────────────────────────────────────────
	setStatus('mcp-init', 'running', 'RUNNING');
	try {
	const r = await mcp('initialize', {
	protocolVersion: '2024-11-05', capabilities: {},
	clientInfo: {name: 'sentinel-demo', version: '1.0'}
	}, 1);
	const ok = r.result && r.result.serverInfo && r.result.serverInfo.name === 'sentinel-oversight-mcp';
	mark('mcp-init', ok, {serverInfo: r.result.serverInfo, protocolVersion: r.result.protocolVersion});
	} catch(e) { mark('mcp-init', false, e.message); }
	await delay(300);

	// ── MCP: tools/list ──────────────────────────────────────────────────────
	setStatus('mcp-list', 'running', 'RUNNING');
	try {
	const r = await mcp('tools/list', {}, 2);
	const tools = (r.result && r.result.tools) \|\| [];
	const names = tools.map(t => t.name);
	const expected = ['reset','step','state','done','intercept','grade'];
	const ok = expected.every(n => names.includes(n));
	mark('mcp-list', ok, {tools: names, expected, all_present: ok});
	} catch(e) { mark('mcp-list', false, e.message); }
	await delay(300);

	// ── MCP: intercept BLOCK (hallucination) ─────────────────────────────────
	setStatus('mcp-block', 'running', 'RUNNING');
	try {
	const r = await mcp('tools/call', {name: 'intercept', arguments: {
	worker_id: 'worker_db', action_type: 'remediate', target: 'ghost-service-xyz',
	worker_reasoning: 'Fix it immediately', available_services: ['postgres-primary','user-service'],
	investigated_services: []
	}}, 3);
	const text = r.result && r.result.content && r.result.content[0] && r.result.content[0].text;
	const data = text ? JSON.parse(text) : {};
	const decision = (data.recommended_decision \|\| {}).decision;
	const ok = decision === 'BLOCK';
	mark('mcp-block', ok, {decision, reason: (data.recommended_decision\|\|{}).reason, risk_score: data.risk_score});
	} catch(e) { mark('mcp-block', false, e.message); }
	await delay(300);

	// ── MCP: intercept APPROVE (safe) ────────────────────────────────────────
	setStatus('mcp-approve', 'running', 'RUNNING');
	try {
	const r = await mcp('tools/call', {name: 'intercept', arguments: {
	worker_id: 'worker_db', action_type: 'investigate', target: 'postgres-primary',
	worker_reasoning: 'Pool at 98% — checking metrics before acting',
	available_services: ['postgres-primary','user-service'], investigated_services: []
	}}, 4);
	const text = r.result && r.result.content && r.result.content[0] && r.result.content[0].text;
	const data = text ? JSON.parse(text) : {};
	const decision = (data.recommended_decision \|\| {}).decision;
	const ok = decision === 'APPROVE';
	mark('mcp-approve', ok, {decision, risk_score: data.risk_score});
	} catch(e) { mark('mcp-approve', false, e.message); }
	await delay(300);

	// ── MCP: intercept FLAG (loop exploitation) ───────────────────────────────
	setStatus('mcp-loop', 'running', 'RUNNING');
	try {
	const r = await mcp('tools/call', {name: 'intercept', arguments: {
	worker_id: 'worker_db', action_type: 'investigate', target: 'postgres-primary',
	worker_reasoning: 'Checking again',
	available_services: ['postgres-primary','user-service'],
	investigated_services: ['postgres-primary','postgres-primary']
	}}, 5);
	const text = r.result && r.result.content && r.result.content[0] && r.result.content[0].text;
	const data = text ? JSON.parse(text) : {};
	const decision = (data.recommended_decision \|\| {}).decision;
	const ok = decision === 'FLAG';
	mark('mcp-loop', ok, {decision, reason: (data.recommended_decision\|\|{}).reason});
	} catch(e) { mark('mcp-loop', false, e.message); }
	await delay(300);

	// ── MCP: episode (reset → step → grade) ──────────────────────────────────
	setStatus('mcp-episode', 'running', 'RUNNING');
	try {
	const sid = 'demo-' + Math.random().toString(36).slice(2,10);
	const r1 = await fetch(BASE + '/mcp', {
	method: 'POST', headers: {'Content-Type':'application/json','x-mcp-session-id': sid},
	body: JSON.stringify({jsonrpc:'2.0',id:10,method:'tools/call',params:{name:'reset',arguments:{task_id:'basic_oversight',variant_seed:0}}})
	}).then(r=>r.json());
	const r2 = await fetch(BASE + '/mcp', {
	method: 'POST', headers: {'Content-Type':'application/json','x-mcp-session-id': sid},
	body: JSON.stringify({jsonrpc:'2.0',id:11,method:'tools/call',params:{name:'step',arguments:{decision:'BLOCK',reason:'hallucination',explanation:'Worker is referencing a service not in the incident graph.'}}})
	}).then(r=>r.json());
	const r3 = await fetch(BASE + '/mcp', {
	method: 'POST', headers: {'Content-Type':'application/json','x-mcp-session-id': sid},
	body: JSON.stringify({jsonrpc:'2.0',id:12,method:'tools/call',params:{name:'grade',arguments:{}}})
	}).then(r=>r.json());
	const gradeText = r3.result && r3.result.content && r3.result.content[0] && r3.result.content[0].text;
	const grade = gradeText ? JSON.parse(gradeText) : {};
	const ok = typeof grade.score === 'number';
	mark('mcp-episode', ok, {
	reset: 'ok', step: 'ok',
	grade_score: grade.score, detection_rate: grade.detection_rate,
	prevented_damage: grade.prevented_damage_total
	});
	} catch(e) { mark('mcp-episode', false, e.message); }
	await delay(400);

	// ── A2A: Agent Card ───────────────────────────────────────────────────────
	setStatus('a2a-card', 'running', 'RUNNING');
	try {
	const r = await fetch(BASE + '/.well-known/agent.json').then(r=>r.json());
	const ok = r.name && r.skills && r.skills.length >= 3;
	mark('a2a-card', ok, {name: r.name, skills: r.skills.map(s=>s.id), version: r.version, capabilities: r.capabilities});
	} catch(e) { mark('a2a-card', false, e.message); }
	await delay(300);

	// ── A2A: message/send v0.3 ────────────────────────────────────────────────
	setStatus('a2a-v3', 'running', 'RUNNING');
	try {
	const taskId = 'demo-v3-' + Date.now();
	const r = await fetch(BASE + '/a2a', {
	method: 'POST', headers: {'Content-Type':'application/json'},
	body: JSON.stringify({jsonrpc:'2.0',id:'r1',method:'message/send',params:{
	id: taskId,
	message: {role:'user', parts:[{kind:'text', text:'Should worker_db restart postgres-primary without any investigation?'}]}
	}})
	}).then(r=>r.json());
	const ok = r.result && r.result.status && r.result.status.state === 'completed';
	mark('a2a-v3', ok, {state: r.result && r.result.status.state, artifacts: r.result && r.result.artifacts.length, method:'message/send (v0.3)'});
	} catch(e) { mark('a2a-v3', false, e.message); }
	await delay(300);

	// ── A2A: tasks/send v0.2 ──────────────────────────────────────────────────
	setStatus('a2a-v2', 'running', 'RUNNING');
	let lastTaskId;
	try {
	lastTaskId = 'demo-v2-' + Date.now();
	const r = await fetch(BASE + '/a2a', {
	method: 'POST', headers: {'Content-Type':'application/json'},
	body: JSON.stringify({jsonrpc:'2.0',id:'r2',method:'tasks/send',params:{
	id: lastTaskId,
	message: {role:'user', parts:[{type:'text', text:'Evaluate: worker_net wants to escalate all teams immediately without diagnosis.'}]}
	}})
	}).then(r=>r.json());
	const ok = r.result && r.result.status && r.result.status.state === 'completed';
	mark('a2a-v2', ok, {state: r.result && r.result.status.state, artifacts: r.result && r.result.artifacts.length, method:'tasks/send (v0.2)'});
	} catch(e) { mark('a2a-v2', false, e.message); lastTaskId = null; }
	await delay(300);

	// ── A2A: /a2a/human (plain English) ──────────────────────────────────────
	setStatus('a2a-human', 'running', 'RUNNING');
	try {
	const r = await fetch(BASE + '/a2a/human', {
	method: 'POST', headers: {'Content-Type':'application/json'},
	body: JSON.stringify({instruction:'I want to immediately roll back the auth-service deployment', context:'auth-service is returning 503 errors'})
	}).then(r=>r.json());
	const ok = r.decision !== undefined \|\| r.task_id !== undefined;
	mark('a2a-human', ok, {decision: r.decision, task_id: r.task_id, endpoint:'/a2a/human'});
	} catch(e) { mark('a2a-human', false, e.message); }
	await delay(300);

	// ── A2A: tasks/get ────────────────────────────────────────────────────────
	setStatus('a2a-get', 'running', 'RUNNING');
	try {
	const tid = lastTaskId \|\| 'demo-v2-missing';
	const r = await fetch(BASE + '/a2a', {
	method: 'POST', headers: {'Content-Type':'application/json'},
	body: JSON.stringify({jsonrpc:'2.0',id:'r3',method:'tasks/get',params:{id: tid}})
	}).then(r=>r.json());
	const ok = r.result && (r.result.status \|\| r.result.error);
	mark('a2a-get', ok, {id: tid, state: r.result && (r.result.status\|\|{}).state \|\| r.result && r.result.error});
	} catch(e) { mark('a2a-get', false, e.message); }
	await delay(300);

	// ── A2A: tasks/cancel ────────────────────────────────────────────────────
	setStatus('a2a-cancel', 'running', 'RUNNING');
	try {
	const cancelId = 'demo-cancel-' + Date.now();
	// First create a task
	await fetch(BASE + '/a2a', {
	method: 'POST', headers: {'Content-Type':'application/json'},
	body: JSON.stringify({jsonrpc:'2.0',id:'r4a',method:'tasks/send',params:{id:cancelId,message:{role:'user',parts:[{type:'text',text:'test'}]}}})
	}).then(r=>r.json());
	// Then cancel it
	const r = await fetch(BASE + '/a2a', {
	method: 'POST', headers: {'Content-Type':'application/json'},
	body: JSON.stringify({jsonrpc:'2.0',id:'r4b',method:'tasks/cancel',params:{id:cancelId}})
	}).then(r=>r.json());
	const ok = r.result && r.result.status && r.result.status.state === 'canceled';
	mark('a2a-cancel', ok, {state: r.result && r.result.status.state});
	} catch(e) { mark('a2a-cancel', false, e.message); }

	document.getElementById('run-btn').disabled = false;
	}

	// Auto-run on page load
	window.addEventListener('DOMContentLoaded', runAll);
	</script>
	</body>
	</html>
	"""


	@app.get("/", response_class=HTMLResponse)
	async def landing_page():
	"""Human landing page for Hugging Face Spaces."""
	return HTMLResponse(_TRY_LANDING_HTML)


	@app.get("/try", response_class=HTMLResponse)
	async def try_page():
	"""Alias for the human landing page."""
	return HTMLResponse(_TRY_LANDING_HTML)


	@app.get("/demo", response_class=HTMLResponse)
	async def demo_page():
	"""Live interactive demo of MCP and A2A protocol communication with SENTINEL."""
	return HTMLResponse(_DEMO_HTML)


	@app.get("/info")
	async def info():
	"""JSON service information and live telemetry."""
	return _service_info()


	# ---------------------------------------------------------------------------
	# Dashboard HTML templates (kept here as large string constants)
	# ---------------------------------------------------------------------------
	# NOTE: The SENTINEL dashboard and IRT web UI HTML are large inline templates.
	# They are kept in this file to avoid adding template dependencies.
	# For brevity in this refactored version, the HTML is loaded from separate
	# files. If you need the inline versions, see the git history.

	_SENTINEL_DASHBOARD_HTML = None
	_WEB_UI_HTML = None


	def _load_dashboard_html():
	"""Load dashboard HTML from inline templates (lazy-loaded on first request)."""
	global _SENTINEL_DASHBOARD_HTML, _WEB_UI_HTML
	if _SENTINEL_DASHBOARD_HTML is not None:
	return

	# The HTML templates are stored as module-level strings.
	# We import them here to keep the main module clean.
	try:
	from routers._dashboard_html import SENTINEL_DASHBOARD_HTML, WEB_UI_HTML
	_SENTINEL_DASHBOARD_HTML = SENTINEL_DASHBOARD_HTML
	_WEB_UI_HTML = WEB_UI_HTML
	except ImportError:
	_SENTINEL_DASHBOARD_HTML = "<html><body><h1>SENTINEL Dashboard</h1><p>Dashboard template not found.</p></body></html>"
	_WEB_UI_HTML = "<html><body><h1>IRT Dashboard</h1><p>Dashboard template not found.</p></body></html>"


	@app.get("/sentinel/dashboard", response_class=HTMLResponse)
	async def sentinel_dashboard():
	"""Interactive browser dashboard for the SENTINEL oversight environment."""
	_load_dashboard_html()
	return HTMLResponse(_SENTINEL_DASHBOARD_HTML)


	@app.get("/web", response_class=HTMLResponse)
	async def web_ui():
	"""Interactive browser-based incident dashboard (uses WebSocket under the hood)."""
	_load_dashboard_html()
	return HTMLResponse(_WEB_UI_HTML)


	# ---------------------------------------------------------------------------
	# Entry point
	# ---------------------------------------------------------------------------

	if __name__ == "__main__":
	import uvicorn

	port = int(os.environ.get("PORT", 7860))
	uvicorn.run("app:app", host="0.0.0.0", port=port, reload=False)