Spaces:

ronitraj
/

vegarl

Running

App Files Files Community

ronitraj commited on 29 days ago

Commit

8ec915d

1 Parent(s): f56abd2

Fix submission runner and sessionized API/UI flow

Browse files

Files changed (9) hide show

inference.py +25 -13
llmserve_env/client.py +8 -3
server/app.py +53 -9
server/replay_assets.py +34 -3
server/schemas.py +16 -1
server/session_manager.py +7 -2
server/web_ui.py +109 -49
tests/test_api.py +30 -0
tests/test_inference.py +29 -0

inference.py CHANGED Viewed

@@ -138,12 +138,6 @@ def _log_end(success: bool, steps: int, score: float, rewards: list[float]) -> N
 def _run_task(task_id: str, client: OpenAI | None) -> bool:
-    env = LLMServeEnvironment(seed=DEFAULT_SEED, mode="sim")
-    grader = GraderEngine()
-    fallback_agent = _create_fallback_agent(task_id)
-    if hasattr(fallback_agent, "reset"):
-        fallback_agent.reset()
     model_label = MODEL_NAME if client is not None else "heuristic"
     _log_start(task=task_id, env_name=ENV_NAME, model=model_label)
@@ -151,10 +145,18 @@ def _run_task(task_id: str, client: OpenAI | None) -> bool:
     steps_taken = 0
     score = 0.0
     success = False
-    observation = None
     previous_action: dict[str, Any] | None = None
     try:
         observation = env.reset(seed=DEFAULT_SEED, task_id=task_id)
         task_cfg = env.task_config or {}
         configured_max_steps = int(task_cfg.get("max_steps", MAX_STEPS))
@@ -187,7 +189,7 @@ def _run_task(task_id: str, client: OpenAI | None) -> bool:
                 _log_step(step=step_idx, action=action_json, reward=0.0, done=True, error=_sanitize_error(exc))
                 break
-        grade = grader.grade(env.export_episode_log())
         score = float(grade.get("score", 0.0))
         score = max(0.0, min(1.0, score))
         success = score > 0.0
@@ -204,12 +206,22 @@ def _run_task(task_id: str, client: OpenAI | None) -> bool:
 def main() -> int:
-    client = _create_client()
-    all_success = True
     for task_id in TASKS:
-        ok = _run_task(task_id=task_id, client=client)
-        all_success = all_success and ok
-    return 0 if all_success else 1
 if __name__ == "__main__":

 def _run_task(task_id: str, client: OpenAI | None) -> bool:
     model_label = MODEL_NAME if client is not None else "heuristic"
     _log_start(task=task_id, env_name=ENV_NAME, model=model_label)
     steps_taken = 0
     score = 0.0
     success = False
     previous_action: dict[str, Any] | None = None
+    env: LLMServeEnvironment | None = None
+    grader: GraderEngine | None = None
+    fallback_agent: Any = None
     try:
+        env = LLMServeEnvironment(seed=DEFAULT_SEED, mode="sim")
+        grader = GraderEngine()
+        fallback_agent = _create_fallback_agent(task_id)
+        if hasattr(fallback_agent, "reset"):
+            fallback_agent.reset()
         observation = env.reset(seed=DEFAULT_SEED, task_id=task_id)
         task_cfg = env.task_config or {}
         configured_max_steps = int(task_cfg.get("max_steps", MAX_STEPS))
                 _log_step(step=step_idx, action=action_json, reward=0.0, done=True, error=_sanitize_error(exc))
                 break
+        grade = grader.grade(env.export_episode_log()) if grader is not None else {"score": 0.0}
         score = float(grade.get("score", 0.0))
         score = max(0.0, min(1.0, score))
         success = score > 0.0
 def main() -> int:
+    try:
+        client = _create_client()
+    except Exception:
+        client = None
     for task_id in TASKS:
+        try:
+            _run_task(task_id=task_id, client=client)
+        except Exception as exc:
+            _log_start(task=task_id, env_name=ENV_NAME, model=MODEL_NAME if client is not None else "heuristic")
+            _log_step(step=1, action="{}", reward=0.0, done=True, error=_sanitize_error(exc))
+            _log_end(success=False, steps=1, score=0.0, rewards=[0.0])
+    # The validator treats non-zero exits as infrastructure failures, so we always
+    # return 0 after emitting structured episode logs for every task.
+    return 0
 if __name__ == "__main__":

llmserve_env/client.py CHANGED Viewed

@@ -10,6 +10,7 @@ from llmserve_env.models import EpisodeLog, ServeAction, ServeObservation, Serve
 class LLMServeEnv:
     def __init__(self, base_url: str) -> None:
         self.base_url = base_url.rstrip("/")
     @classmethod
     def from_url(cls, base_url: str) -> "LLMServeEnv":
@@ -21,16 +22,21 @@ class LLMServeEnv:
     def reset(self, task_id: str, seed: int | None = None) -> ServeObservation:
         payload = self._post("/reset", {"task_id": task_id, "seed": seed})
         return self._parse_observation_payload(payload)
     def step(self, action: dict[str, Any] | ServeAction) -> tuple[ServeObservation, float, bool, dict[str, Any]]:
         action_payload = action.model_dump(mode="json") if isinstance(action, ServeAction) else action
-        payload = self._post("/step", {"action": action_payload})
         observation = self._parse_observation_payload(payload)
         return observation, float(payload["reward"]), bool(payload["done"]), observation.metadata
     def state(self) -> ServeState:
-        payload = self._get("/state")
         return ServeState.model_validate(payload)
     def tasks(self) -> dict[str, Any]:
@@ -67,4 +73,3 @@ class LLMServeEnv:
         req = request.Request(f"{self.base_url}{path}", data=body, headers=headers, method="POST")
         with request.urlopen(req) as response:
             return json.loads(response.read().decode("utf-8"))

 class LLMServeEnv:
     def __init__(self, base_url: str) -> None:
         self.base_url = base_url.rstrip("/")
+        self.session_id: str | None = None
     @classmethod
     def from_url(cls, base_url: str) -> "LLMServeEnv":
     def reset(self, task_id: str, seed: int | None = None) -> ServeObservation:
         payload = self._post("/reset", {"task_id": task_id, "seed": seed})
+        self.session_id = payload.get("session_id")
         return self._parse_observation_payload(payload)
     def step(self, action: dict[str, Any] | ServeAction) -> tuple[ServeObservation, float, bool, dict[str, Any]]:
+        if self.session_id is None:
+            raise RuntimeError("reset() must be called before step() so the client has a session_id.")
         action_payload = action.model_dump(mode="json") if isinstance(action, ServeAction) else action
+        payload = self._post("/step", {"action": action_payload, "session_id": self.session_id})
         observation = self._parse_observation_payload(payload)
         return observation, float(payload["reward"]), bool(payload["done"]), observation.metadata
     def state(self) -> ServeState:
+        if self.session_id is None:
+            raise RuntimeError("reset() must be called before state() so the client has a session_id.")
+        payload = self._get(f"/state?session_id={self.session_id}")
         return ServeState.model_validate(payload)
     def tasks(self) -> dict[str, Any]:
         req = request.Request(f"{self.base_url}{path}", data=body, headers=headers, method="POST")
         with request.urlopen(req) as response:
             return json.loads(response.read().decode("utf-8"))

server/app.py CHANGED Viewed

@@ -3,7 +3,7 @@ from __future__ import annotations
 import os
 from pathlib import Path
-from fastapi import FastAPI, HTTPException
 from fastapi.responses import RedirectResponse
 from openenv.core import create_fastapi_app
 from dotenv import load_dotenv
@@ -13,7 +13,8 @@ from llmserve_env.task_catalog import get_action_schema, get_task_catalog
 from server.baseline_inference import create_local_runner, run_baseline_suite
 from server.grader import GraderEngine
 from server.llmserve_environment import LLMServeEnvironment
-from server.schemas import GraderRequest
 from server.web_ui import create_web_app
@@ -29,6 +30,7 @@ def _build_shared_env() -> LLMServeEnvironment:
 shared_env = _build_shared_env()
 grader = GraderEngine()
 def get_env() -> LLMServeEnvironment:
@@ -36,6 +38,14 @@ def get_env() -> LLMServeEnvironment:
 def _register_extra_routes(app: FastAPI) -> FastAPI:
     @app.get("/")
     def root() -> RedirectResponse:
         return RedirectResponse(url="/web", status_code=307)
@@ -50,8 +60,43 @@ def _register_extra_routes(app: FastAPI) -> FastAPI:
             "mode": shared_env.backend.mode,
             "backend": shared_env.backend.describe(),
             "seed": shared_env.seed,
         }
     @app.post("/grader")
     def grade(payload: GraderRequest | None = None) -> dict[str, object]:
         if payload and payload.episode_log is not None:
@@ -98,14 +143,13 @@ def _register_extra_routes(app: FastAPI) -> FastAPI:
 def create_application(enable_web: bool = True) -> FastAPI:
     if enable_web:
-        app = create_web_app(shared_env)
-    else:
-        app = create_fastapi_app(
-            get_env,
-            ServeAction,
-            ServeObservation,
-        )
     return _register_extra_routes(app)

 import os
 from pathlib import Path
+from fastapi import FastAPI, HTTPException, Query
 from fastapi.responses import RedirectResponse
 from openenv.core import create_fastapi_app
 from dotenv import load_dotenv
 from server.baseline_inference import create_local_runner, run_baseline_suite
 from server.grader import GraderEngine
 from server.llmserve_environment import LLMServeEnvironment
+from server.schemas import GraderRequest, ResetRequest, StepRequest
+from server.session_manager import SessionManager
 from server.web_ui import create_web_app
 shared_env = _build_shared_env()
 grader = GraderEngine()
+session_manager = SessionManager()
 def get_env() -> LLMServeEnvironment:
 def _register_extra_routes(app: FastAPI) -> FastAPI:
+    def _resolve_env(session_id: str | None) -> LLMServeEnvironment:
+        if not session_id:
+            return shared_env
+        try:
+            return session_manager.get(session_id)
+        except KeyError as exc:
+            raise HTTPException(status_code=404, detail=str(exc)) from exc
     @app.get("/")
     def root() -> RedirectResponse:
         return RedirectResponse(url="/web", status_code=307)
             "mode": shared_env.backend.mode,
             "backend": shared_env.backend.describe(),
             "seed": shared_env.seed,
+            "active_sessions": session_manager.count(),
+        }
+    @app.post("/reset")
+    def reset(payload: ResetRequest) -> dict[str, object]:
+        session_id, env = session_manager.create(
+            task_id=payload.task_id,
+            seed=payload.seed,
+            episode_id=payload.episode_id,
+        )
+        observation = env.observations[-1]
+        return {
+            "session_id": session_id,
+            "observation": observation.model_dump(mode="json"),
+            "reward": observation.reward,
+            "done": observation.done,
+            "metadata": observation.metadata,
+        }
+    @app.post("/step")
+    def step(payload: StepRequest) -> dict[str, object]:
+        env = _resolve_env(payload.session_id)
+        observation = env.step(payload.action)
+        return {
+            "session_id": payload.session_id or env.state.episode_id,
+            "observation": observation.model_dump(mode="json"),
+            "reward": observation.reward,
+            "done": observation.done,
+            "metadata": observation.metadata,
         }
+    @app.get("/state")
+    def state(session_id: str | None = Query(default=None)) -> dict[str, object]:
+        env = _resolve_env(session_id)
+        return env.state.model_dump(mode="json")
     @app.post("/grader")
     def grade(payload: GraderRequest | None = None) -> dict[str, object]:
         if payload and payload.episode_log is not None:
 def create_application(enable_web: bool = True) -> FastAPI:
+    app = create_fastapi_app(
+        get_env,
+        ServeAction,
+        ServeObservation,
+    )
     if enable_web:
+        app = create_web_app(app, session_manager, shared_env)
     return _register_extra_routes(app)

server/replay_assets.py CHANGED Viewed

@@ -8,13 +8,44 @@ import pandas as pd
 ROOT_DIR = Path(__file__).resolve().parents[1]
 DATA_DIR = ROOT_DIR / "data"
-def resolve_data_path(relative_path: str) -> Path:
     path = Path(relative_path)
     if path.is_absolute():
-        return path
-    return DATA_DIR / path
 @lru_cache(maxsize=None)

 ROOT_DIR = Path(__file__).resolve().parents[1]
 DATA_DIR = ROOT_DIR / "data"
+SERVER_DATA_DIR = ROOT_DIR / "server" / "data"
+def _candidate_paths(relative_path: str) -> list[Path]:
     path = Path(relative_path)
     if path.is_absolute():
+        return [path]
+    candidates = [
+        DATA_DIR / path,
+        SERVER_DATA_DIR / path,
+    ]
+    if path.name == "latency_table.parquet":
+        serving_profile = path.with_name("serving_profile_table.parquet")
+        candidates.extend(
+            [
+                DATA_DIR / serving_profile,
+                SERVER_DATA_DIR / serving_profile,
+            ]
+        )
+    seen: set[Path] = set()
+    deduped: list[Path] = []
+    for candidate in candidates:
+        resolved = candidate.resolve()
+        if resolved not in seen:
+            seen.add(resolved)
+            deduped.append(candidate)
+    return deduped
+def resolve_data_path(relative_path: str) -> Path:
+    for candidate in _candidate_paths(relative_path):
+        if candidate.exists():
+            return candidate
+    searched = ", ".join(str(candidate) for candidate in _candidate_paths(relative_path))
+    raise FileNotFoundError(f"Could not locate required data asset '{relative_path}'. Searched: {searched}")
 @lru_cache(maxsize=None)

server/schemas.py CHANGED Viewed

@@ -2,7 +2,7 @@ from __future__ import annotations
 from pydantic import BaseModel, ConfigDict
-from llmserve_env.models import EpisodeLog
 class GraderRequest(BaseModel):
@@ -11,3 +11,18 @@ class GraderRequest(BaseModel):
     task_id: str | None = None
     episode_log: EpisodeLog | None = None
     actions_taken: int | None = None

 from pydantic import BaseModel, ConfigDict
+from llmserve_env.models import EpisodeLog, ServeAction
 class GraderRequest(BaseModel):
     task_id: str | None = None
     episode_log: EpisodeLog | None = None
     actions_taken: int | None = None
+class ResetRequest(BaseModel):
+    model_config = ConfigDict(extra="forbid")
+    task_id: str = "static_workload"
+    seed: int | None = None
+    episode_id: str | None = None
+class StepRequest(BaseModel):
+    model_config = ConfigDict(extra="forbid")
+    action: ServeAction
+    session_id: str | None = None

server/session_manager.py CHANGED Viewed

@@ -16,9 +16,14 @@ class SessionManager:
         self._sessions: OrderedDict[str, LLMServeEnvironment] = OrderedDict()
         self._max_sessions = max_sessions
-    def create(self, task_id: str, seed: int | None = None) -> tuple[str, LLMServeEnvironment]:
         env = LLMServeEnvironment(seed=seed or 42)
-        env.reset(task_id=task_id, seed=seed)
         session_id = env.state.episode_id
         with self._lock:

         self._sessions: OrderedDict[str, LLMServeEnvironment] = OrderedDict()
         self._max_sessions = max_sessions
+    def create(
+        self,
+        task_id: str,
+        seed: int | None = None,
+        episode_id: str | None = None,
+    ) -> tuple[str, LLMServeEnvironment]:
         env = LLMServeEnvironment(seed=seed or 42)
+        env.reset(task_id=task_id, seed=seed, episode_id=episode_id)
         session_id = env.state.episode_id
         with self._lock:

server/web_ui.py CHANGED Viewed

@@ -6,47 +6,39 @@ from typing import Any
 import gradio as gr
 import pandas as pd
 from fastapi import FastAPI
-from openenv.core import create_fastapi_app
 from llmserve_env.models import QuantizationTier, ServeAction, ServeObservation
 from llmserve_env.task_catalog import get_task_catalog
 from server.llmserve_environment import LLMServeEnvironment
-def create_web_app(env: LLMServeEnvironment) -> FastAPI:
-    app = create_fastapi_app(lambda: env, ServeAction, ServeObservation)
-    blocks = build_web_ui(env)
     return gr.mount_gradio_app(app, blocks, path="/web")
-def build_web_ui(env: LLMServeEnvironment) -> gr.Blocks:
     task_ids = [task["id"] for task in get_task_catalog()]
-    def _state_json() -> str:
-        return json.dumps(env.state.model_dump(mode="json"), indent=2)
-    def _session_json() -> str:
-        backend = env.backend.describe()
-        payload = {
-            "active_task_id": env.state.task_id,
-            "episode_id": env.state.episode_id,
-            "step_count": env.state.step_count,
-            "mode": backend.get("mode", env.backend.mode),
-            "backend": backend,
-            "done": env.state.done,
-        }
-        return json.dumps(payload, indent=2)
-    def _response_json(observation: ServeObservation) -> str:
-        payload = {
-            "observation": observation.model_dump(mode="json"),
-            "reward": observation.reward,
-            "done": observation.done,
-            "metadata": observation.metadata,
-        }
-        return json.dumps(payload, indent=2)
-    def _history_frame() -> pd.DataFrame:
         rows = [
             {
                 "step_index": observation.step_index,
@@ -55,7 +47,7 @@ def build_web_ui(env: LLMServeEnvironment) -> gr.Blocks:
                 "slo_compliance_rate": observation.slo_compliance_rate,
                 "throughput_tps": observation.throughput_tps,
             }
-            for observation in env.observations
         ]
         if not rows:
             rows = [
@@ -69,34 +61,84 @@ def build_web_ui(env: LLMServeEnvironment) -> gr.Blocks:
             ]
         return pd.DataFrame(rows)
-    def _ui_payload(observation: ServeObservation, status_message: str) -> tuple[str, str, str, str, pd.DataFrame]:
         return (
             status_message,
-            _session_json(),
             _response_json(observation),
-            _state_json(),
-            _history_frame(),
         )
-    def reset_env(task_id: str, seed: int) -> tuple[str, str, str, str, pd.DataFrame]:
         try:
-            observation = env.reset(task_id=task_id, seed=int(seed))
             return _ui_payload(
                 observation,
                 f"Environment reset for task `{task_id}`. Active episode now uses `{env.state.task_id}`.",
             )
         except Exception as exc:
-            return (f"Error: {exc}", _session_json(), "", _state_json(), _history_frame())
     def step_env(
         batch_cap: int,
         kv_budget_fraction: float,
         speculation_depth: int,
         quantization_tier: str,
         prefill_decode_split: bool,
         priority_routing: bool,
-    ) -> tuple[str, str, str, str, pd.DataFrame]:
         try:
             action = ServeAction(
                 batch_cap=int(batch_cap),
                 kv_budget_fraction=float(kv_budget_fraction),
@@ -109,15 +151,28 @@ def build_web_ui(env: LLMServeEnvironment) -> gr.Blocks:
             return _ui_payload(
                 observation,
                 f"Step complete for active task `{env.state.task_id}` in `{env.backend.mode}` mode.",
             )
         except Exception as exc:
-            return (f"Error: {exc}", _session_json(), "", _state_json(), _history_frame())
-    def get_state() -> tuple[str, pd.DataFrame]:
         try:
-            return _state_json(), _history_frame()
         except Exception as exc:
-            return f"Error: {exc}", _history_frame()
     with gr.Blocks(title="LLMServeEnv") as demo:
         gr.Markdown(
@@ -125,10 +180,13 @@ def build_web_ui(env: LLMServeEnvironment) -> gr.Blocks:
             # LLMServeEnv
             Reset an episode, then control the serving policy with bounded inputs only.
             Numeric controls use sliders, categorical controls use fixed choices.
             """
         )
         with gr.Row():
             with gr.Column(scale=1):
                 task_id = gr.Dropdown(
@@ -166,7 +224,7 @@ def build_web_ui(env: LLMServeEnvironment) -> gr.Blocks:
             with gr.Column(scale=2):
                 response_json = gr.Code(label="Observation / Step Response", language="json", interactive=False)
-                state_json = gr.Code(label="Current State", language="json", interactive=False)
                 history_table = gr.Dataframe(
                     value=_history_frame(),
                     headers=["step_index", "reward", "p99_ttft_ms", "slo_compliance_rate", "throughput_tps"],
@@ -176,17 +234,18 @@ def build_web_ui(env: LLMServeEnvironment) -> gr.Blocks:
         reset_btn.click(
             fn=reset_env,
-            inputs=[task_id, seed],
-            outputs=[status, session_json, response_json, state_json, history_table],
         )
         task_id.change(
             fn=reset_env,
-            inputs=[task_id, seed],
-            outputs=[status, session_json, response_json, state_json, history_table],
         )
         step_btn.click(
             fn=step_env,
             inputs=[
                 batch_cap,
                 kv_budget_fraction,
                 speculation_depth,
@@ -194,11 +253,12 @@ def build_web_ui(env: LLMServeEnvironment) -> gr.Blocks:
                 prefill_decode_split,
                 priority_routing,
             ],
-            outputs=[status, session_json, response_json, state_json, history_table],
         )
         state_btn.click(
             fn=get_state,
-            outputs=[state_json, history_table],
         )
     return demo

 import gradio as gr
 import pandas as pd
 from fastapi import FastAPI
 from llmserve_env.models import QuantizationTier, ServeAction, ServeObservation
 from llmserve_env.task_catalog import get_task_catalog
 from server.llmserve_environment import LLMServeEnvironment
+from server.session_manager import SessionManager
+def create_web_app(app: FastAPI, session_manager: SessionManager, fallback_env: LLMServeEnvironment) -> FastAPI:
+    blocks = build_web_ui(session_manager, fallback_env)
     return gr.mount_gradio_app(app, blocks, path="/web")
+def build_web_ui(session_manager: SessionManager, fallback_env: LLMServeEnvironment) -> gr.Blocks:
     task_ids = [task["id"] for task in get_task_catalog()]
+    def _empty_state_json() -> str:
+        return json.dumps(
+            {
+                "episode_id": "",
+                "step_count": 0,
+                "task_id": "uninitialized",
+                "total_requests_served": 0,
+                "total_slo_violations": 0,
+                "cumulative_reward": 0.0,
+                "elapsed_simulated_time_s": 0.0,
+                "workload_phase": "warmup",
+                "done": False,
+            },
+            indent=2,
+        )
+    def _history_frame(env: LLMServeEnvironment | None = None) -> pd.DataFrame:
+        active_env = env or fallback_env
         rows = [
             {
                 "step_index": observation.step_index,
                 "slo_compliance_rate": observation.slo_compliance_rate,
                 "throughput_tps": observation.throughput_tps,
             }
+            for observation in active_env.observations
         ]
         if not rows:
             rows = [
             ]
         return pd.DataFrame(rows)
+    def _session_json(env: LLMServeEnvironment | None = None) -> str:
+        active_env = env or fallback_env
+        backend = active_env.backend.describe()
+        payload = {
+            "active_task_id": active_env.state.task_id,
+            "episode_id": active_env.state.episode_id,
+            "step_count": active_env.state.step_count,
+            "mode": backend.get("mode", active_env.backend.mode),
+            "backend": backend,
+            "done": active_env.state.done,
+        }
+        return json.dumps(payload, indent=2)
+    def _response_json(observation: ServeObservation) -> str:
+        payload = {
+            "observation": observation.model_dump(mode="json"),
+            "reward": observation.reward,
+            "done": observation.done,
+            "metadata": observation.metadata,
+        }
+        return json.dumps(payload, indent=2)
+    def _state_json(env: LLMServeEnvironment | None = None) -> str:
+        if env is None:
+            return _empty_state_json()
+        return json.dumps(env.state.model_dump(mode="json"), indent=2)
+    def _get_env(session_id: str | None) -> LLMServeEnvironment | None:
+        if not session_id:
+            return None
+        try:
+            return session_manager.get(session_id)
+        except KeyError:
+            return None
+    def _ui_payload(
+        observation: ServeObservation,
+        status_message: str,
+        session_id: str,
+        env: LLMServeEnvironment,
+    ) -> tuple[str, str, str, str, pd.DataFrame, str]:
         return (
             status_message,
+            _session_json(env),
             _response_json(observation),
+            _state_json(env),
+            _history_frame(env),
+            session_id,
         )
+    def reset_env(current_session_id: str | None, task_id: str, seed: int) -> tuple[str, str, str, str, pd.DataFrame, str]:
         try:
+            if current_session_id:
+                session_manager.remove(current_session_id)
+            session_id, env = session_manager.create(task_id=task_id, seed=int(seed))
+            observation = env.observations[-1]
             return _ui_payload(
                 observation,
                 f"Environment reset for task `{task_id}`. Active episode now uses `{env.state.task_id}`.",
+                session_id,
+                env,
             )
         except Exception as exc:
+            return (f"Error: {exc}", _session_json(), "", _state_json(), _history_frame(), current_session_id or "")
     def step_env(
+        session_id: str | None,
         batch_cap: int,
         kv_budget_fraction: float,
         speculation_depth: int,
         quantization_tier: str,
         prefill_decode_split: bool,
         priority_routing: bool,
+    ) -> tuple[str, str, str, str, pd.DataFrame, str]:
         try:
+            env = _get_env(session_id)
+            if env is None:
+                raise RuntimeError("No active session found. Click Reset before stepping.")
             action = ServeAction(
                 batch_cap=int(batch_cap),
                 kv_budget_fraction=float(kv_budget_fraction),
             return _ui_payload(
                 observation,
                 f"Step complete for active task `{env.state.task_id}` in `{env.backend.mode}` mode.",
+                session_id or env.state.episode_id,
+                env,
             )
         except Exception as exc:
+            active_env = _get_env(session_id)
+            return (
+                f"Error: {exc}",
+                _session_json(active_env),
+                "",
+                _state_json(active_env),
+                _history_frame(active_env),
+                session_id or "",
+            )
+    def get_state(session_id: str | None) -> tuple[str, pd.DataFrame, str]:
         try:
+            env = _get_env(session_id)
+            if env is None:
+                raise RuntimeError("No active session found. Click Reset to start an episode.")
+            return _state_json(env), _history_frame(env), session_id or ""
         except Exception as exc:
+            return f"Error: {exc}", _history_frame(), session_id or ""
     with gr.Blocks(title="LLMServeEnv") as demo:
         gr.Markdown(
             # LLMServeEnv
             Reset an episode, then control the serving policy with bounded inputs only.
+            The web UI now keeps a dedicated backend session per browser tab so repeated Step clicks continue the same episode reliably in Docker.
             Numeric controls use sliders, categorical controls use fixed choices.
             """
         )
+        session_id_state = gr.State(value="")
         with gr.Row():
             with gr.Column(scale=1):
                 task_id = gr.Dropdown(
             with gr.Column(scale=2):
                 response_json = gr.Code(label="Observation / Step Response", language="json", interactive=False)
+                state_json = gr.Code(label="Current State", language="json", value=_empty_state_json(), interactive=False)
                 history_table = gr.Dataframe(
                     value=_history_frame(),
                     headers=["step_index", "reward", "p99_ttft_ms", "slo_compliance_rate", "throughput_tps"],
         reset_btn.click(
             fn=reset_env,
+            inputs=[session_id_state, task_id, seed],
+            outputs=[status, session_json, response_json, state_json, history_table, session_id_state],
         )
         task_id.change(
             fn=reset_env,
+            inputs=[session_id_state, task_id, seed],
+            outputs=[status, session_json, response_json, state_json, history_table, session_id_state],
         )
         step_btn.click(
             fn=step_env,
             inputs=[
+                session_id_state,
                 batch_cap,
                 kv_budget_fraction,
                 speculation_depth,
                 prefill_decode_split,
                 priority_routing,
             ],
+            outputs=[status, session_json, response_json, state_json, history_table, session_id_state],
         )
         state_btn.click(
             fn=get_state,
+            inputs=[session_id_state],
+            outputs=[state_json, history_table, session_id_state],
         )
     return demo

tests/test_api.py CHANGED Viewed

@@ -5,6 +5,7 @@ import pytest
 from fastapi import HTTPException
 from server.app import create_application, shared_env
 def _route_map():
@@ -55,3 +56,32 @@ def test_baseline_endpoint_direct() -> None:
 def test_demo_redirects_to_web() -> None:
     response = _call(_route_map()["/demo"])
     assert response.headers["location"] == "/web"

 from fastapi import HTTPException
 from server.app import create_application, shared_env
+from server.schemas import ResetRequest, StepRequest
 def _route_map():
 def test_demo_redirects_to_web() -> None:
     response = _call(_route_map()["/demo"])
     assert response.headers["location"] == "/web"
+def test_http_session_advances_across_multiple_steps() -> None:
+    routes = _route_map()
+    reset_endpoint = routes["/reset"]
+    step_endpoint = routes["/step"]
+    state_endpoint = routes["/state"]
+    reset_payload = _call(reset_endpoint, ResetRequest(task_id="bursty_workload", seed=42))
+    session_id = reset_payload["session_id"]
+    assert session_id
+    assert reset_payload["observation"]["step_index"] == 0
+    action = {
+        "batch_cap": 32,
+        "kv_budget_fraction": 1.0,
+        "speculation_depth": 0,
+        "quantization_tier": "FP16",
+        "prefill_decode_split": False,
+        "priority_routing": False,
+    }
+    first_payload = _call(step_endpoint, StepRequest(session_id=session_id, action=action))
+    second_payload = _call(step_endpoint, StepRequest(session_id=session_id, action=action))
+    assert first_payload["observation"]["step_index"] == 1
+    assert second_payload["observation"]["step_index"] == 2
+    assert first_payload["reward"] != second_payload["reward"]
+    state_payload = _call(state_endpoint, session_id=session_id)
+    assert state_payload["step_count"] == 2

tests/test_inference.py ADDED Viewed

	@@ -0,0 +1,29 @@

+from __future__ import annotations
+from pathlib import Path
+import inference
+from server import replay_assets
+def test_resolve_data_path_finds_lookup_table() -> None:
+    path = replay_assets.resolve_data_path("lookup_tables/latency_table.parquet")
+    assert path.exists()
+    assert path.name in {"latency_table.parquet", "serving_profile_table.parquet"}
+def test_main_returns_zero_when_env_init_fails(monkeypatch, capsys) -> None:
+    class BrokenEnv:
+        def __init__(self, *args, **kwargs) -> None:
+            raise RuntimeError("simulator bootstrap failed")
+    monkeypatch.setattr(inference, "LLMServeEnvironment", BrokenEnv)
+    monkeypatch.setattr(inference, "_create_client", lambda: None)
+    rc = inference.main()
+    output = capsys.readouterr().out
+    assert rc == 0
+    assert output.count("[START]") == len(inference.TASKS)
+    assert output.count("[END]") == len(inference.TASKS)
+    assert "simulator bootstrap failed" in output