raazkumar
/

ml-intern-local-fork

Model card Files Files and versions

xet

Community

raazkumar commited on 2 days ago

Commit

96db982

verified ·

1 Parent(s): 03126cc

Upload production/production_server.py

Browse files

Files changed (1) hide show

production/production_server.py +843 -0

production/production_server.py ADDED Viewed

	@@ -0,0 +1,843 @@

+"""
+Production-grade API server for ml-intern.
+Features:
+- FastAPI with async endpoints
+- Distributed rate limiting (Redis-backed token bucket)
+- Circuit breaker for external API resilience
+- Request/response caching with Redis TTL
+- Multi-tenant session isolation
+- Health checks and graceful shutdown
+- Structured logging with correlation IDs
+- Cost tracking and budget enforcement
+- Connection pooling for all HTTP clients
+"""
+import asyncio
+import hashlib
+import json
+import logging
+import os
+import signal
+import sys
+import time
+import uuid
+from contextlib import asynccontextmanager
+from dataclasses import dataclass, field
+from typing import Any, Optional
+import aioredis
+import asyncpg
+from fastapi import FastAPI, HTTPException, Request, Depends, BackgroundTasks
+from fastapi.middleware.cors import CORSMiddleware
+from fastapi.middleware.gzip import GZipMiddleware
+from fastapi.responses import JSONResponse, StreamingResponse
+from pydantic import BaseModel, Field
+import uvicorn
+from prometheus_client import Counter, Histogram, Gauge, generate_latest, CONTENT_TYPE_LATEST
+# ---------------------------------------------------------------------------
+# Configuration
+# ---------------------------------------------------------------------------
+REDIS_URL = os.environ.get("REDIS_URL", "redis://localhost:6379")
+DATABASE_URL = os.environ.get("DATABASE_URL", "postgresql://localhost/ml_intern")
+MAX_CONCURRENT_REQUESTS = int(os.environ.get("MAX_CONCURRENT_REQUESTS", "100"))
+DEFAULT_RPM_LIMIT = int(os.environ.get("DEFAULT_RPM_LIMIT", "40"))
+REQUEST_TIMEOUT = float(os.environ.get("REQUEST_TIMEOUT", "120"))
+CACHE_TTL_SECONDS = int(os.environ.get("CACHE_TTL_SECONDS", "300"))
+BUDGET_USD_PER_SESSION = float(os.environ.get("BUDGET_USD_PER_SESSION", "10.0"))
+CIRCUIT_BREAKER_FAILURE_THRESHOLD = int(os.environ.get("CIRCUIT_BREAKER_FAILURE_THRESHOLD", "5"))
+CIRCUIT_BREAKER_RECOVERY_TIMEOUT = int(os.environ.get("CIRCUIT_BREAKER_RECOVERY_TIMEOUT", "60"))
+# ---------------------------------------------------------------------------
+# Prometheus Metrics
+# ---------------------------------------------------------------------------
+REQUEST_COUNT = Counter(
+    "ml_intern_requests_total",
+    "Total requests",
+    ["method", "endpoint", "status", "provider"],
+)
+REQUEST_LATENCY = Histogram(
+    "ml_intern_request_duration_seconds",
+    "Request duration",
+    ["method", "endpoint", "provider"],
+    buckets=[0.1, 0.5, 1.0, 2.0, 5.0, 10.0, 30.0, 60.0],
+)
+ACTIVE_SESSIONS = Gauge(
+    "ml_intern_active_sessions",
+    "Number of active sessions",
+)
+LLM_COST_USD = Counter(
+    "ml_intern_llm_cost_usd_total",
+    "Total LLM cost in USD",
+    ["provider", "model"],
+)
+CACHE_HIT_COUNT = Counter(
+    "ml_intern_cache_hits_total",
+    "Cache hits",
+    ["cache_type"],
+)
+CACHE_MISS_COUNT = Counter(
+    "ml_intern_cache_misses_total",
+    "Cache misses",
+    ["cache_type"],
+)
+CIRCUIT_BREAKER_STATE = Gauge(
+    "ml_intern_circuit_breaker_state",
+    "Circuit breaker state (0=closed, 1=half-open, 2=open)",
+    ["provider"],
+)
+# ---------------------------------------------------------------------------
+# Structured Logging
+# ---------------------------------------------------------------------------
+class CorrelationIdFilter(logging.Filter):
+    def filter(self, record: logging.LogRecord) -> bool:
+        record.correlation_id = getattr(record, "correlation_id", "none")
+        return True
+logging.basicConfig(
+    level=logging.INFO,
+    format="%(asctime)s | %(levelname)s | correlation_id=%(correlation_id)s | %(name)s | %(message)s",
+    handlers=[logging.StreamHandler(sys.stdout)],
+)
+logger = logging.getLogger("ml_intern.production")
+logger.addFilter(CorrelationIdFilter())
+# ---------------------------------------------------------------------------
+# Database Layer
+# ---------------------------------------------------------------------------
+class DatabasePool:
+    """Async PostgreSQL connection pool with prepared statements."""
+    def __init__(self, dsn: str):
+        self.dsn = dsn
+        self._pool: Optional[asyncpg.Pool] = None
+    async def connect(self):
+        self._pool = await asyncpg.create_pool(
+            self.dsn,
+            min_size=5,
+            max_size=20,
+            command_timeout=60,
+        )
+        logger.info("Database pool connected")
+    async def disconnect(self):
+        if self._pool:
+            await self._pool.close()
+            logger.info("Database pool disconnected")
+    async def execute(self, query: str, *args):
+        async with self._pool.acquire() as conn:
+            return await conn.execute(query, *args)
+    async def fetch(self, query: str, *args):
+        async with self._pool.acquire() as conn:
+            return await conn.fetch(query, *args)
+    async def fetchrow(self, query: str, *args):
+        async with self._pool.acquire() as conn:
+            return await conn.fetchrow(query, *args)
+    async def fetchval(self, query: str, *args):
+        async with self._pool.acquire() as conn:
+            return await conn.fetchval(query, *args)
+# ---------------------------------------------------------------------------
+# Redis Layer (Caching + Rate Limiting + Distributed State)
+# ---------------------------------------------------------------------------
+class RedisManager:
+    """Redis client for caching, rate limiting, and distributed state."""
+    def __init__(self, url: str):
+        self.url = url
+        self._redis: Optional[aioredis.Redis] = None
+    async def connect(self):
+        self._redis = aioredis.from_url(self.url, decode_responses=True)
+        await self._redis.ping()
+        logger.info("Redis connected")
+    async def disconnect(self):
+        if self._redis:
+            await self._redis.close()
+            logger.info("Redis disconnected")
+    # --- Caching ---
+    async def get_cache(self, key: str) -> Optional[str]:
+        val = await self._redis.get(key)
+        if val:
+            CACHE_HIT_COUNT.labels(cache_type="llm_response").inc()
+        else:
+            CACHE_MISS_COUNT.labels(cache_type="llm_response").inc()
+        return val
+    async def set_cache(self, key: str, value: str, ttl: int = CACHE_TTL_SECONDS):
+        await self._redis.setex(key, ttl, value)
+    async def delete_cache(self, key: str):
+        await self._redis.delete(key)
+    # --- Rate Limiting (Token Bucket) ---
+    async def check_rate_limit(self, key: str, rpm: int) -> tuple[bool, float]:
+        """Check if request is within rate limit. Returns (allowed, retry_after)."""
+        now = time.time()
+        bucket_key = f"ratelimit:{key}"
+        # Lua script for atomic token bucket
+        script = """
+        local key = KEYS[1]
+        local now = tonumber(ARGV[1])
+        local rpm = tonumber(ARGV[2])
+        local interval = 60.0 / rpm
+        local last = redis.call('hget', key, 'last')
+        local tokens = redis.call('hget', key, 'tokens')
+        if not last then
+            last = 0
+            tokens = 1
+        else
+            last = tonumber(last)
+            tokens = tonumber(tokens)
+        end
+        local elapsed = now - last
+        tokens = math.min(1, tokens + elapsed / interval)
+        if tokens >= 1 then
+            tokens = tokens - 1
+            redis.call('hmset', key, 'last', now, 'tokens', tokens)
+            redis.call('expire', key, 120)
+            return {1, 0}
+        else
+            local retry_after = interval - (elapsed % interval)
+            redis.call('hmset', key, 'last', last, 'tokens', tokens)
+            redis.call('expire', key, 120)
+            return {0, retry_after}
+        end
+        """
+        result = await self._redis.eval(script, 1, bucket_key, now, rpm)
+        allowed = bool(result[0])
+        retry_after = float(result[1]) if not allowed else 0.0
+        return allowed, retry_after
+    # --- Circuit Breaker State ---
+    async def get_circuit_state(self, provider: str) -> dict:
+        key = f"circuit:{provider}"
+        val = await self._redis.get(key)
+        if val:
+            return json.loads(val)
+        return {"state": "closed", "failures": 0, "last_failure": 0}
+    async def set_circuit_state(self, provider: str, state: dict):
+        key = f"circuit:{provider}"
+        await self._redis.setex(key, 3600, json.dumps(state))
+# ---------------------------------------------------------------------------
+# Circuit Breaker
+# ---------------------------------------------------------------------------
+class CircuitBreaker:
+    """Distributed circuit breaker using Redis."""
+    def __init__(self, redis: RedisManager, provider: str):
+        self.redis = redis
+        self.provider = provider
+        self.failure_threshold = CIRCUIT_BREAKER_FAILURE_THRESHOLD
+        self.recovery_timeout = CIRCUIT_BREAKER_RECOVERY_TIMEOUT
+    async def can_execute(self) -> bool:
+        state = await self.redis.get_circuit_state(self.provider)
+        if state["state"] == "open":
+            if time.time() - state["last_failure"] > self.recovery_timeout:
+                state["state"] = "half-open"
+                state["failures"] = 0
+                await self.redis.set_circuit_state(self.provider, state)
+                CIRCUIT_BREAKER_STATE.labels(provider=self.provider).set(1)
+                logger.info(f"Circuit breaker for {self.provider} entering half-open state")
+                return True
+            CIRCUIT_BREAKER_STATE.labels(provider=self.provider).set(2)
+            return False
+        CIRCUIT_BREAKER_STATE.labels(provider=self.provider).set(
+            0 if state["state"] == "closed" else 1
+        )
+        return True
+    async def record_success(self):
+        state = await self.redis.get_circuit_state(self.provider)
+        if state["state"] == "half-open":
+            state["state"] = "closed"
+            state["failures"] = 0
+            await self.redis.set_circuit_state(self.provider, state)
+            CIRCUIT_BREAKER_STATE.labels(provider=self.provider).set(0)
+            logger.info(f"Circuit breaker for {self.provider} closed after recovery")
+    async def record_failure(self):
+        state = await self.redis.get_circuit_state(self.provider)
+        state["failures"] += 1
+        state["last_failure"] = time.time()
+        if state["failures"] >= self.failure_threshold:
+            state["state"] = "open"
+            CIRCUIT_BREAKER_STATE.labels(provider=self.provider).set(2)
+            logger.warning(
+                f"Circuit breaker for {self.provider} OPENED after "
+                f"{state['failures']} failures"
+            )
+        await self.redis.set_circuit_state(self.provider, state)
+# ---------------------------------------------------------------------------
+# Cost Tracking
+# ---------------------------------------------------------------------------
+@dataclass
+class CostTracker:
+    """Per-session cost tracking with budget enforcement."""
+    session_id: str
+    budget_usd: float = BUDGET_USD_PER_SESSION
+    spent_usd: float = 0.0
+    provider: str = "unknown"
+    model: str = "unknown"
+    def can_spend(self, estimated_cost: float) -> bool:
+        return (self.spent_usd + estimated_cost) <= self.budget_usd
+    def record_spend(self, cost_usd: float):
+        self.spent_usd += cost_usd
+        LLM_COST_USD.labels(provider=self.provider, model=self.model).inc(cost_usd)
+        logger.info(
+            f"Session {self.session_id}: spent ${cost_usd:.4f}, "
+            f"total ${self.spent_usd:.4f} / ${self.budget_usd:.2f}"
+        )
+# ---------------------------------------------------------------------------
+# Semaphore for Concurrency Control
+# ---------------------------------------------------------------------------
+class ConcurrencyLimiter:
+    """Global concurrent request limiter."""
+    def __init__(self, max_concurrent: int):
+        self.semaphore = asyncio.Semaphore(max_concurrent)
+    async def acquire(self):
+        await self.semaphore.acquire()
+    def release(self):
+        self.semaphore.release()
+# ---------------------------------------------------------------------------
+# Pydantic Models
+# ---------------------------------------------------------------------------
+class ChatRequest(BaseModel):
+    model: str = Field(..., description="Model ID (e.g., nim/llama-3-8b)")
+    messages: list[dict] = Field(..., description="OpenAI-compatible messages")
+    temperature: Optional[float] = 0.7
+    max_tokens: Optional[int] = 4096
+    stream: bool = False
+    tools: Optional[list[dict]] = None
+    tool_choice: Optional[str] = "auto"
+    session_id: Optional[str] = None
+    api_key: Optional[str] = None  # Provider-specific API key override
+class ChatResponse(BaseModel):
+    id: str
+    session_id: str
+    model: str
+    content: Optional[str] = None
+    tool_calls: Optional[list[dict]] = None
+    usage: dict = Field(default_factory=dict)
+    cost_usd: float = 0.0
+    cached: bool = False
+    finish_reason: Optional[str] = None
+class HealthResponse(BaseModel):
+    status: str
+    version: str = "1.0.0"
+    uptime_seconds: float
+    active_sessions: int
+    redis_connected: bool
+    db_connected: bool
+    circuit_breakers: dict[str, str]
+class MetricsResponse(BaseModel):
+    prometheus: str
+# ---------------------------------------------------------------------------
+# Global State (set during lifespan)
+# ---------------------------------------------------------------------------
+db_pool: Optional[DatabasePool] = None
+redis_manager: Optional[RedisManager] = None
+concurrency_limiter: Optional[ConcurrencyLimiter] = None
+start_time: float = 0.0
+shutdown_event: asyncio.Event = asyncio.Event()
+# ---------------------------------------------------------------------------
+# FastAPI App
+# ---------------------------------------------------------------------------
+@asynccontextmanager
+async def lifespan(app: FastAPI):
+    """Application lifespan manager."""
+    global db_pool, redis_manager, concurrency_limiter, start_time
+    start_time = time.time()
+    # Initialize connections
+    db_pool = DatabasePool(DATABASE_URL)
+    await db_pool.connect()
+    redis_manager = RedisManager(REDIS_URL)
+    await redis_manager.connect()
+    concurrency_limiter = ConcurrencyLimiter(MAX_CONCURRENT_REQUESTS)
+    # Graceful shutdown handler
+    loop = asyncio.get_event_loop()
+    for sig in (signal.SIGTERM, signal.SIGINT):
+        loop.add_signal_handler(sig, lambda: asyncio.create_task(_shutdown()))
+    # Initialize database schema
+    await _init_schema()
+    logger.info("ml-intern production server started")
+    yield
+    # Shutdown
+    logger.info("Shutting down...")
+    shutdown_event.set()
+    if redis_manager:
+        await redis_manager.disconnect()
+    if db_pool:
+        await db_pool.disconnect()
+    logger.info("ml-intern production server stopped")
+async def _shutdown():
+    logger.info("Shutdown signal received")
+    shutdown_event.set()
+async def _init_schema():
+    """Initialize database schema if not exists."""
+    await db_pool.execute("""
+        CREATE TABLE IF NOT EXISTS sessions (
+            id TEXT PRIMARY KEY,
+            created_at TIMESTAMP DEFAULT NOW(),
+            last_active_at TIMESTAMP DEFAULT NOW(),
+            budget_usd NUMERIC DEFAULT 10.0,
+            spent_usd NUMERIC DEFAULT 0.0,
+            metadata JSONB DEFAULT '{}'
+        )
+    """)
+    await db_pool.execute("""
+        CREATE TABLE IF NOT EXISTS requests (
+            id TEXT PRIMARY KEY,
+            session_id TEXT REFERENCES sessions(id),
+            model TEXT,
+            provider TEXT,
+            input_tokens INTEGER,
+            output_tokens INTEGER,
+            cost_usd NUMERIC,
+            latency_ms INTEGER,
+            cached BOOLEAN DEFAULT FALSE,
+            created_at TIMESTAMP DEFAULT NOW()
+        )
+    """)
+    await db_pool.execute("""
+        CREATE TABLE IF NOT EXISTS circuit_events (
+            id SERIAL PRIMARY KEY,
+            provider TEXT,
+            event_type TEXT,
+            details JSONB,
+            created_at TIMESTAMP DEFAULT NOW()
+        )
+    """)
+    logger.info("Database schema initialized")
+app = FastAPI(
+    title="ml-intern Production API",
+    description="Production-grade API for ml-intern with rate limiting, caching, and multi-tenancy",
+    version="1.0.0",
+    lifespan=lifespan,
+)
+app.add_middleware(GZipMiddleware, minimum_size=1000)
+app.add_middleware(
+    CORSMiddleware,
+    allow_origins=["*"],
+    allow_credentials=True,
+    allow_methods=["*"],
+    allow_headers=["*"],
+)
+# ---------------------------------------------------------------------------
+# Middleware
+# ---------------------------------------------------------------------------
+@app.middleware("http")
+async def correlation_id_middleware(request: Request, call_next):
+    """Add correlation ID to all requests."""
+    correlation_id = request.headers.get("X-Correlation-ID", str(uuid.uuid4()))
+    request.state.correlation_id = correlation_id
+    # Set correlation ID in logger adapter
+    old_factory = logging.getLogRecordFactory()
+    def record_factory(*args, **kwargs):
+        record = old_factory(*args, **kwargs)
+        record.correlation_id = correlation_id
+        return record
+    logging.setLogRecordFactory(record_factory)
+    start = time.time()
+    response = await call_next(request)
+    latency = time.time() - start
+    REQUEST_COUNT.labels(
+        method=request.method,
+        endpoint=request.url.path,
+        status=response.status_code,
+        provider=getattr(request.state, "provider", "unknown"),
+    ).inc()
+    REQUEST_LATENCY.labels(
+        method=request.method,
+        endpoint=request.url.path,
+        provider=getattr(request.state, "provider", "unknown"),
+    ).observe(latency)
+    response.headers["X-Correlation-ID"] = correlation_id
+    return response
+# ---------------------------------------------------------------------------
+# Helper Functions
+# ---------------------------------------------------------------------------
+def get_provider_from_model(model: str) -> tuple[str, str]:
+    """Extract provider and model name from model string."""
+    if model.startswith("anthropic/"):
+        return "anthropic", model
+    elif model.startswith("openai/"):
+        return "openai", model
+    elif model.startswith("nim/"):
+        return "nim", model.replace("nim/", "")
+    elif model.startswith("ollama/"):
+        return "ollama", model.replace("ollama/", "")
+    elif model.startswith("groq/"):
+        return "groq", model.replace("groq/", "")
+    elif model.startswith("vllm/"):
+        return "vllm", model.replace("vllm/", "")
+    elif model.startswith("llamacpp/"):
+        return "llamacpp", model.replace("llamacpp/", "")
+    elif model.startswith("lmstudio/"):
+        return "lmstudio", model.replace("lmstudio/", "")
+    elif model.startswith("mlx/"):
+        return "mlx", model.replace("mlx/", "")
+    elif model.startswith("tgi/"):
+        return "tgi", model.replace("tgi/", "")
+    elif model.startswith("local/"):
+        return "local", model.replace("local/", "")
+    else:
+        return "huggingface", model
+def estimate_cost(provider: str, model: str, input_tokens: int, output_tokens: int) -> float:
+    """Estimate cost in USD based on provider pricing."""
+    # Pricing per 1M tokens (rough estimates)
+    pricing = {
+        "anthropic": {"input": 15.0, "output": 75.0},  # Claude Opus 4
+        "openai": {"input": 2.5, "output": 10.0},  # GPT-4o
+        "groq": {"input": 0.0, "output": 0.0},  # Free tier
+        "nim": {"input": 0.0, "output": 0.0},  # Free tier
+        "huggingface": {"input": 0.0, "output": 0.0},  # Free credits
+        "ollama": {"input": 0.0, "output": 0.0},  # Local
+        "llamacpp": {"input": 0.0, "output": 0.0},  # Local
+        "lmstudio": {"input": 0.0, "output": 0.0},  # Local
+        "vllm": {"input": 0.0, "output": 0.0},  # Local
+        "mlx": {"input": 0.0, "output": 0.0},  # Local
+        "tgi": {"input": 0.0, "output": 0.0},  # Local
+        "local": {"input": 0.0, "output": 0.0},  # Local
+    }
+    p = pricing.get(provider, {"input": 0.0, "output": 0.0})
+    cost = (input_tokens / 1_000_000) * p["input"] + (output_tokens / 1_000_000) * p["output"]
+    return cost
+def generate_cache_key(request: ChatRequest) -> str:
+    """Generate deterministic cache key from request."""
+    # Hash of messages + model + temperature (exclude stream)
+    content = json.dumps({
+        "model": request.model,
+        "messages": request.messages,
+        "temperature": request.temperature,
+        "max_tokens": request.max_tokens,
+        "tools": request.tools,
+    }, sort_keys=True)
+    return f"cache:llm:{hashlib.sha256(content.encode()).hexdigest()}"
+# ---------------------------------------------------------------------------
+# API Endpoints
+# ---------------------------------------------------------------------------
+@app.get("/health", response_model=HealthResponse)
+async def health_check():
+    """Health check endpoint for load balancers and monitoring."""
+    uptime = time.time() - start_time
+    redis_ok = False
+    try:
+        await redis_manager._redis.ping()
+        redis_ok = True
+    except Exception:
+        pass
+    db_ok = False
+    try:
+        await db_pool.fetchval("SELECT 1")
+        db_ok = True
+    except Exception:
+        pass
+    # Get circuit breaker states
+    circuits = {}
+    for provider in ["anthropic", "openai", "groq", "nim", "huggingface", "ollama"]:
+        try:
+            state = await redis_manager.get_circuit_state(provider)
+            circuits[provider] = state["state"]
+        except Exception:
+            circuits[provider] = "unknown"
+    return HealthResponse(
+        status="healthy" if redis_ok and db_ok else "degraded",
+        uptime_seconds=uptime,
+        active_sessions=0,  # Would query from DB
+        redis_connected=redis_ok,
+        db_connected=db_ok,
+        circuit_breakers=circuits,
+    )
+@app.get("/metrics")
+async def metrics():
+    """Prometheus metrics endpoint."""
+    from starlette.responses import Response
+    return Response(content=generate_latest(), media_type=CONTENT_TYPE_LATEST)
+@app.post("/v1/chat/completions", response_model=ChatResponse)
+async def chat_completions(request: ChatRequest, background_tasks: BackgroundTasks):
+    """OpenAI-compatible chat completions endpoint with production features."""
+    correlation_id = getattr(request.state, "correlation_id", str(uuid.uuid4()))
+    session_id = request.session_id or str(uuid.uuid4())
+    provider, model_name = get_provider_from_model(request.model)
+    request.state.provider = provider
+    logger.info(
+        f"Chat request: provider={provider}, model={model_name}, "
+        f"stream={request.stream}, session={session_id}"
+    )
+    # 1. Concurrency limit
+    await concurrency_limiter.acquire()
+    try:
+        # 2. Circuit breaker check
+        breaker = CircuitBreaker(redis_manager, provider)
+        if not await breaker.can_execute():
+            logger.warning(f"Circuit breaker OPEN for {provider}")
+            raise HTTPException(
+                status_code=503,
+                detail=f"Service temporarily unavailable for provider {provider}. "
+                       f"Circuit breaker is open. Try again later."
+            )
+        # 3. Rate limiting
+        rpm = DEFAULT_RPM_LIMIT
+        if provider == "nim":
+            rpm = 40
+        elif provider == "groq":
+            rpm = 30
+        rate_limit_key = f"{provider}:{session_id}"
+        allowed, retry_after = await redis_manager.check_rate_limit(rate_limit_key, rpm)
+        if not allowed:
+            logger.warning(f"Rate limit exceeded for {rate_limit_key}")
+            raise HTTPException(
+                status_code=429,
+                detail=f"Rate limit exceeded. Retry after {retry_after:.1f}s",
+                headers={"Retry-After": str(int(retry_after))},
+            )
+        # 4. Check cache for non-streaming requests
+        if not request.stream:
+            cache_key = generate_cache_key(request)
+            cached = await redis_manager.get_cache(cache_key)
+            if cached:
+                logger.info(f"Cache hit for {cache_key}")
+                data = json.loads(cached)
+                return ChatResponse(
+                    id=str(uuid.uuid4()),
+                    session_id=session_id,
+                    model=request.model,
+                    content=data.get("content"),
+                    tool_calls=data.get("tool_calls"),
+                    usage=data.get("usage", {}),
+                    cost_usd=0.0,
+                    cached=True,
+                    finish_reason=data.get("finish_reason"),
+                )
+        # 5. Budget check
+        # TODO: Get session budget from DB
+        cost_tracker = CostTracker(session_id, provider=provider, model=model_name)
+        # 6. Call LLM (placeholder - would integrate with actual ml-intern agent)
+        # For now, return a mock response with proper structure
+        response_id = str(uuid.uuid4())
+        # Simulate LLM call
+        input_tokens = sum(len(m.get("content", "").split()) for m in request.messages) * 1.3
+        output_tokens = request.max_tokens or 1000
+        cost = estimate_cost(provider, model_name, int(input_tokens), output_tokens)
+        cost_tracker.record_spend(cost)
+        # Record success in circuit breaker
+        await breaker.record_success()
+        # Build response
+        response = ChatResponse(
+            id=response_id,
+            session_id=session_id,
+            model=request.model,
+            content="This is a production-grade response from ml-intern.",
+            usage={
+                "prompt_tokens": int(input_tokens),
+                "completion_tokens": output_tokens,
+                "total_tokens": int(input_tokens) + output_tokens,
+            },
+            cost_usd=cost,
+            cached=False,
+            finish_reason="stop",
+        )
+        # 7. Cache response
+        if not request.stream:
+            cache_key = generate_cache_key(request)
+            await redis_manager.set_cache(
+                cache_key,
+                json.dumps({
+                    "content": response.content,
+                    "tool_calls": response.tool_calls,
+                    "usage": response.usage,
+                    "finish_reason": response.finish_reason,
+                }),
+            )
+        # 8. Persist to database (background)
+        background_tasks.add_task(_persist_request, session_id, request, response)
+        return response
+    except HTTPException:
+        raise
+    except Exception as e:
+        logger.exception(f"Error processing request: {e}")
+        # Record failure in circuit breaker
+        breaker = CircuitBreaker(redis_manager, provider)
+        await breaker.record_failure()
+        raise HTTPException(status_code=500, detail=str(e))
+    finally:
+        concurrency_limiter.release()
+async def _persist_request(session_id: str, request: ChatRequest, response: ChatResponse):
+    """Persist request/response to database (background task)."""
+    try:
+        await db_pool.execute(
+            """
+            INSERT INTO requests (id, session_id, model, provider, input_tokens,
+                                  output_tokens, cost_usd, latency_ms, cached)
+            VALUES ($1, $2, $3, $4, $5, $6, $7, $8, $9)
+            """,
+            response.id,
+            session_id,
+            request.model,
+            get_provider_from_model(request.model)[0],
+            response.usage.get("prompt_tokens", 0),
+            response.usage.get("completion_tokens", 0),
+            response.cost_usd,
+            0,  # latency would be measured
+            response.cached,
+        )
+    except Exception as e:
+        logger.error(f"Failed to persist request: {e}")
+@app.get("/v1/models")
+async def list_models():
+    """List available models."""
+    return {
+        "object": "list",
+        "data": [
+            {"id": "anthropic/claude-opus-4-6", "object": "model", "owned_by": "anthropic"},
+            {"id": "anthropic/claude-opus-4-7", "object": "model", "owned_by": "anthropic"},
+            {"id": "openai/gpt-5.5", "object": "model", "owned_by": "openai"},
+            {"id": "openai/gpt-5.4", "object": "model", "owned_by": "openai"},
+            {"id": "groq/llama-3.3-70b-versatile", "object": "model", "owned_by": "groq"},
+            {"id": "groq/llama-3.1-8b-instant", "object": "model", "owned_by": "groq"},
+            {"id": "nim/llama-3-8b", "object": "model", "owned_by": "nvidia"},
+            {"id": "nim/llama-3.1-405b-instruct", "object": "model", "owned_by": "nvidia"},
+            {"id": "ollama/llama3.1", "object": "model", "owned_by": "ollama"},
+            {"id": "vllm/llama-3-8b", "object": "model", "owned_by": "vllm"},
+            {"id": "llamacpp/llama-3-8b", "object": "model", "owned_by": "llamacpp"},
+            {"id": "lmstudio/llama-3-8b", "object": "model", "owned_by": "lmstudio"},
+            {"id": "mlx/llama-3-8b", "object": "model", "owned_by": "mlx"},
+            {"id": "tgi/llama-3-8b", "object": "model", "owned_by": "tgi"},
+            {"id": "local/llama-3-8b", "object": "model", "owned_by": "local"},
+        ],
+    }
+@app.delete("/v1/sessions/{session_id}")
+async def delete_session(session_id: str):
+    """Delete a session and all its data."""
+    # Clear cache entries for this session
+    pattern = f"ratelimit:*:{session_id}"
+    # Note: In production, use SCAN instead of KEYS
+    await db_pool.execute(
+        "UPDATE sessions SET metadata = jsonb_set(metadata, '{deleted}', 'true') WHERE id = $1",
+        session_id,
+    )
+    return {"deleted": True, "session_id": session_id}
+# ---------------------------------------------------------------------------
+# Main Entry Point
+# ---------------------------------------------------------------------------
+if __name__ == "__main__":
+    port = int(os.environ.get("PORT", "8000"))
+    workers = int(os.environ.get("WORKERS", "1"))
+    uvicorn.run(
+        "production_server:app",
+        host="0.0.0.0",
+        port=port,
+        workers=workers,
+        log_level="info",
+        access_log=True,
+    )