tritesh
/

dflash-mlx-universal

+"""
+OpenAI-compatible HTTP server for DFlash speculative decoding on MLX.
+Supports:
+- POST /v1/chat/completions (with streaming via SSE)
+- POST /v1/completions
+- GET /v1/models
+- GET /health
+- GET /metrics (DFlash-specific diagnostics)
+Inspired by bstnxbt/dflash-mlx server architecture and Aryagm's OpenAI server.
+"""
+import json
+import time
+from typing import Any, Dict, List, Optional
+from .speculative_decode import DFlashSpeculativeDecoder
+from .adapters import load_target_model, LoadedTargetModel
+from .convert import load_mlx_dflash
+class DFlashServer:
+    """OpenAI-compatible server wrapping a DFlashSpeculativeDecoder."""
+    def __init__(
+        self,
+        target_model_path: str,
+        draft_model_path: Optional[str] = None,
+        block_size: int = 16,
+        device: str = "metal",
+    ):
+        """Initialize server with target and optional draft model.
+        Args:
+            target_model_path: Path or HF ID of MLX target model
+            draft_model_path: Path or HF ID of converted DFlash drafter
+            block_size: Draft block size
+            device: MLX device
+        """
+        print(f"[Server] Loading target model: {target_model_path}...")
+        self.loaded_target = load_target_model(target_model_path)
+        if draft_model_path:
+            print(f"[Server] Loading DFlash drafter: {draft_model_path}...")
+            self.draft_model, self.draft_config = load_mlx_dflash(draft_model_path)
+        else:
+            # Try to auto-resolve draft model
+            from .convert import _infer_target_model
+            inferred = _infer_target_model(target_model_path)
+            if inferred and inferred != "unknown":
+                print(f"[Server] Auto-resolved drafter: {inferred}")
+                # Look up in registry...
+                self.draft_model, self.draft_config = None, None
+            else:
+                print("[Server] No draft model — will use baseline generation")
+                self.draft_model, self.draft_config = None, None
+        if self.draft_model is not None:
+            self.decoder = DFlashSpeculativeDecoder(
+                target_model=self.loaded_target,
+                draft_model=self.draft_model,
+                tokenizer=self.loaded_target.tokenizer,
+                block_size=block_size,
+                device=device,
+            )
+            self.mode = "dflash"
+        else:
+            self.decoder = None
+            self.mode = "baseline"
+        # Metrics
+        self.request_count = 0
+        self.total_tokens = 0
+        self.total_time = 0.0
+        self.recent_requests: List[Dict] = []
+    def health(self) -> Dict[str, Any]:
+        return {"status": "ok", "mode": self.mode, "model": self.loaded_target.requested_model}
+    def models(self) -> Dict[str, Any]:
+        return {
+            "object": "list",
+            "data": [{
+                "id": self.loaded_target.requested_model,
+                "object": "model",
+                "owned_by": "dflash-mlx-universal",
+            }]
+        }
+    def metrics(self) -> Dict[str, Any]:
+        avg_tok_s = self.total_tokens / self.total_time if self.total_time > 0 else 0
+        return {
+            "request_count": self.request_count,
+            "total_tokens": self.total_tokens,
+            "avg_tokens_per_sec": avg_tok_s,
+            "recent_requests": self.recent_requests[-32:],
+            "mode": self.mode,
+        }
+    def _update_metrics(self, num_tokens: int, elapsed: float):
+        self.request_count += 1
+        self.total_tokens += num_tokens
+        self.total_time += elapsed
+        self.recent_requests.append({
+            "timestamp": time.time(),
+            "tokens": num_tokens,
+            "time_sec": elapsed,
+            "tok_s": num_tokens / elapsed if elapsed > 0 else 0,
+        })
+        if len(self.recent_requests) > 32:
+            self.recent_requests = self.recent_requests[-32:]
+    def chat_completions(
+        self,
+        messages: List[Dict[str, str]],
+        max_tokens: int = 1024,
+        temperature: float = 0.0,
+        stream: bool = False,
+        stop: Optional[List[str]] = None,
+    ) -> Dict[str, Any] | Any:
+        """Handle chat completion request.
+        Returns dict for non-streaming, generator for streaming.
+        """
+        # Build prompt from messages
+        prompt = self._messages_to_prompt(messages)
+        if stream:
+            return self._stream_chat(prompt, max_tokens, temperature, stop)
+        # Non-streaming
+        start = time.time()
+        if self.mode == "dflash" and self.decoder is not None:
+            output = self.decoder.generate(
+                prompt=prompt,
+                max_tokens=max_tokens,
+                temperature=temperature,
+                stop_strings=stop,
+            )
+        else:
+            # Baseline mlx_lm generation
+            from mlx_lm.utils import generate as mlx_generate
+            output = mlx_generate(
+                model=self.loaded_target.model,
+                tokenizer=self.loaded_target.tokenizer,
+                prompt=prompt,
+                max_tokens=max_tokens,
+                temp=temperature,
+            )
+        elapsed = time.time() - start
+        num_tokens = len(self.loaded_target.tokenizer.encode(output))
+        self._update_metrics(num_tokens, elapsed)
+        return {
+            "id": f"chatcmpl-{int(time.time()*1000)}",
+            "object": "chat.completion",
+            "created": int(time.time()),
+            "model": self.loaded_target.requested_model,
+            "choices": [{
+                "index": 0,
+                "message": {
+                    "role": "assistant",
+                    "content": output,
+                },
+                "finish_reason": "stop",
+            }],
+            "usage": {
+                "prompt_tokens": len(self.loaded_target.tokenizer.encode(prompt)),
+                "completion_tokens": num_tokens,
+                "total_tokens": len(self.loaded_target.tokenizer.encode(prompt)) + num_tokens,
+            }
+        }
+    def _stream_chat(self, prompt: str, max_tokens: int, temperature: float, stop):
+        """Generator for streaming SSE chunks."""
+        def event(data: Dict) -> str:
+            return f"data: {json.dumps(data)}\n\n"
+        # Yield initial role
+        yield event({
+            "id": f"chatcmpl-{int(time.time()*1000)}",
+            "object": "chat.completion.chunk",
+            "created": int(time.time()),
+            "model": self.loaded_target.requested_model,
+            "choices": [{"index": 0, "delta": {"role": "assistant"}, "finish_reason": None}],
+        })
+        accumulated = ""
+        if self.mode == "dflash" and self.decoder is not None:
+            # Use streaming generate
+            for chunk in self.decoder.generate(
+                prompt=prompt,
+                max_tokens=max_tokens,
+                temperature=temperature,
+                stop_strings=stop,
+                stream=True,
+            ):
+                accumulated += chunk
+                yield event({
+                    "id": f"chatcmpl-{int(time.time()*1000)}",
+                    "object": "chat.completion.chunk",
+                    "created": int(time.time()),
+                    "model": self.loaded_target.requested_model,
+                    "choices": [{"index": 0, "delta": {"content": chunk}, "finish_reason": None}],
+                })
+        else:
+            # Baseline: generate then stream word-by-word (not true streaming)
+            from mlx_lm.utils import generate as mlx_generate
+            output = mlx_generate(
+                model=self.loaded_target.model,
+                tokenizer=self.loaded_target.tokenizer,
+                prompt=prompt,
+                max_tokens=max_tokens,
+                temp=temperature,
+            )
+            for word in output.split(" "):
+                chunk = word + " "
+                accumulated += chunk
+                yield event({
+                    "id": f"chatcmpl-{int(time.time()*1000)}",
+                    "object": "chat.completion.chunk",
+                    "created": int(time.time()),
+                    "model": self.loaded_target.requested_model,
+                    "choices": [{"index": 0, "delta": {"content": chunk}, "finish_reason": None}],
+                })
+        # Final chunk
+        yield event({
+            "id": f"chatcmpl-{int(time.time()*1000)}",
+            "object": "chat.completion.chunk",
+            "created": int(time.time()),
+            "model": self.loaded_target.requested_model,
+            "choices": [{"index": 0, "delta": {}, "finish_reason": "stop"}],
+        })
+        yield "data: [DONE]\n\n"
+    def _messages_to_prompt(self, messages: List[Dict[str, str]]) -> str:
+        """Convert OpenAI messages format to prompt string."""
+        # Try chat template
+        tokenizer = self.loaded_target.tokenizer
+        if hasattr(tokenizer, "apply_chat_template"):
+            try:
+                return tokenizer.apply_chat_template(
+                    messages,
+                    tokenize=False,
+                    add_generation_prompt=True,
+                )
+            except Exception:
+                pass
+        # Fallback: simple concatenation
+        prompt = ""
+        for msg in messages:
+            role = msg.get("role", "user")
+            content = msg.get("content", "")
+            if role == "system":
+                prompt += f"System: {content}\n"
+            elif role == "user":
+                prompt += f"User: {content}\n"
+            elif role == "assistant":
+                prompt += f"Assistant: {content}\n"
+        prompt += "Assistant: "
+        return prompt
+def create_app(target_model: str, draft_model: Optional[str] = None, block_size: int = 16):
+    """Create a Flask/FastAPI-style app for serving."""
+    try:
+        from fastapi import FastAPI, Request
+        from fastapi.responses import StreamingResponse
+        app = FastAPI(title="DFlash MLX Server")
+        server = DFlashServer(target_model, draft_model, block_size)
+        @app.get("/health")
+        async def health():
+            return server.health()
+        @app.get("/v1/models")
+        async def models():
+            return server.models()
+        @app.get("/metrics")
+        async def metrics():
+            return server.metrics()
+        @app.post("/v1/chat/completions")
+        async def chat_completions(request: Request):
+            body = await request.json()
+            messages = body.get("messages", [])
+            max_tokens = body.get("max_tokens", 1024)
+            temperature = body.get("temperature", 0.0)
+            stream = body.get("stream", False)
+            stop = body.get("stop", None)
+            result = server.chat_completions(
+                messages=messages,
+                max_tokens=max_tokens,
+                temperature=temperature,
+                stream=stream,
+                stop=stop,
+            )
+            if stream:
+                return StreamingResponse(result, media_type="text/event-stream")
+            return result
+        return app
+    except ImportError:
+        print("[Server] FastAPI not installed. Install with: pip install fastapi uvicorn")
+        # Fallback: simple HTTP server
+        from http.server import BaseHTTPRequestHandler, HTTPServer
+        import threading
+        class Handler(BaseHTTPRequestHandler):
+            server_instance = None
+            def do_GET(self):
+                if self.path == "/health":
+                    self._json_response(200, self.server_instance.health())
+                elif self.path == "/v1/models":
+                    self._json_response(200, self.server_instance.models())
+                elif self.path == "/metrics":
+                    self._json_response(200, self.server_instance.metrics())
+                else:
+                    self._json_response(404, {"error": "Not found"})
+            def do_POST(self):
+                if self.path == "/v1/chat/completions":
+                    content_len = int(self.headers.get("Content-Length", 0))
+                    body = json.loads(self.rfile.read(content_len))
+                    result = self.server_instance.chat_completions(
+                        messages=body.get("messages", []),
+                        max_tokens=body.get("max_tokens", 1024),
+                        temperature=body.get("temperature", 0.0),
+                        stream=False,
+                        stop=body.get("stop", None),
+                    )
+                    self._json_response(200, result)
+                else:
+                    self._json_response(404, {"error": "Not found"})
+            def _json_response(self, status: int, data: Dict):
+                self.send_response(status)
+                self.send_header("Content-Type", "application/json")
+                self.end_headers()
+                self.wfile.write(json.dumps(data).encode())
+        Handler.server_instance = DFlashServer(target_model, draft_model, block_size)
+        return Handler
+def main():
+    import argparse
+    parser = argparse.ArgumentParser(description="DFlash MLX OpenAI-compatible server")
+    parser.add_argument("--target", required=True, help="Target model path or HF ID")
+    parser.add_argument("--draft", default=None, help="Draft model path or HF ID")
+    parser.add_argument("--block-size", type=int, default=16)
+    parser.add_argument("--host", default="127.0.0.1")
+    parser.add_argument("--port", type=int, default=8000)
+    parser.add_argument("--device", default="metal")
+    args = parser.parse_args()
+    server = DFlashServer(args.target, args.draft, args.block_size, args.device)
+    try:
+        import uvicorn
+        from fastapi import FastAPI, Request
+        from fastapi.responses import StreamingResponse
+        app = FastAPI()
+        @app.get("/health")
+        async def health():
+            return server.health()
+        @app.get("/v1/models")
+        async def models():
+            return server.models()
+        @app.get("/metrics")
+        async def metrics():
+            return server.metrics()
+        @app.post("/v1/chat/completions")
+        async def chat_completions(request: Request):
+            body = await request.json()
+            result = server.chat_completions(
+                messages=body.get("messages", []),
+                max_tokens=body.get("max_tokens", 1024),
+                temperature=body.get("temperature", 0.0),
+                stream=body.get("stream", False),
+                stop=body.get("stop", None),
+            )
+            if body.get("stream", False):
+                return StreamingResponse(result, media_type="text/event-stream")
+            return result
+        print(f"[Server] Starting FastAPI on http://{args.host}:{args.port}")
+        uvicorn.run(app, host=args.host, port=args.port)
+    except ImportError:
+        print("[Server] FastAPI/uvicorn not available, using simple HTTP server")
+        from http.server import HTTPServer
+        handler = create_app(args.target, args.draft, args.block_size)
+        httpd = HTTPServer((args.host, args.port), handler)
+        print(f"[Server] Starting simple HTTP on http://{args.host}:{args.port}")
+        httpd.serve_forever()
+if __name__ == "__main__":
+    main()