Spaces:

surrogate1
/

coder-zero-gpu-1

Starting

App Files Files Community

surrogate1 commited on 5 days ago

Commit

c92f8a7

verified ·

1 Parent(s): f261990

switch to thin HF Router proxy (no model loading)

Browse files

Files changed (3) hide show

README.md +4 -10
app.py +30 -52
requirements.txt +0 -5

README.md CHANGED Viewed

@@ -1,5 +1,5 @@
 ---
-title: axentx Coder ZeroGPU 1
 emoji: 🦉
 colorFrom: indigo
 colorTo: purple
@@ -7,14 +7,8 @@ sdk: gradio
 sdk_version: 5.9.1
 app_file: app.py
 pinned: false
-short_description: Qwen2.5-Coder-32B-Instruct-AWQ on ZeroGPU H200
 ---
-# axentx coder-zero-gpu-1
-OpenAI-compatible code generation endpoint backed by `Qwen2.5-Coder-32B-Instruct-AWQ`.
-## Endpoints
-- `POST /v1/chat/completions` — OpenAI-compatible chat
-- `GET /health` — model + status
-- `/` — Gradio chat UI

 ---
+title: axentx Coder Proxy 1
 emoji: 🦉
 colorFrom: indigo
 colorTo: purple
 sdk_version: 5.9.1
 app_file: app.py
 pinned: false
+short_description: HF Router proxy for Qwen3-Coder (no GPU needed)
 ---
+OpenAI-compatible proxy to HF Inference Router. Adds independent rate-limit
+bucket for the axentx pipeline.

app.py CHANGED Viewed

@@ -1,53 +1,36 @@
-"""axentx coder-zero-gpu-1 — Qwen2.5-Coder-7B-Instruct on ZeroGPU.
-Smaller model = faster cold start = more calls/min. 7B is plenty for
-feature-builder code-gen workload. OpenAI-compatible /v1/chat/completions
-endpoint for direct chain integration.
 """
-import os, time
-import spaces
-import torch
-import gradio as gr
 from fastapi import FastAPI
 from fastapi.middleware.cors import CORSMiddleware
 from pydantic import BaseModel
-from transformers import AutoModelForCausalLM, AutoTokenizer
-MODEL_ID = os.environ.get("MODEL_ID", "Qwen/Qwen2.5-Coder-7B-Instruct")
-print(f"[init] loading {MODEL_ID}")
-tokenizer = AutoTokenizer.from_pretrained(MODEL_ID, trust_remote_code=True)
-model = AutoModelForCausalLM.from_pretrained(
-    MODEL_ID,
-    torch_dtype=torch.bfloat16,
-    device_map="cuda",
-    trust_remote_code=True,
-)
-print("[init] ready")
-@spaces.GPU(duration=60)
-def _generate(messages, max_tokens=1024, temperature=0.3):
-    prompt = tokenizer.apply_chat_template(
-        messages, tokenize=False, add_generation_prompt=True
-    )
-    inputs = tokenizer(prompt, return_tensors="pt").to("cuda")
-    out = model.generate(
-        **inputs,
-        max_new_tokens=max_tokens,
-        temperature=max(temperature, 0.01),
-        do_sample=temperature > 0,
-        pad_token_id=tokenizer.eos_token_id,
-    )
-    return tokenizer.decode(
-        out[0][inputs.input_ids.shape[1]:], skip_special_tokens=True,
     )
 app = FastAPI()
-app.add_middleware(
-    CORSMiddleware, allow_origins=["*"], allow_methods=["*"], allow_headers=["*"]
-)
 class ChatRequest(BaseModel):
@@ -58,27 +41,22 @@ class ChatRequest(BaseModel):
 @app.post("/v1/chat/completions")
-def chat_completions(req: ChatRequest):
-    t0 = time.time()
-    text = _generate(req.messages, req.max_tokens, req.temperature)
-    return {
-        "id": f"axentx-{int(t0)}", "object": "chat.completion",
-        "created": int(t0), "model": req.model,
-        "choices": [{"index": 0, "message": {"role": "assistant", "content": text}, "finish_reason": "stop"}],
-        "usage": {"prompt_tokens": 0, "completion_tokens": len(text.split()), "total_tokens": len(text.split())},
-    }
 @app.get("/health")
-def health():
-    return {"status": "ok", "model": MODEL_ID}
 def _ui(message, history):
-    msgs = [{"role": h["role"], "content": h["content"]} for h in (history or []) if h.get("role")]
     msgs.append({"role": "user", "content": message})
-    return _generate(msgs)
-demo = gr.ChatInterface(_ui, title=f"axentx Coder — {MODEL_ID}", type="messages")
 app = gr.mount_gradio_app(app, demo, path="/")

+"""axentx coder-zero-gpu-1 — proxy to HF Inference Router for Qwen3-Coder.
+No model loading on Space (avoid GPU init issues). Just a thin wrapper
+that forwards to HF Router with the Space owner's token. Adds independent
+rate-limit bucket for the pipeline.
 """
+import os, json, urllib.request
 from fastapi import FastAPI
 from fastapi.middleware.cors import CORSMiddleware
 from pydantic import BaseModel
+import gradio as gr
+HF_TOKEN = os.environ.get("HF_TOKEN", "")  # auto-set by Space
+MODEL = os.environ.get("MODEL_ID", "Qwen/Qwen3-Coder-30B-A3B-Instruct")
+def _call_hf_router(messages, max_tokens=1024, temperature=0.3):
+    body = json.dumps({
+        "model": MODEL, "messages": messages,
+        "max_tokens": max_tokens, "temperature": temperature,
+    }).encode()
+    req = urllib.request.Request(
+        "https://router.huggingface.co/v1/chat/completions",
+        data=body, method="POST",
+        headers={"Authorization": f"Bearer {HF_TOKEN}",
+                 "Content-Type": "application/json"},
     )
+    with urllib.request.urlopen(req, timeout=60) as r:
+        return json.loads(r.read())
 app = FastAPI()
+app.add_middleware(CORSMiddleware, allow_origins=["*"], allow_methods=["*"], allow_headers=["*"])
 class ChatRequest(BaseModel):
 @app.post("/v1/chat/completions")
+def chat(req: ChatRequest):
+    return _call_hf_router(req.messages, req.max_tokens, req.temperature)
 @app.get("/health")
+def h():
+    return {"status": "ok", "backend": "hf-router", "model": MODEL}
 def _ui(message, history):
+    msgs = [{"role": h["role"], "content": h["content"]}
+            for h in (history or []) if h.get("role")]
     msgs.append({"role": "user", "content": message})
+    r = _call_hf_router(msgs)
+    return r["choices"][0]["message"]["content"]
+demo = gr.ChatInterface(_ui, title=f"axentx Coder Proxy — {MODEL}", type="messages")
 app = gr.mount_gradio_app(app, demo, path="/")

requirements.txt CHANGED Viewed

@@ -1,9 +1,4 @@
-torch
-transformers>=4.45.0
-accelerate
-spaces
 fastapi
 pydantic>=2
 gradio>=5.0.0
 huggingface_hub>=0.25
-sentencepiece

 fastapi
 pydantic>=2
 gradio>=5.0.0
 huggingface_hub>=0.25