Spaces:

ashirato
/

coder-zero-gpu-2

Runtime error

App Files Files Community

ashirato commited on 5 days ago

Commit

cef92a0

verified ·

1 Parent(s): 3e5db13

init: DeepSeek-Coder-V2-Lite via FastAPI/Gradio

Browse files

Files changed (3) hide show

README.md +14 -7
app.py +105 -0
requirements.txt +9 -0

README.md CHANGED Viewed

@@ -1,13 +1,20 @@
 ---
-title: Coder Zero Gpu 2
-emoji: 📈
-colorFrom: red
-colorTo: yellow
 sdk: gradio
-sdk_version: 6.14.0
-python_version: '3.13'
 app_file: app.py
 pinned: false
 ---
-Check out the configuration reference at https://huggingface.co/docs/hub/spaces-config-reference

 ---
+title: axentx Coder ZeroGPU 2
+emoji: 🐬
+colorFrom: indigo
+colorTo: purple
 sdk: gradio
+sdk_version: 4.44.0
 app_file: app.py
 pinned: false
+short_description: DeepSeek-Coder-V2-Lite-Instruct on ZeroGPU
 ---
+# axentx coder-zero-gpu-2
+OpenAI-compatible code generation endpoint backed by `Qwen2.5-Coder-32B-Instruct-AWQ`.
+## Endpoints
+- `POST /v1/chat/completions` — OpenAI-compatible chat
+- `GET /health` — model + status
+- `/` — Gradio chat UI

app.py ADDED Viewed

	@@ -0,0 +1,105 @@

+"""axentx coder-zero-gpu-1 — Qwen2.5-Coder-32B-Instruct-AWQ on ZeroGPU.
+Exposes OpenAI-compatible /v1/chat/completions so the axentx pipeline's
+LLM chain can hit it like any other upstream provider.
+"""
+import os
+import time
+import spaces
+import torch
+import gradio as gr
+from fastapi import FastAPI
+from fastapi.middleware.cors import CORSMiddleware
+from pydantic import BaseModel
+from transformers import AutoModelForCausalLM, AutoTokenizer
+MODEL_ID = os.environ.get("MODEL_ID", "deepseek-ai/DeepSeek-Coder-V2-Lite-Instruct")
+print(f"[init] loading tokenizer: {MODEL_ID}")
+tokenizer = AutoTokenizer.from_pretrained(MODEL_ID, trust_remote_code=True)
+print(f"[init] loading model")
+model = AutoModelForCausalLM.from_pretrained(
+    MODEL_ID,
+    torch_dtype=torch.bfloat16,
+    device_map="cuda",
+    trust_remote_code=True,
+)
+print(f"[init] ready")
+@spaces.GPU(duration=120)
+def _generate(messages, max_tokens=1024, temperature=0.3):
+    prompt = tokenizer.apply_chat_template(
+        messages, tokenize=False, add_generation_prompt=True
+    )
+    inputs = tokenizer(prompt, return_tensors="pt").to("cuda")
+    out = model.generate(
+        **inputs,
+        max_new_tokens=max_tokens,
+        temperature=max(temperature, 0.01),
+        do_sample=temperature > 0,
+        pad_token_id=tokenizer.eos_token_id,
+    )
+    text = tokenizer.decode(
+        out[0][inputs.input_ids.shape[1]:],
+        skip_special_tokens=True,
+    )
+    return text
+app = FastAPI(title="axentx coder ZeroGPU")
+app.add_middleware(
+    CORSMiddleware, allow_origins=["*"], allow_methods=["*"], allow_headers=["*"]
+)
+class ChatRequest(BaseModel):
+    messages: list
+    max_tokens: int = 1024
+    temperature: float = 0.3
+    model: str = "axentx-coder-2"
+@app.post("/v1/chat/completions")
+def chat_completions(req: ChatRequest):
+    t0 = time.time()
+    text = _generate(req.messages, req.max_tokens, req.temperature)
+    return {
+        "id": f"axentx-{int(t0)}",
+        "object": "chat.completion",
+        "created": int(t0),
+        "model": req.model,
+        "choices": [{
+            "index": 0,
+            "message": {"role": "assistant", "content": text},
+            "finish_reason": "stop",
+        }],
+        "usage": {
+            "prompt_tokens": 0,
+            "completion_tokens": len(text.split()),
+            "total_tokens": len(text.split()),
+        },
+    }
+@app.get("/health")
+def health():
+    return {"status": "ok", "model": MODEL_ID}
+def _ui_chat(message, history):
+    msgs = []
+    for h in history:
+        if h.get("role") and h.get("content"):
+            msgs.append({"role": h["role"], "content": h["content"]})
+    msgs.append({"role": "user", "content": message})
+    return _generate(msgs, max_tokens=1024, temperature=0.3)
+demo = gr.ChatInterface(
+    _ui_chat,
+    title="axentx Coder — Qwen2.5-Coder-32B-Instruct (ZeroGPU)",
+    type="messages",
+)
+app = gr.mount_gradio_app(app, demo, path="/")

requirements.txt ADDED Viewed

	@@ -0,0 +1,9 @@

+torch
+transformers>=4.45.0
+accelerate
+spaces
+fastapi
+pydantic>=2
+gradio>=4.40
+autoawq
+sentencepiece