Spaces:

surrogate1
/

surrogate-1-zero-gpu

Running on Zero

App Files Files Community

surrogate1 commited on 9 days ago

Commit

6d6a848

verified ·

1 Parent(s): e42436a

init mirror from ashirato shard

Browse files

Files changed (1) hide show

app.py +91 -0

app.py ADDED Viewed

	@@ -0,0 +1,91 @@

+"""Surrogate-1 ZeroGPU Space — minimal, works.
+Switched to Qwen2.5-Coder-3B (~6GB BF16 vs 14GB on 7B) for faster cold
+load (≤60s on A10G). Same Surrogate-1 v1 LoRA applies — only base model
+size differs. For long form / hard tasks, the chat ladder includes 7B
+fallback via free APIs; this Space serves the fast path.
+"""
+import os
+import gradio as gr
+import spaces
+import torch
+BASE_MODEL = os.environ.get("BASE_MODEL", "Qwen/Qwen2.5-Coder-3B-Instruct")
+LORA_REPO  = os.environ.get("LORA_REPO", "axentx/surrogate-1-coder-7b-lora-v1")
+HF_TOKEN   = os.environ.get("HF_TOKEN", "")
+SYSTEM = (
+    "You are Surrogate-1, an expert DevSecOps + SRE + coding agent. "
+    "Cite real APIs only. Say 'I don't know' rather than confabulate."
+)
+# Module-level cache
+_model = None
+_tok = None
+def _load_lazy():
+    """Load only inside @spaces.GPU function (i.e., on GPU worker)."""
+    global _model, _tok
+    if _model is not None:
+        return _model, _tok
+    from transformers import AutoModelForCausalLM, AutoTokenizer
+    _tok = AutoTokenizer.from_pretrained(
+        BASE_MODEL, token=HF_TOKEN or None, trust_remote_code=True)
+    if _tok.pad_token_id is None:
+        _tok.pad_token_id = _tok.eos_token_id
+    _model = AutoModelForCausalLM.from_pretrained(
+        BASE_MODEL, torch_dtype=torch.bfloat16,
+        token=HF_TOKEN or None, trust_remote_code=True,
+        device_map="cuda")
+    # LoRA optional — base model size mismatch (3B vs 7B) makes v1 LoRA
+    # incompatible. We serve the base 3B for now; on 7B Space we apply LoRA.
+    if BASE_MODEL.endswith("7B-Instruct"):
+        try:
+            from peft import PeftModel
+            _model = PeftModel.from_pretrained(_model, LORA_REPO,
+                                                token=HF_TOKEN or None)
+        except Exception as e:
+            print(f"[load] LoRA skip: {e}")
+    return _model, _tok
+@spaces.GPU(duration=300)
+def respond(message, history, max_new_tokens=512, temperature=0.4):
+    if not message or not message.strip():
+        return ""
+    model, tok = _load_lazy()
+    msgs = [{"role": "system", "content": SYSTEM}]
+    for u, a in (history or []):
+        if u: msgs.append({"role": "user", "content": u})
+        if a: msgs.append({"role": "assistant", "content": a})
+    msgs.append({"role": "user", "content": message})
+    prompt = tok.apply_chat_template(msgs, tokenize=False,
+                                      add_generation_prompt=True)
+    inputs = tok(prompt, return_tensors="pt", truncation=True,
+                 max_length=8000).to("cuda")
+    out = model.generate(
+        **inputs,
+        max_new_tokens=int(max_new_tokens),
+        temperature=float(temperature) if temperature > 0 else 1e-5,
+        do_sample=temperature > 0,
+        pad_token_id=tok.pad_token_id,
+        eos_token_id=tok.eos_token_id,
+    )
+    new_tokens = out[0][inputs["input_ids"].shape[1]:]
+    return tok.decode(new_tokens, skip_special_tokens=True).strip()
+demo = gr.ChatInterface(
+    fn=respond,
+    title=f"Surrogate-1 — {BASE_MODEL.split('/')[-1]}",
+    description=f"ZeroGPU A10G — {BASE_MODEL}. First request ~30-60s cold load.",
+    additional_inputs=[
+        gr.Slider(64, 2048, value=512, step=64, label="max new tokens"),
+        gr.Slider(0.0, 1.5, value=0.4, step=0.05, label="temperature"),
+    ],
+)
+if __name__ == "__main__":
+    demo.queue(max_size=10).launch()