Spaces:

specimba
/

nexus-os-space

Running

App Files Files Community

specimba commited on 6 days ago

Commit

a07f2c0

verified ·

1 Parent(s): f9d9a60

Add OllamaRelayClient to hf_inference_client.py for intelligent router

Browse files

Files changed (1) hide show

nexus_os_v2/hf_inference_client.py +51 -0

nexus_os_v2/hf_inference_client.py CHANGED Viewed

@@ -147,3 +147,54 @@ class MockInferenceClient:
     def list_models(self) -> List[str]:
         return ["mock-model"]

     def list_models(self) -> List[str]:
         return ["mock-model"]
+class OllamaRelayClient:
+    """
+    Connects to user's local Ollama via relay URL.
+    The user exposes their local Ollama via ngrok, localtunnel, or Cloudflare Tunnel.
+    Set OLLAMA_RELAY_URL env var to the public tunnel endpoint.
+    """
+    def __init__(self, relay_url: Optional[str] = None):
+        self.relay_url = relay_url or os.environ.get("OLLAMA_RELAY_URL", "")
+        if not self.relay_url:
+            self.relay_url = "http://localhost:11434"
+        self.relay_url = self.relay_url.rstrip("/")
+        self._available_models: List[str] = []
+    def is_connected(self) -> bool:
+        try:
+            import urllib.request
+            req = urllib.request.Request(
+                f"{self.relay_url}/api/tags",
+                headers={"Content-Type": "application/json"},
+                method="GET",
+            )
+            with urllib.request.urlopen(req, timeout=10) as resp:
+                data = json.loads(resp.read().decode("utf-8"))
+                self._available_models = [m.get("name", m.get("model", "")) for m in data.get("models", [])]
+                return True
+        except Exception:
+            return False
+    def generate(self, model_tag: str, prompt: str, system: Optional[str] = None,
+                 temperature: float = 0.7, max_tokens: int = 2048, stream: bool = False):
+        messages = []
+        if system:
+            messages.append({"role": "system", "content": system})
+        messages.append({"role": "user", "content": prompt})
+        payload = json.dumps({"model": model_tag, "messages": messages, "stream": stream,
+                              "options": {"temperature": temperature, "num_predict": max_tokens}}).encode("utf-8")
+        req = urllib.request.Request(f"{self.relay_url}/api/chat", data=payload,
+                                     headers={"Content-Type": "application/json"}, method="POST")
+        t0 = time.time()
+        with urllib.request.urlopen(req, timeout=300) as resp:
+            data = json.loads(resp.read().decode("utf-8"))
+            elapsed = (time.time() - t0) * 1000
+            text = data.get("message", {}).get("content", "") if "message" in data else data.get("response", "")
+            return text, {"model": data.get("model", model_tag), "latency_ms": elapsed}
+    def list_models(self) -> List[str]:
+        if not self._available_models:
+            self.is_connected()
+        return self._available_models