Rohan03
/

purpose-agent

@@ -44,6 +44,21 @@ class LLMBackend(ABC):
     constrained generation (used by the Purpose Function for reliable scoring).
     """
     @abstractmethod
     def generate(
         self,
@@ -148,7 +163,7 @@ class HFInferenceBackend(LLMBackend):
             max_tokens=max_tokens,
             stop=stop or [],
         )
-        return response.choices[0].message.content
     def generate_structured(
         self,
@@ -234,7 +249,7 @@ class OpenAICompatibleBackend(LLMBackend):
             max_tokens=max_tokens,
             stop=stop,
         )
-        return response.choices[0].message.content
     def generate_structured(
         self,
@@ -361,3 +376,78 @@ class MockLLMBackend(LLMBackend):
             else:
                 result[key] = f"mock_{key}"
         return result

     constrained generation (used by the Purpose Function for reliable scoring).
     """
+    @staticmethod
+    def _strip_thinking(text: str) -> str:
+        """
+        Strip <think>...</think> tags from model output.
+        Many reasoning models (Qwen3, DeepSeek-R1, etc.) wrap their
+        chain-of-thought in <think> tags. We keep only the final answer.
+        """
+        import re
+        # Remove <think>...</think> blocks (greedy, handles multiline)
+        cleaned = re.sub(r'<think>.*?</think>', '', text, flags=re.DOTALL)
+        # Also handle unclosed <think> tags (model cut off mid-thought)
+        cleaned = re.sub(r'<think>.*$', '', cleaned, flags=re.DOTALL)
+        return cleaned.strip()
     @abstractmethod
     def generate(
         self,
             max_tokens=max_tokens,
             stop=stop or [],
         )
+        return self._strip_thinking(response.choices[0].message.content or "")
     def generate_structured(
         self,
             max_tokens=max_tokens,
             stop=stop,
         )
+        return self._strip_thinking(response.choices[0].message.content or "")
     def generate_structured(
         self,
             else:
                 result[key] = f"mock_{key}"
         return result
+# ---------------------------------------------------------------------------
+# Multi-Provider Router
+# ---------------------------------------------------------------------------
+# Provider → (base_url, env_var_for_key)
+_PROVIDER_MAP = {
+    "groq":      ("https://api.groq.com/openai/v1", "GROQ_API_KEY"),
+    "openai":    ("https://api.openai.com/v1", "OPENAI_API_KEY"),
+    "together":  ("https://api.together.xyz/v1", "TOGETHER_API_KEY"),
+    "fireworks": ("https://api.fireworks.ai/inference/v1", "FIREWORKS_API_KEY"),
+    "deepseek":  ("https://api.deepseek.com/v1", "DEEPSEEK_API_KEY"),
+    "mistral":   ("https://api.mistral.ai/v1", "MISTRAL_API_KEY"),
+    "cerebras":  ("https://api.cerebras.ai/v1", "CEREBRAS_API_KEY"),
+}
+def resolve_backend(spec: str, api_key: str | None = None) -> LLMBackend:
+    """
+    Resolve a 'provider:model' string into an LLMBackend.
+    Supports every major inference provider via OpenAI-compatible APIs,
+    plus Ollama for local models and HF for HuggingFace Inference.
+    Examples:
+        resolve_backend("groq:llama-3.3-70b-versatile")
+        resolve_backend("openai:gpt-4o")
+        resolve_backend("ollama:qwen3:1.7b")
+        resolve_backend("hf:Qwen/Qwen3-32B")
+        resolve_backend("together:meta-llama/Llama-3.3-70B-Instruct-Turbo")
+        resolve_backend("deepseek:deepseek-chat")
+    For local models without a provider prefix:
+        resolve_backend("qwen3:1.7b")        # auto-detects Ollama
+        resolve_backend("gpt-4o")             # auto-detects OpenAI
+        resolve_backend("Qwen/Qwen3-32B")    # auto-detects HF
+    """
+    if ":" in spec:
+        parts = spec.split(":", 1)
+        provider = parts[0].lower()
+        if provider == "ollama":
+            from purpose_agent.slm_backends import OllamaBackend
+            return OllamaBackend(model=parts[1])
+        if provider == "hf":
+            return HFInferenceBackend(model_id=parts[1], api_key=api_key)
+        if provider in _PROVIDER_MAP:
+            base_url, env_var = _PROVIDER_MAP[provider]
+            key = api_key or os.environ.get(env_var, "")
+            if not key:
+                raise ValueError(
+                    f"No API key for {provider}. Set {env_var} environment variable "
+                    f"or pass api_key= parameter."
+                )
+            return OpenAICompatibleBackend(
+                model=parts[1], base_url=base_url, api_key=key,
+            )
+        # Not a known provider — might be Ollama model like "qwen3:1.7b"
+        from purpose_agent.slm_backends import OllamaBackend
+        return OllamaBackend(model=spec)
+    # No colon — auto-detect
+    if spec.startswith("gpt-") or spec.startswith("o1") or spec.startswith("o3"):
+        key = api_key or os.environ.get("OPENAI_API_KEY", "")
+        return OpenAICompatibleBackend(model=spec, api_key=key)
+    if "/" in spec:
+        return HFInferenceBackend(model_id=spec, api_key=api_key)
+    from purpose_agent.slm_backends import OllamaBackend
+    return OllamaBackend(model=spec)