Spaces:

Elysiadev11
/

proxy-cerebras

Sleeping

App Files Files Community

Elysiadev11 commited on 12 days ago

Commit

e2eb614

verified ·

1 Parent(s): 8c44b85

Upload app.py with huggingface_hub

Browse files

Files changed (1) hide show

app.py +22 -17

app.py CHANGED Viewed

@@ -28,27 +28,27 @@ CEREBRAS_BASE_URL = os.getenv("CEREBRAS_BASE_URL", "https://api.cerebras.ai/v1")
 MAX_REQUEST_TOKENS = int(os.getenv("MAX_REQUEST_TOKENS", "30000"))
 # Default model for Cerebras
-DEFAULT_MODEL = os.getenv("DEFAULT_MODEL", "qwen-3-235b-a22b-instruct-2507")
 # Model mapping: incoming model name -> Cerebras model name
 DEFAULT_MODEL_MAPPING = {
     # Claude models -> Cerebras
-    "claude-opus-4-7": "qwen-3-235b-a22b-instruct-2507",
-    "claude-opus-4-6": "qwen-3-235b-a22b-instruct-2507",
-    "claude-opus-4-5": "qwen-3-235b-a22b-instruct-2507",
-    "claude-opus-4-1": "qwen-3-235b-a22b-instruct-2507",
-    "claude-opus-4-20250514": "qwen-3-235b-a22b-instruct-2507",
-    "claude-sonnet-4-6": "qwen-3-235b-a22b-instruct-2507",
-    "claude-sonnet-4-5": "qwen-3-235b-a22b-instruct-2507",
-    "claude-sonnet-4-20250514": "qwen-3-235b-a22b-instruct-2507",
-    "claude-haiku-4-5": "qwen-3-235b-a22b-instruct-2507",
-    "claude-haiku-4-5-20251001": "qwen-3-235b-a22b-instruct-2507",
     # GPT models -> Cerebras
-    "gpt-4": "qwen-3-235b-a22b-instruct-2507",
-    "gpt-4o": "qwen-3-235b-a22b-instruct-2507",
-    "gpt-4o-mini": "qwen-3-235b-a22b-instruct-2507",
-    "gpt-4-turbo": "qwen-3-235b-a22b-instruct-2507",
-    "gpt-3.5-turbo": "qwen-3-235b-a22b-instruct-2507",
 }
 def load_model_mapping():
@@ -400,7 +400,12 @@ async def chat(req: Request):
     }
     # Forward optional parameters
-    for param in ["max_tokens", "max_completion_tokens", "temperature", "top_p", "stop", "frequency_penalty", "presence_penalty"]:
         if param in body:
             cerebras_body[param] = body[param]

 MAX_REQUEST_TOKENS = int(os.getenv("MAX_REQUEST_TOKENS", "30000"))
 # Default model for Cerebras
+DEFAULT_MODEL = os.getenv("DEFAULT_MODEL", "llama-4-scout-17b-16e-instruct")
 # Model mapping: incoming model name -> Cerebras model name
 DEFAULT_MODEL_MAPPING = {
     # Claude models -> Cerebras
+    "claude-opus-4-7": "llama-4-scout-17b-16e-instruct",
+    "claude-opus-4-6": "llama-4-scout-17b-16e-instruct",
+    "claude-opus-4-5": "llama-4-scout-17b-16e-instruct",
+    "claude-opus-4-1": "llama-4-scout-17b-16e-instruct",
+    "claude-opus-4-20250514": "llama-4-scout-17b-16e-instruct",
+    "claude-sonnet-4-6": "llama-4-scout-17b-16e-instruct",
+    "claude-sonnet-4-5": "llama-4-scout-17b-16e-instruct",
+    "claude-sonnet-4-20250514": "llama-4-scout-17b-16e-instruct",
+    "claude-haiku-4-5": "llama-4-scout-17b-16e-instruct",
+    "claude-haiku-4-5-20251001": "llama-4-scout-17b-16e-instruct",
     # GPT models -> Cerebras
+    "gpt-4": "llama-4-scout-17b-16e-instruct",
+    "gpt-4o": "llama-4-scout-17b-16e-instruct",
+    "gpt-4o-mini": "llama-4-scout-17b-16e-instruct",
+    "gpt-4-turbo": "llama-4-scout-17b-16e-instruct",
+    "gpt-3.5-turbo": "llama-4-scout-17b-16e-instruct",
 }
 def load_model_mapping():
     }
     # Forward optional parameters
+    forward_params = [
+        "max_tokens", "max_completion_tokens", "temperature", "top_p", "stop",
+        "frequency_penalty", "presence_penalty", "tools", "tool_choice",
+        "parallel_tool_calls", "response_format"
+    ]
+    for param in forward_params:
         if param in body:
             cerebras_body[param] = body[param]