Spaces:

srishtichugh
/

blog2code-api

Sleeping

srishtichugh commited on 5 days ago

Commit

757c114

1 Parent(s): 8f2f756

add retry logic for nvidia api errors

Files changed (1) hide show

codes/llm_provider.py CHANGED Viewed

@@ -184,7 +184,8 @@ class GemmaProvider(LLMProvider):
         self.invoke_url = "https://integrate.api.nvidia.com/v1/chat/completions"
     def create_completion(self, messages: List[Dict], model: str, **kwargs) -> Any:
-        """Create NVIDIA API chat completion"""
         headers = {
             "Authorization": f"Bearer {self.api_key}",
             "Accept": "application/json"
@@ -192,14 +193,24 @@ class GemmaProvider(LLMProvider):
         payload = {
             "model": model,
             "messages": messages,
-            "max_tokens": kwargs.get('max_tokens', 8192),  # increased for code generation
             "temperature": kwargs.get('temperature', 0.20),
             "top_p": kwargs.get('top_p', 0.70),
             "stream": False
         }
-        response = self.requests.post(self.invoke_url, headers=headers, json=payload)
-        response.raise_for_status()
-        return response.json()
     def get_response_text(self, completion: Any) -> str:
         """Extract text from NVIDIA API response"""

         self.invoke_url = "https://integrate.api.nvidia.com/v1/chat/completions"
     def create_completion(self, messages: List[Dict], model: str, **kwargs) -> Any:
+        """Create NVIDIA API chat completion with retry logic"""
+        import time
         headers = {
             "Authorization": f"Bearer {self.api_key}",
             "Accept": "application/json"
         payload = {
             "model": model,
             "messages": messages,
+            "max_tokens": kwargs.get('max_tokens', 8192),
             "temperature": kwargs.get('temperature', 0.20),
             "top_p": kwargs.get('top_p', 0.70),
             "stream": False
         }
+        max_retries = 5
+        for attempt in range(max_retries):
+            try:
+                response = self.requests.post(self.invoke_url, headers=headers, json=payload)
+                response.raise_for_status()
+                return response.json()
+            except Exception as e:
+                if attempt < max_retries - 1:
+                    wait = 10 * (attempt + 1)  # 10s, 20s, 30s, 40s
+                    print(f"[RETRY] Attempt {attempt+1} failed: {e}. Retrying in {wait}s...")
+                    time.sleep(wait)
+                else:
+                    raise
     def get_response_text(self, completion: Any) -> str:
         """Extract text from NVIDIA API response"""