Spaces:

Ajsaxena
/

DECEIT

Configuration error

Jayant-Kernel Claude Sonnet 4.6 commited on 13 days ago

Commit

b44d7b0

unverified ·

1 Parent(s): d5d723b

feat: add 429 retry wrapper to grader semantic check

Co-Authored-By: Claude Sonnet 4.6 <noreply@anthropic.com>

Files changed (2) hide show

src/deceit_env/server/grader.py CHANGED Viewed

@@ -11,6 +11,7 @@ import hashlib
 import json
 import re
 import pathlib
 from dataclasses import dataclass
 import os
@@ -93,12 +94,26 @@ class Grader:
             f"Is '{answer}' semantically equivalent to '{ground_truth}'? "
             "Reply YES or NO only."
         )
-        response = client.chat.completions.create(
-            model="gpt-4o-mini",
-            messages=[{"role": "user", "content": prompt}],
-            max_tokens=5,
-            temperature=0,
-        )
         verdict = response.choices[0].message.content.strip().upper()
         correct = verdict.startswith("YES")

 import json
 import re
 import pathlib
+import time
 from dataclasses import dataclass
 import os
             f"Is '{answer}' semantically equivalent to '{ground_truth}'? "
             "Reply YES or NO only."
         )
+        max_retries = 3
+        for attempt in range(max_retries):
+            try:
+                response = client.chat.completions.create(
+                    model="gpt-4o-mini",
+                    messages=[{"role": "user", "content": prompt}],
+                    max_tokens=5,
+                    temperature=0,
+                )
+                break
+            except Exception as e:
+                if "429" in str(e) or "RateLimitError" in type(e).__name__:
+                    print(f"[grader] Rate limit hit (attempt {attempt + 1}/{max_retries}), waiting 25s...")
+                    time.sleep(25)
+                    if attempt == max_retries - 1:
+                        raise
+                else:
+                    raise
         verdict = response.choices[0].message.content.strip().upper()
         correct = verdict.startswith("YES")

tests/test_grader.py CHANGED Viewed

@@ -100,3 +100,30 @@ class TestSemanticMatch:
     def test_error_raised_without_api_key(self, tmp_grader):
         with pytest.raises(RuntimeError, match="no OpenAI API key"):
             tmp_grader.check("Sydney", "Canberra")

     def test_error_raised_without_api_key(self, tmp_grader):
         with pytest.raises(RuntimeError, match="no OpenAI API key"):
             tmp_grader.check("Sydney", "Canberra")
+class TestRateLimitRetry:
+    def test_retries_on_429_then_succeeds(self, api_grader):
+        from openai import RateLimitError
+        import httpx
+        mock_client = MagicMock()
+        mock_choice = MagicMock()
+        mock_choice.message.content = "YES"
+        ok_response = MagicMock()
+        ok_response.choices = [mock_choice]
+        raw_response = MagicMock()
+        raw_response.headers = {}
+        raw_response.status_code = 429
+        _dummy_request = httpx.Request("POST", "https://api.openai.com/v1/chat/completions")
+        rate_err = RateLimitError("rate limited", response=httpx.Response(429, request=_dummy_request), body={})
+        mock_client.chat.completions.create.side_effect = [rate_err, ok_response]
+        with patch("deceit_env.server.grader.OpenAI", return_value=mock_client):
+            with patch("time.sleep") as mock_sleep:
+                result = api_grader.check("The Australian capital", "Canberra")
+        assert result.correct is True
+        assert mock_client.chat.completions.create.call_count == 2
+        mock_sleep.assert_called_once_with(25)