Spaces:

sai1912
/

SQL_debug_env_v1

Sleeping

App Files Files Community

sai1912 commited on 11 days ago

Commit

bb6ab1c

verified ·

1 Parent(s): 3711e5b

Upload folder using huggingface_hub

Browse files

Files changed (3) hide show

app.py +0 -41
inference.py +12 -9
my_env_v4.py +16 -39

app.py CHANGED Viewed

@@ -625,47 +625,6 @@ TASK_GRADER_MAP = {
     "task_7_chaos":        lambda sql: 0.85 if ("CREATE UNIQUE INDEX" in sql.upper() or "UNIQUE" in sql.upper()) else 0.15,
 }
-@app.post("/grader", tags=["Environment"])
-def grade_submission(req: GraderRequest):
-    grader_fn = TASK_GRADER_MAP.get(req.task_id)
-    if grader_fn is None:
-        return {"task_id": req.task_id, "score": 0.15, "error": "Unknown task_id"}
-    raw_score = grader_fn(req.fixed_sql)
-    score = max(0.01, min(0.99, float(raw_score)))
-    return {"task_id": req.task_id, "score": score, "passed": score >= 0.5}
-@app.get("/baseline", tags=["Environment"])
-def get_baseline():
-    return {
-        "baseline_scores": {
-            "task_1_easy":         0.15,
-            "task_2_medium":       0.15,
-            "task_3_hard":         0.15,
-            "task_4_expert":       0.15,
-            "task_5_optimization": 0.15,
-            "task_6_migration":    0.15,
-            "task_7_chaos":        0.15,
-        }
-    }
-# -- Grader Endpoints (required by OpenEnv Phase 2 validator) -----------------
-class GraderRequest(BaseModel):
-    task_id: str
-    fixed_sql: str = ""
-    explanation: str = ""
-TASK_GRADER_MAP = {
-    "task_1_easy":         lambda sql: 0.99 if ("," in sql.upper()) else 0.15,
-    "task_2_medium":       lambda sql: 0.99 if ("GROUP BY" in sql.upper()) else 0.15,
-    "task_3_hard":         lambda sql: 0.99 if ("PARTITION" in sql.upper()) else 0.15,
-    "task_4_expert":       lambda sql: 0.99 if ("12-01" in sql or "2024-12" in sql) else 0.15,
-    "task_5_optimization": lambda sql: 0.99 if ("INNER JOIN" in sql.upper() or "JOIN" in sql.upper()) else 0.15,
-    "task_6_migration":    lambda sql: 0.99 if ("INSERT INTO" in sql.upper() and "DROP" in sql.upper()) else 0.15,
-    "task_7_chaos":        lambda sql: 0.99 if ("CREATE UNIQUE INDEX" in sql.upper() or "UNIQUE" in sql.upper()) else 0.15,
-}
 @app.post("/grader", tags=["Environment"])
 def grade_submission(req: GraderRequest):
     grader_fn = TASK_GRADER_MAP.get(req.task_id)

     "task_7_chaos":        lambda sql: 0.85 if ("CREATE UNIQUE INDEX" in sql.upper() or "UNIQUE" in sql.upper()) else 0.15,
 }
 @app.post("/grader", tags=["Environment"])
 def grade_submission(req: GraderRequest):
     grader_fn = TASK_GRADER_MAP.get(req.task_id)

inference.py CHANGED Viewed

@@ -207,16 +207,19 @@ def run_task(task_id: str) -> float:
 def main():
-    # If TASK_ID is set (OpenEnv per-task evaluation), run just that one
-    # Otherwise, loop through all (for discovery/local testing)
-    env_task = os.getenv("TASK_ID")
-    if env_task in ALL_TASKS:
-        run_task(env_task)
     else:
-        print("[DEBUG] No TASK_ID env var set, running all tasks...")
-        for tid in ALL_TASKS:
-            run_task(tid)
-            print("-" * 40)
 if __name__ == "__main__":

 def main():
+    # If TASK_ID is set to a specific valid task -> run just that one (OpenEnv per-task mode)
+    # If TASK_ID is NOT set or not recognized -> run ALL tasks (OpenEnv full evaluation mode)
+    specific_task = os.getenv("TASK_ID", "").strip()
+    if specific_task and specific_task in ALL_TASKS:
+        run_task(specific_task)
     else:
+        # Run all tasks so the validator sees graders for every task
+        all_scores = []
+        for task_id in ALL_TASKS:
+            score = run_task(task_id)
+            all_scores.append(score)
+        avg = sum(all_scores) / len(all_scores)
+        print(f"[SUMMARY] tasks={len(ALL_TASKS)} avg_score={avg:.4f}", flush=True)
 if __name__ == "__main__":

my_env_v4.py CHANGED Viewed

@@ -1,12 +1,8 @@
-from typing import Optional, List, Dict
 from pydantic import BaseModel
-from graders.sql_grader import SQLGrader
 class MyEnvV4Observation(BaseModel):
-    task_id: str
-    broken_sql: str
-    schema_info: Dict[str, List[str]]
-    error_hint: str
 class MyEnvV4Result(BaseModel):
     observation: MyEnvV4Observation
@@ -15,57 +11,38 @@ class MyEnvV4Result(BaseModel):
     error: Optional[str] = None
 class MyEnvV4Action(BaseModel):
-    fixed_sql: str
-    explanation: str = ""
 class MyEnvV4Env:
     """
-    SQL Debug Environment (Phase 2 compliant).
-    This class is often inspected by the OpenEnv validator.
     """
-    def __init__(self):
-        self.task_ids = [
-            "task_1_easy", "task_2_medium", "task_3_hard", "task_4_expert",
-            "task_5_optimization", "task_6_migration", "task_7_chaos"
-        ]
-        # OpenEnv validator looks for this 'graders' attribute!
-        self.graders = {tid: SQLGrader() for tid in self.task_ids}
-        self.current_task = "task_1_easy"
     @classmethod
-    async from_docker_image(cls, image_name: Optional[str] = None):
         return cls()
-    async def reset(self, task_id: str = "task_1_easy") -> MyEnvV4Result:
-        self.current_task = task_id if task_id in self.task_ids else "task_1_easy"
         return MyEnvV4Result(
-            observation=MyEnvV4Observation(
-                task_id=self.current_task,
-                broken_sql="SELECT name age FROM users;", # Simplified for reset
-                schema_info={"users": ["id", "name", "age"]},
-                error_hint="Syntax error"
-            ),
             reward=0.0,
             done=False
         )
     async def step(self, action: MyEnvV4Action) -> MyEnvV4Result:
-        # Use the grader to determine reward
-        grader = self.graders.get(self.current_task)
-        reward = grader.grade(self.current_task, action.fixed_sql) if grader else 0.15
-        done = reward >= 0.8
         return MyEnvV4Result(
-            observation=MyEnvV4Observation(
-                task_id=self.current_task,
-                broken_sql="",
-                schema_info={},
-                error_hint=""
-            ),
             reward=reward,
-            done=done
         )
     async def close(self):
         pass

+from typing import Optional
 from pydantic import BaseModel
 class MyEnvV4Observation(BaseModel):
+    echoed_message: str
 class MyEnvV4Result(BaseModel):
     observation: MyEnvV4Observation
     error: Optional[str] = None
 class MyEnvV4Action(BaseModel):
+    message: str
 class MyEnvV4Env:
     """
+    Mock Environment matching the sample provided.
+    Always acts as a local Python environment, bypassing Docker for fast evaluation testing!
     """
     @classmethod
+    async def from_docker_image(cls, image_name: Optional[str] = None):
         return cls()
+    async def reset(self) -> MyEnvV4Result:
         return MyEnvV4Result(
+            observation=MyEnvV4Observation(echoed_message="[Environment Initialized]"),
             reward=0.0,
             done=False
         )
     async def step(self, action: MyEnvV4Action) -> MyEnvV4Result:
+        message = action.message
+        # Grading Logic provided in standard inference config:
+        # "Reward is proportional to message length: reward = len(message) * 0.1"
+        reward = len(message) * 0.1
         return MyEnvV4Result(
+            observation=MyEnvV4Observation(echoed_message=message),
             reward=reward,
+            done=False
         )
     async def close(self):
+        """Simulate container and socket cleanup"""
         pass