Spaces:

prashantmatlani
/

csa01

Sleeping

prashantmatlani commited on 27 days ago

Commit

c4b20ec

1 Parent(s): dc44de4

created tasks.py, dated env, inference

Files changed (4) hide show

app/env.py CHANGED Viewed

@@ -6,9 +6,12 @@ from app.models import Observation, Action, Reward
 from app.dataset import TICKETS
 import random
 from graders import grade_easy, grade_medium, grade_hard
 import sys
 class CustomerSupportEnv:
     # OBTAIN TASKS FROM GRADERS.PY
@@ -273,4 +276,7 @@ class CustomerSupportEnv:
             "avg_steps": round(avg_steps, 3),
             "avg_reward": round(avg_reward, 3),
             "info_efficiency": round(info_eff, 3)
-        }

 from app.dataset import TICKETS
 import random
 from graders import grade_easy, grade_medium, grade_hard
+from tasks import TASKS
 import sys
+AVAILABLE_TASKS = TASKS
 class CustomerSupportEnv:
     # OBTAIN TASKS FROM GRADERS.PY
             "avg_steps": round(avg_steps, 3),
             "avg_reward": round(avg_reward, 3),
             "info_efficiency": round(info_eff, 3)
+        }
+def get_tasks():
+    return AVAILABLE_TASKS

graders.py CHANGED Viewed

@@ -7,31 +7,41 @@ def get_info_efficiency(env):
     return 0
-def grade_easy(env, trajectory=None, final_state=None):
-    rewards = [step.get("reward", 0) for step in (trajectory or [])]
-    score = 0.3 + 0.1 * len(rewards)
-    return max(0.0, min(1.0, score))
-def grade_medium(env, trajectory=None, final_state=None):
     info_eff = get_info_efficiency(env)
     score = 0.5 * info_eff
-    return max(0.0, min(1.0, score))
-def grade_hard(env, trajectory=None, final_state=None):
-    info_eff = get_info_efficiency(env)
-    success = False
-    steps = len(trajectory or [])
-    if hasattr(env, "episode_stats") and env.episode_stats:
-        success = env.episode_stats[-1].get("success", False)
     score = (
         0.5 * (1 if success else 0) +
         0.3 * info_eff +
-        0.2 * (1 / (1 + steps))
     )
-    return max(0.0, min(1.0, score))

     return 0
+def grade_easy(env, success=None, steps=None, rewards=None):
+    score = 0.3 + 0.1 * (len(rewards) if rewards else 0)
+    #print(f"\nrewards: {rewards}")
+    #print(f"\nlen rewards: {len(rewards)}")
+    #print(f"\nscore: {score}")
+    return max(0.01, min(0.99, score))
+def grade_medium(env, success=None, steps=None, rewards=None):
     info_eff = get_info_efficiency(env)
     score = 0.5 * info_eff
+    #print(f"\ninfo_eff: {info_eff}")
+    #print(f"\nscore: {score}")
+    return max(0.01, min(0.99, score))
+def grade_hard(env, success=None, steps=None, rewards=None):
+    info_eff = get_info_efficiency(env)
     score = (
         0.5 * (1 if success else 0) +
         0.3 * info_eff +
+        0.2 * (1 / (1 + (steps or 1)))
     )
+    #print(f"\nsteps: {steps}")
+    #print(f"\ninfo_eff: {info_eff}")
+    #print(f"\nlen trajectory: {len(trajectory or [])}")
+    #print(f"\nscore: {score}")
+    return max(0.01, min(0.99, score))

inference.py CHANGED Viewed

@@ -6,9 +6,11 @@ import json
 from agent_llm import get_action
 from app.env import CustomerSupportEnv
 from graders import grade_easy, grade_medium, grade_hard
 import sys
 # =========================
 # TASK DEFINITIONS
 # =========================
@@ -17,6 +19,7 @@ TASKS = [
     {"name": "medium-complete-info", "type": "medium"},
     {"name": "hard-efficient-resolution", "type": "hard"},
 ]
 """
 # =========================
@@ -141,6 +144,14 @@ def run_single_task(task):
     # =========================
     #score = compute_score(task_type, env, success, step_count, rewards)
     if task_type == "easy":
         score = grade_easy(env)
     elif task_type == "medium":
@@ -149,7 +160,7 @@ def run_single_task(task):
         score = grade_hard(env)
     else:
         score = 0.5
     rewards_str = ",".join(f"{r:.2f}" for r in rewards)

 from agent_llm import get_action
 from app.env import CustomerSupportEnv
 from graders import grade_easy, grade_medium, grade_hard
+from tasks import TASKS
 import sys
+"""
 # =========================
 # TASK DEFINITIONS
 # =========================
     {"name": "medium-complete-info", "type": "medium"},
     {"name": "hard-efficient-resolution", "type": "hard"},
 ]
+"""
 """
 # =========================
     # =========================
     #score = compute_score(task_type, env, success, step_count, rewards)
+    grader = task.get("grader")
+    if grader:
+        score = grader(env, success, step_count, rewards)
+    else:
+        score = 0.5
+    """
     if task_type == "easy":
         score = grade_easy(env)
     elif task_type == "medium":
         score = grade_hard(env)
     else:
         score = 0.5
+    """
     rewards_str = ",".join(f"{r:.2f}" for r in rewards)

tasks.py ADDED Viewed

+# tasks.py
+from graders import grade_easy, grade_medium, grade_hard
+TASKS = [
+    {
+        "name": "easy-info-collection",
+        "type": "easy",
+        "grader": grade_easy,
+    },
+    {
+        "name": "medium-complete-info",
+        "type": "medium",
+        "grader": grade_medium,
+    },
+    {
+        "name": "hard-efficient-resolution",
+        "type": "hard",
+        "grader": grade_hard,
+    },
+]