Spaces:

pratinavseth
/

cricket-captain-llm

Running

pratinavseth commited on 17 days ago

Commit

4d4439f

1 Parent(s): 2f787f1

fix: wire reset options for max_overs

Pass reset parameters via OpenEnv `options` so max_overs and other env options take effect in inference/eval runs.

Made-with: Cursor

Files changed (2) hide show

eval.py +12 -7
inference.py +12 -6

eval.py CHANGED Viewed

@@ -52,17 +52,20 @@ async def collect_eval_episodes(
     task: str,
     eval_pack_id: str = "default",
     opponent_mode: str = "heuristic",
 ) -> list[dict[str, Any]]:
     """Run n_episodes and return raw episode data for visualisation."""
     episodes = []
     async with CricketCaptainEnv(env_url) as env:
         for ep in range(n_episodes):
-            result = await env.reset(
-                task=task,
-                random_start=False,
-                eval_pack_id=eval_pack_id,
-                opponent_mode=opponent_mode,
-            )
             obs = result.observation
             history = []
             step_data = []
@@ -291,7 +294,7 @@ async def _run_eval(args):
     print(f"Collecting {args.episodes} evaluation episodes...")
     episodes = await collect_eval_episodes(
-        args.env_url, agent, args.episodes, args.task, args.eval_pack_id, args.opponent_mode
     )
     print_summary(episodes)
@@ -322,6 +325,8 @@ def main():
     parser.add_argument("--eval-pack-id", default=os.environ.get("CRICKET_EVAL_PACK_ID", "default"))
     parser.add_argument("--opponent-mode", default=os.environ.get("CRICKET_OPPONENT_MODE", "heuristic"),
                         choices=["heuristic", "llm_live", "llm_cached"])
     parser.add_argument("--out-dir", default="./eval_output")
     parser.add_argument("--log-file", default=None,
                         help="Path to JSONL training log for reward curves")

     task: str,
     eval_pack_id: str = "default",
     opponent_mode: str = "heuristic",
+    max_overs: int | None = None,
 ) -> list[dict[str, Any]]:
     """Run n_episodes and return raw episode data for visualisation."""
     episodes = []
     async with CricketCaptainEnv(env_url) as env:
         for ep in range(n_episodes):
+            # OpenEnv server routes reset params via `options`.
+            result = await env.reset(options={
+                "task": task,
+                "random_start": False,
+                "eval_pack_id": eval_pack_id,
+                "opponent_mode": opponent_mode,
+                "max_overs": max_overs,
+            })
             obs = result.observation
             history = []
             step_data = []
     print(f"Collecting {args.episodes} evaluation episodes...")
     episodes = await collect_eval_episodes(
+        args.env_url, agent, args.episodes, args.task, args.eval_pack_id, args.opponent_mode, args.max_overs
     )
     print_summary(episodes)
     parser.add_argument("--eval-pack-id", default=os.environ.get("CRICKET_EVAL_PACK_ID", "default"))
     parser.add_argument("--opponent-mode", default=os.environ.get("CRICKET_OPPONENT_MODE", "heuristic"),
                         choices=["heuristic", "llm_live", "llm_cached"])
+    parser.add_argument("--max-overs", type=int, default=None,
+                        help="Limit innings length for fast experiments (e.g. 5).")
     parser.add_argument("--out-dir", default="./eval_output")
     parser.add_argument("--log-file", default=None,
                         help="Path to JSONL training log for reward curves")

inference.py CHANGED Viewed

@@ -225,13 +225,16 @@ async def run_episode(
     verbose: bool = False,
     eval_pack_id: str = "default",
     opponent_mode: str = "heuristic",
 ) -> dict[str, Any]:
-    result = await env.reset(
-        task=task,
-        random_start=False,
-        eval_pack_id=eval_pack_id,
-        opponent_mode=opponent_mode,
-    )
     obs = result.observation
     history: list[dict] = []
@@ -308,6 +311,7 @@ async def evaluate(args):
                 verbose=args.verbose,
                 eval_pack_id=args.eval_pack_id,
                 opponent_mode=args.opponent_mode,
             )
             results.append(ep_result)
             print(
@@ -332,6 +336,8 @@ def main():
     parser.add_argument("--episodes", type=int, default=5)
     parser.add_argument("--task", default="stage2_full",
                         choices=["stage1_format", "stage2_full", "eval_50over"])
     parser.add_argument("--env-url", default=os.environ.get("CRICKET_CAPTAIN_ENV_URL", "ws://localhost:8000"))
     parser.add_argument("--eval-pack-id", default=os.environ.get("CRICKET_EVAL_PACK_ID", "default"))
     parser.add_argument("--opponent-mode", default=os.environ.get("CRICKET_OPPONENT_MODE", "heuristic"),

     verbose: bool = False,
     eval_pack_id: str = "default",
     opponent_mode: str = "heuristic",
+    max_overs: int | None = None,
 ) -> dict[str, Any]:
+    # OpenEnv server routes reset params via `options`.
+    result = await env.reset(options={
+        "task": task,
+        "random_start": False,
+        "eval_pack_id": eval_pack_id,
+        "opponent_mode": opponent_mode,
+        "max_overs": max_overs,
+    })
     obs = result.observation
     history: list[dict] = []
                 verbose=args.verbose,
                 eval_pack_id=args.eval_pack_id,
                 opponent_mode=args.opponent_mode,
+                max_overs=args.max_overs,
             )
             results.append(ep_result)
             print(
     parser.add_argument("--episodes", type=int, default=5)
     parser.add_argument("--task", default="stage2_full",
                         choices=["stage1_format", "stage2_full", "eval_50over"])
+    parser.add_argument("--max-overs", type=int, default=None,
+                        help="Limit innings length for fast experiments (e.g. 5).")
     parser.add_argument("--env-url", default=os.environ.get("CRICKET_CAPTAIN_ENV_URL", "ws://localhost:8000"))
     parser.add_argument("--eval-pack-id", default=os.environ.get("CRICKET_EVAL_PACK_ID", "default"))
     parser.add_argument("--opponent-mode", default=os.environ.get("CRICKET_OPPONENT_MODE", "heuristic"),