Spaces:

Vikaspandey582003
/

echo-ultimate

Sleeping

App Files Files Community

Vikaspandey582003 commited on 13 days ago

Commit

26ba066

verified ·

1 Parent(s): ee53375

fix: remove openenv.core dependency — pure FastAPI, graceful fallback

Browse files

Files changed (1) hide show

env/openenv_env.py +363 -0

env/openenv_env.py ADDED Viewed

	@@ -0,0 +1,363 @@

+"""
+ECHO ULTIMATE — OpenEnv-compliant environment.
+EchoOpenEnv extends BOTH openenv.core.Environment AND gymnasium.Env (via EchoEnv),
+satisfying the full OpenEnv protocol:
+    reset(seed, episode_id, **kwargs)  → EchoObservation
+    step(action: EchoAction, ...)      → EchoObservation
+    state                              → EchoState  (property)
+    get_metadata()                     → EnvironmentMetadata
+Plus OpenEnv task-listing helpers:
+    info()        → environment metadata dict
+    list_tasks()  → all TaskSpec dicts
+    get_task(id)  → single TaskSpec dict
+Gymnasium-style callers (server, training) use the _gym_reset / _gym_step
+helpers which still return (obs_dict, info) / (obs, reward, done, …) tuples.
+"""
+from __future__ import annotations
+from dataclasses import dataclass, asdict
+from typing import Any, Dict, Optional, List, Tuple
+try:
+    from openenv.core import Environment
+    try:
+        from openenv.core.env import EnvironmentMetadata
+    except ImportError:
+        EnvironmentMetadata = None
+except ImportError:
+    # Fallback: plain base class when openenv is not available
+    class Environment:
+        def __init__(self, transform=None, rubric=None, **kwargs):
+            pass
+    EnvironmentMetadata = None
+from env.echo_env import EchoEnv
+from env.task_bank import TaskBank
+from env.reward import RewardHistory
+from models import EchoAction, EchoObservation, EchoState
+from core.tasks import TASKS
+from config import cfg
+# ── OpenEnv task spec ─────────────────────────────────────────────────────────
+@dataclass
+class TaskSpec:
+    id: str
+    name: str
+    description: str
+    pass_threshold: float
+    metric: str
+    n_episodes: int
+    domains: List[str]
+    difficulties: List[str]
+    def to_dict(self) -> dict:
+        return asdict(self)
+@dataclass
+class EnvInfo:
+    name: str
+    version: str
+    description: str
+    observation_format: str
+    action_format: str
+    reward_range: Tuple[float, float]
+    domains: List[str]
+    tasks: List[str]
+    def to_dict(self) -> dict:
+        return asdict(self)
+# ── Main environment ──────────────────────────────────────────────────────────
+class EchoOpenEnv(Environment[EchoAction, EchoObservation, EchoState], EchoEnv):
+    """
+    ECHO ULTIMATE: OpenEnv-compliant RL environment for LLM calibration.
+    Extends openenv.core.Environment (OpenEnv protocol) AND EchoEnv (gymnasium.Env).
+    OpenEnv usage — stateless per-request:
+        env = EchoOpenEnv()
+        obs = env.reset()                          # EchoObservation
+        obs = env.step(EchoAction(response="...")) # EchoObservation
+        s   = env.state                            # EchoState
+    Gymnasium usage — stateful episodes:
+        obs_dict, info = env._gym_reset()
+        obs_dict, r, done, _, info = env._gym_step("<confidence>72</confidence><answer>Paris</answer>")
+    Training loop:
+        env = EchoOpenEnv(phase=1)
+        for _ in range(n_steps):
+            obs_dict, info = env._gym_reset()
+            prompt = info["formatted_prompt"]
+            response = model.generate(prompt)
+            _, reward, _, _, _ = env._gym_step(response)
+    """
+    # OpenEnv class attributes
+    SUPPORTS_CONCURRENT_SESSIONS: bool = False
+    OPENENV_PROTOCOL_VERSION: str = "1.0"
+    N_TASKS: int = 3
+    OBSERVATION_TYPE: str = "dict"
+    ACTION_TYPE: str = "text"
+    def __init__(
+        self,
+        task_id: Optional[str] = None,
+        task_bank: Optional[TaskBank] = None,
+        reward_history: Optional[RewardHistory] = None,
+        phase: int = 1,
+        self_consistency: bool = False,
+        generate_fn=None,
+        render_mode: Optional[str] = None,
+    ) -> None:
+        # Init gymnasium env (EchoEnv sets up task_bank, reward_history, spaces, etc.)
+        EchoEnv.__init__(
+            self,
+            task_bank=task_bank,
+            reward_history=reward_history,
+            phase=phase,
+            self_consistency=self_consistency,
+            generate_fn=generate_fn,
+            render_mode=render_mode,
+        )
+        # Init openenv.core.Environment (sets transform=None, rubric=None)
+        Environment.__init__(self, transform=None, rubric=None)
+        self._default_task_id = task_id
+    # ── OpenEnv abstract method: reset ────────────────────────────────────────
+    def reset(
+        self,
+        seed: Optional[int] = None,
+        episode_id: Optional[str] = None,
+        **kwargs,
+    ) -> EchoObservation:
+        """
+        OpenEnv reset — returns EchoObservation.
+        Accepts kwargs: options={"task_id": "task_hard"}  or  task_id="task_easy".
+        """
+        options = kwargs.get("options")
+        task_id = kwargs.get("task_id") or self._default_task_id
+        if options is None and task_id:
+            options = {"task_id": task_id}
+        obs_dict, _ = EchoEnv.reset(self, seed=seed, options=options)
+        return self._obs_from_dict(obs_dict, done=False)
+    # ── OpenEnv abstract method: step ─────────────────────────────────────────
+    def step(
+        self,
+        action: EchoAction | str,
+        timeout_s: Optional[float] = None,
+        **kwargs,
+    ) -> EchoObservation:
+        """OpenEnv step — accepts EchoAction or raw string, returns EchoObservation."""
+        response = action.response if isinstance(action, EchoAction) else str(action)
+        obs_dict, reward, terminated, truncated, info = EchoEnv.step(self, response)
+        return self._obs_from_step(obs_dict, reward, terminated or truncated, info)
+    # ── OpenEnv abstract property: state ──────────────────────────────────────
+    @property
+    def state(self) -> EchoState:
+        """OpenEnv state property — returns full EchoState snapshot."""
+        task = self._current_task or {}
+        snap = self.reward_history.get_training_snapshot(last_n=100)
+        profiles = self.reward_history.get_domain_profiles()
+        return EchoState(
+            current_question=task.get("question", ""),
+            domain=task.get("domain", ""),
+            difficulty=task.get("difficulty", ""),
+            phase=self.phase,
+            step_count=self._episode_step,
+            total_reward=self._episode_reward,
+            domain_stats={
+                d: {"ece": round(p.ece, 3), "accuracy": round(p.accuracy, 3)}
+                for d, p in profiles.items()
+                if p.n_samples > 0
+            },
+        )
+    # ── OpenEnv metadata ──────────────────────────────────────────────────────
+    def get_metadata(self):
+        """OpenEnv environment metadata."""
+        if EnvironmentMetadata is not None:
+            return EnvironmentMetadata(
+                name="ECHO-ULTIMATE",
+                version="2.0.0",
+                description=(
+                    "RL environment for LLM metacognitive calibration. "
+                    "Trains models to accurately predict their own probability of "
+                    "being correct across 7 domains via GRPO with Brier-score rewards."
+                ),
+            )
+        return {
+            "name": "ECHO-ULTIMATE",
+            "version": "2.0.0",
+            "description": "OpenEnv RL environment for LLM metacognitive calibration.",
+        }
+    # ── Gymnasium-compatible helpers (for server + training) ──────────────────
+    def _gym_reset(
+        self,
+        seed: Optional[int] = None,
+        options: Optional[dict] = None,
+    ) -> Tuple[dict, dict]:
+        """Gymnasium-style reset returning (obs_dict, info) tuple."""
+        if options is None and self._default_task_id:
+            options = {"task_id": self._default_task_id}
+        return EchoEnv.reset(self, seed=seed, options=options)
+    def _gym_step(self, response: str) -> Tuple[dict, float, bool, bool, dict]:
+        """Gymnasium-style step returning (obs, reward, terminated, truncated, info)."""
+        return EchoEnv.step(self, response)
+    # ── Task-listing helpers (OpenEnv task bank protocol) ─────────────────────
+    def info(self) -> dict:
+        """Return environment metadata dict."""
+        return EnvInfo(
+            name="ECHO-ULTIMATE",
+            version="2.0.0",
+            description=(
+                "RL environment for LLM metacognitive calibration. "
+                "Teaches models to accurately predict their own probability of being correct "
+                "across 7 domains via GRPO with Brier-score calibration rewards."
+            ),
+            observation_format=(
+                "EchoObservation: {question, domain, difficulty, reward, done, "
+                "ece, accuracy, confidence, brier_score, is_correct, feedback}"
+            ),
+            action_format="EchoAction: {response='<confidence>N</confidence><answer>TEXT</answer>'}",
+            reward_range=(cfg.REWARD_CLIP_LOW, cfg.REWARD_CLIP_HIGH),
+            domains=cfg.DOMAINS,
+            tasks=[t.id for t in TASKS],
+        ).to_dict()
+    def list_tasks(self) -> List[dict]:
+        """Return all task specifications."""
+        return [
+            TaskSpec(
+                id=t.id,
+                name=t.name,
+                description=t.description,
+                pass_threshold=t.pass_threshold,
+                metric=t.metric,
+                n_episodes=t.n_episodes,
+                domains=cfg.DOMAINS,
+                difficulties=cfg.DIFFICULTIES,
+            ).to_dict()
+            for t in TASKS
+        ]
+    def get_task(self, task_id: str) -> Optional[dict]:
+        """Return a single task spec by ID."""
+        for t in TASKS:
+            if t.id == task_id:
+                return TaskSpec(
+                    id=t.id,
+                    name=t.name,
+                    description=t.description,
+                    pass_threshold=t.pass_threshold,
+                    metric=t.metric,
+                    n_episodes=t.n_episodes,
+                    domains=cfg.DOMAINS,
+                    difficulties=cfg.DIFFICULTIES,
+                ).to_dict()
+        return None
+    # ── Evaluation helper ─────────────────────────────────────────────────────
+    def evaluate(
+        self,
+        n_episodes: int = 30,
+        task_id: Optional[str] = None,
+    ) -> dict:
+        """Run n_episodes and return OpenEnv-style evaluation results."""
+        rewards = []
+        for _ in range(n_episodes):
+            obs_dict, info = self._gym_reset(
+                options={"task_id": task_id} if task_id else None
+            )
+            placeholder = "<confidence>50</confidence><answer>unknown</answer>"
+            _, reward, _, _, _ = self._gym_step(placeholder)
+            rewards.append(reward)
+        metrics = self.get_metrics()
+        task_spec = self.get_task(task_id) if task_id else None
+        threshold = task_spec["pass_threshold"] if task_spec else 0.5
+        score = max(0.0, 1.0 - metrics.ece) * min(1.0, metrics.accuracy / 0.55)
+        return {
+            "n_episodes":           n_episodes,
+            "ece":                  round(metrics.ece, 4),
+            "accuracy":             round(metrics.accuracy, 4),
+            "brier_score":          round(metrics.brier, 4),
+            "overconfidence_rate":  round(metrics.overconfidence_rate, 4),
+            "mean_reward":          round(sum(rewards) / len(rewards), 4),
+            "score":                round(score, 4),
+            "pass_threshold":       threshold,
+            "passed":               score >= threshold,
+        }
+    # ── Internal helpers ──────────────────────────────────────────────────────
+    def _obs_from_dict(self, obs_dict: dict, done: bool = False) -> EchoObservation:
+        """Convert _build_obs() dict → EchoObservation (after reset)."""
+        task = self._current_task or {}
+        return EchoObservation(
+            question=task.get("question", obs_dict.get("question", "")),
+            domain=obs_dict.get("domain", ""),
+            difficulty=obs_dict.get("difficulty", ""),
+            ece=float(obs_dict.get("running_ece", 0.0)),
+            accuracy=float(obs_dict.get("running_accuracy", 0.0)),
+            confidence=int(obs_dict.get("running_mean_confidence", 50)),
+            done=done,
+        )
+    def _obs_from_step(
+        self,
+        obs_dict: dict,
+        reward: float,
+        done: bool,
+        info: dict,
+    ) -> EchoObservation:
+        """Convert step() outputs → EchoObservation."""
+        return EchoObservation(
+            question=(self._current_task or {}).get("question", ""),
+            domain=info.get("domain", obs_dict.get("domain", "")),
+            difficulty=info.get("difficulty", obs_dict.get("difficulty", "")),
+            reward=float(reward),
+            done=done,
+            ece=float(obs_dict.get("running_ece", 0.0)),
+            accuracy=float(info.get("accuracy", 0.0)),
+            confidence=int(info.get("parsed_confidence", 50)),
+            brier_score=float(info.get("brier_reward", 0.0)),
+            is_correct=bool(info.get("was_correct", False)),
+            feedback=info.get("breakdown", ""),
+        )
+# ── Convenience factory ───────────────────────────────────────────────────────
+def make_echo_env(
+    task_id: Optional[str] = None,
+    phase: int = 1,
+    **kwargs,
+) -> EchoOpenEnv:
+    """Factory function for creating an ECHO OpenEnv environment."""
+    return EchoOpenEnv(task_id=task_id, phase=phase, **kwargs)