Spaces:

anugrahhu
/

cernenv-trainer

Paused

anugrahhu commited on 13 days ago

Commit

70b06db

verified ·

1 Parent(s): d91fe20

sft+reward-fix: server/environment.py

Files changed (1) hide show

server/environment.py CHANGED Viewed

@@ -258,6 +258,28 @@ class CERNCollisionEnvironment(Environment[ExperimentAction, CollisionObservatio
             self._state.correct_mass = term.correct_mass
             self._state.correct_channel = term.correct_channel
             self._state.correct_spin = term.correct_spin
         done = terminal_now or time_up
         if done:

             self._state.correct_mass = term.correct_mass
             self._state.correct_channel = term.correct_channel
             self._state.correct_spin = term.correct_spin
+        elif time_up:
+            # Fix #1: if the episode runs out of steps/budget/time and the
+            # agent never even *attempted* a SUBMIT_DISCOVERY_CLAIM, levy a
+            # flat no-claim penalty so claim-avoidance can no longer
+            # dominate the per-step shaping reward (the v1 reward hack).
+            ever_claimed = any(
+                rec.action_type == ActionType.SUBMIT_DISCOVERY_CLAIM
+                for rec in self._history
+            )
+            if not ever_claimed:
+                term = compute_terminal_reward(
+                    state=self._latent,
+                    claim=None,
+                    weights=self.reward_weights,
+                )
+                terminal_reward_value = term.reward
+                self._state.cumulative_reward += terminal_reward_value
+                self._state.terminal_reward = terminal_reward_value
+                self._state.discovered = term.discovered
+                self._state.correct_mass = term.correct_mass
+                self._state.correct_channel = term.correct_channel
+                self._state.correct_spin = term.correct_spin
         done = terminal_now or time_up
         if done: