Spaces:

hirann
/

cloud-ops-optimizer

Sleeping

App Files Files Community

hirann commited on Apr 5

Commit

ff4146a

verified ·

1 Parent(s): 925ffc2

Fix: Add missing _calculate_iterative_reward method

Browse files

Files changed (1) hide show

env/core.py +53 -1

env/core.py CHANGED Viewed

@@ -177,7 +177,7 @@ class CloudOpsEnvironment:
             "latency": latency,
         })
-        reward = self._calculate_iterative_reward(latency, error_rate, new_cost, prev_cost, prev_latency)
         done = (
             self._ep.steps >= self._max_steps or
@@ -221,6 +221,58 @@ class CloudOpsEnvironment:
         return latency, error_rate, avg_utilization
     def _build_observation(self, message: str) -> ObsModel:
         if self._ep is None:
             return self._error_obs()

             "latency": latency,
         })
+        reward = self._calculate_iterative_reward(latency, error_rate, new_cost, prev_cost, prev_latency, utilization)
         done = (
             self._ep.steps >= self._max_steps or
         return latency, error_rate, avg_utilization
+    def _calculate_iterative_reward(
+        self,
+        latency: float,
+        error_rate: float,
+        new_cost: float,
+        prev_cost: float,
+        prev_latency: float,
+        utilization: float
+    ) -> RewModel:
+        task = self._ep.task_config
+        budget = task.sla["max_budget"]
+        max_latency = task.sla["max_latency_ms"]
+        cost_improvement = (prev_cost - new_cost) / (prev_cost + 1e-6)
+        latency_improvement = (prev_latency - latency) / (prev_latency + 1e-6)
+        change_bonus = min(self._ep.changes_made * 0.06, 0.3)
+        cost_ratio = new_cost / budget
+        cost_reward = 0.3 * (1.0 / (1.0 + max(0, cost_ratio - 1)))
+        lat_ratio = latency / max_latency
+        perf_reward = 0.3 * (1.0 / (1.0 + max(0, lat_ratio - 1)))
+        improvement_bonus = 0.0
+        if cost_improvement > 0:
+            improvement_bonus += min(cost_improvement * 0.15, 0.1)
+        if latency_improvement > 0:
+            improvement_bonus += min(latency_improvement * 0.15, 0.1)
+        base_reward = cost_reward + perf_reward
+        total_reward = min(1.0, base_reward + change_bonus + improvement_bonus)
+        if error_rate > 0.2:
+            total_reward *= (1.0 - error_rate)
+        exploration_bonus = min(self._ep.steps * 0.03, 0.15)
+        if self._ep.last_action_success:
+            total_reward = min(1.0, total_reward + exploration_bonus)
+        initial_latency = self._ep.initial_latency
+        initial_cost = self._ep.initial_cost
+        cost_change = ((new_cost - initial_cost) / initial_cost) * 100 if initial_cost > 0 else 0
+        lat_change = ((latency - initial_latency) / initial_latency) * 100 if initial_latency > 0 else 0
+        return RewModel(
+            value=min(1.0, max(0.0, total_reward)),
+            reason=f"Changes: {self._ep.changes_made}, Cost: ${new_cost:.1f}, Latency: {latency:.1f}ms",
+            cost_change_pct=cost_change,
+            latency_change_pct=lat_change,
+        )
     def _build_observation(self, message: str) -> ObsModel:
         if self._ep is None:
             return self._error_obs()