OSINT

Sleeping

App Files Files Community

Siddeshwar1625 commited on Apr 6

Commit

805fc08

1 Parent(s): 65c0dda

Updated reward to range [0,1]

Browse files

Files changed (3) hide show

datasets/fixed_levels/leaderboard_fixed_levels.json +123 -0
src/osint_env/env/reward.py +13 -2
src/osint_env/eval/metrics.py +12 -2

datasets/fixed_levels/leaderboard_fixed_levels.json CHANGED Viewed

@@ -414,5 +414,128 @@
     },
     "run_id": "run_0010",
     "run_name": "fixed_levels_qwen_swarm"
   }
 ]

     },
     "run_id": "run_0010",
     "run_name": "fixed_levels_qwen_swarm"
+  },
+  {
+    "config": {
+      "max_agents": 3,
+      "max_breadth": 2,
+      "max_depth": 2,
+      "max_steps": 24,
+      "max_width": 2,
+      "seed": 2026,
+      "seeded_questions": 30,
+      "swarm_enabled": true
+    },
+    "created_at": "2026-04-06T20:46:11+00:00",
+    "episodes": 1,
+    "metrics": {
+      "avg_compactness_reward": 0.0,
+      "avg_connectivity_gain_reward": 0.2,
+      "avg_connectivity_reward": -0.15,
+      "avg_diversity_reward": 0.12666666666666665,
+      "avg_entity_informativeness_reward": 0.019629386278697845,
+      "avg_format_reward": 0.15,
+      "avg_graph_f1": 0.5714285714285715,
+      "avg_knowledge_carrier_reward": 0.5,
+      "avg_knowledge_indexing_reward": 0.12272727272727273,
+      "avg_relation_informativeness_reward": 0.08347928023822283,
+      "avg_reward": 1.829702015111513,
+      "avg_soft_shaping_reward": 0.3,
+      "avg_spawn_count": 4.0,
+      "avg_spawn_critical_steps": 6.0,
+      "avg_steps_to_solution": 9.0,
+      "deanonymization_accuracy": 0.0,
+      "leaderboard_score": 0.6715432845394145,
+      "retrieval_signal": 0.7179545454545455,
+      "spawn_completion_rate": 1.0,
+      "spawn_signal": 0.6666666666666666,
+      "structural_signal": 0.5221217333033842,
+      "task_success_rate": 1.0,
+      "tool_efficiency": 0.5
+    },
+    "run_id": "run_0011",
+    "run_name": "fixed_levels_qwen_swarm"
+  },
+  {
+    "config": {
+      "max_agents": 3,
+      "max_breadth": 2,
+      "max_depth": 2,
+      "max_steps": 24,
+      "max_width": 2,
+      "seed": 2026,
+      "seeded_questions": 30,
+      "swarm_enabled": true
+    },
+    "created_at": "2026-04-06T20:49:44+00:00",
+    "episodes": 1,
+    "metrics": {
+      "avg_compactness_reward": 0.0,
+      "avg_connectivity_gain_reward": 0.2,
+      "avg_connectivity_reward": -0.15,
+      "avg_diversity_reward": 0.12666666666666665,
+      "avg_entity_informativeness_reward": 0.019629386278697845,
+      "avg_format_reward": 0.15,
+      "avg_graph_f1": 0.5714285714285715,
+      "avg_knowledge_carrier_reward": 0.5,
+      "avg_knowledge_indexing_reward": 0.12272727272727273,
+      "avg_relation_informativeness_reward": 0.08335372627068136,
+      "avg_reward": 0.7139904233885594,
+      "avg_soft_shaping_reward": 0.3,
+      "avg_spawn_count": 4.0,
+      "avg_spawn_critical_steps": 6.0,
+      "avg_steps_to_solution": 9.0,
+      "deanonymization_accuracy": 0.0,
+      "leaderboard_score": 0.6641542345113342,
+      "retrieval_signal": 0.7179545454545455,
+      "spawn_completion_rate": 1.0,
+      "spawn_signal": 0.6666666666666666,
+      "structural_signal": 0.5220966225098759,
+      "task_success_rate": 1.0,
+      "tool_efficiency": 0.5
+    },
+    "run_id": "run_0012",
+    "run_name": "fixed_levels_qwen_swarm"
+  },
+  {
+    "config": {
+      "max_agents": 3,
+      "max_breadth": 2,
+      "max_depth": 2,
+      "max_steps": 24,
+      "max_width": 2,
+      "seed": 2026,
+      "seeded_questions": 30,
+      "swarm_enabled": true
+    },
+    "created_at": "2026-04-06T20:59:43+00:00",
+    "episodes": 1,
+    "metrics": {
+      "avg_compactness_reward": 0.0,
+      "avg_connectivity_gain_reward": 0.2,
+      "avg_connectivity_reward": -0.15,
+      "avg_diversity_reward": 0.12666666666666665,
+      "avg_entity_informativeness_reward": 0.0036675120354726642,
+      "avg_format_reward": 0.15,
+      "avg_graph_f1": 0.5714285714285715,
+      "avg_knowledge_carrier_reward": 0.5,
+      "avg_knowledge_indexing_reward": 0.12272727272727273,
+      "avg_relation_informativeness_reward": 0.08250745620050208,
+      "avg_reward": 0.7138056720677886,
+      "avg_soft_shaping_reward": 0.3,
+      "avg_spawn_count": 4.0,
+      "avg_spawn_critical_steps": 6.0,
+      "avg_steps_to_solution": 9.0,
+      "deanonymization_accuracy": 0.0,
+      "leaderboard_score": 0.6638424503476543,
+      "retrieval_signal": 0.7179545454545455,
+      "spawn_completion_rate": 1.0,
+      "spawn_signal": 0.6666666666666666,
+      "structural_signal": 0.518734993647195,
+      "task_success_rate": 1.0,
+      "tool_efficiency": 0.5
+    },
+    "run_id": "run_0013",
+    "run_name": "fixed_levels_qwen_swarm"
   }
 ]

src/osint_env/env/reward.py CHANGED Viewed

@@ -170,6 +170,15 @@ def _connectivity_gain(edge: Edge, existing_edges: list[Edge]) -> float:
     return 0.10
 def compute_edge_reward(
     edge: Edge,
     task: TaskInstance,
@@ -207,7 +216,7 @@ def compute_edge_reward(
     # Additional structural utility shaping for KG construction.
     connectivity_gain = _connectivity_gain(edge, existing_edges)
-    total = (
         global_accuracy
         + soft_shaping
         + efficiency
@@ -216,6 +225,7 @@ def compute_edge_reward(
         + entity_informativeness
         + connectivity_gain
     )
     return EdgeRewardBreakdown(
         total=total,
         global_accuracy=global_accuracy,
@@ -383,7 +393,7 @@ def compute_answer_reward(
     # AutoGraph-R1 repetition control variant used in larger models.
     repetition_penalty = -0.10 * _relation_repetition_ratio(pred_edges)
-    total = (
         format_reward
         + correctness
         + knowledge_carrier
@@ -396,6 +406,7 @@ def compute_answer_reward(
         + entity_informativeness
         + repetition_penalty
     )
     return AnswerRewardBreakdown(
         total=total,
         format_reward=format_reward,

     return 0.10
+def _sigmoid_temperature(value: float, temperature: float = 2.0) -> float:
+    scaled = float(value) / max(1e-6, float(temperature))
+    if scaled >= 0:
+        z = math.exp(-scaled)
+        return 1.0 / (1.0 + z)
+    z = math.exp(scaled)
+    return z / (1.0 + z)
 def compute_edge_reward(
     edge: Edge,
     task: TaskInstance,
     # Additional structural utility shaping for KG construction.
     connectivity_gain = _connectivity_gain(edge, existing_edges)
+    raw_total = (
         global_accuracy
         + soft_shaping
         + efficiency
         + entity_informativeness
         + connectivity_gain
     )
+    total = _sigmoid_temperature(raw_total, temperature=2.0)
     return EdgeRewardBreakdown(
         total=total,
         global_accuracy=global_accuracy,
     # AutoGraph-R1 repetition control variant used in larger models.
     repetition_penalty = -0.10 * _relation_repetition_ratio(pred_edges)
+    raw_total = (
         format_reward
         + correctness
         + knowledge_carrier
         + entity_informativeness
         + repetition_penalty
     )
+    total = _sigmoid_temperature(raw_total, temperature=2.0)
     return AnswerRewardBreakdown(
         total=total,
         format_reward=format_reward,

src/osint_env/eval/metrics.py CHANGED Viewed

@@ -29,6 +29,15 @@ class EvalMetrics:
     total_spawn_finished_subtasks: int = 0
     total_spawn_critical_steps: int = 0
     def add(self, info: dict, task_type: str, graph_f1: float) -> None:
         self.episodes += 1
         ok = info.get("agent_answer") == info.get("task_answer")
@@ -62,7 +71,8 @@ class EvalMetrics:
         tool_efficiency = 1.0 - (self.total_redundant_tool_calls / max(1, self.total_tool_calls))
         avg_graph_f1 = sum(self.graph_f1_scores) / max(1, len(self.graph_f1_scores))
         deanonymization_accuracy = self.deanonymization_success / max(1, self.deanonymization_total)
-        avg_reward = self.total_reward / episodes
         avg_knowledge_carrier = self.total_knowledge_carrier / episodes
         avg_knowledge_indexing = self.total_knowledge_indexing / episodes
         avg_connectivity = self.total_connectivity / episodes
@@ -78,7 +88,7 @@ class EvalMetrics:
         spawn_latency_signal = 1.0 / max(1.0, avg_spawn_critical_steps)
         spawn_signal = max(0.0, min(1.0, 0.6 * spawn_completion + 0.4 * spawn_latency_signal))
-        reward_norm = 1.0 / (1.0 + math.exp(-avg_reward))
         retrieval_signal = max(0.0, min(1.0, 0.5 + 0.35 * avg_knowledge_carrier + 0.35 * avg_knowledge_indexing))
         structural_signal = max(
             0.0,

     total_spawn_finished_subtasks: int = 0
     total_spawn_critical_steps: int = 0
+    @staticmethod
+    def _sigmoid_temperature(value: float, temperature: float = 2.0) -> float:
+        scaled = float(value) / max(1e-6, float(temperature))
+        if scaled >= 0:
+            z = math.exp(-scaled)
+            return 1.0 / (1.0 + z)
+        z = math.exp(scaled)
+        return z / (1.0 + z)
     def add(self, info: dict, task_type: str, graph_f1: float) -> None:
         self.episodes += 1
         ok = info.get("agent_answer") == info.get("task_answer")
         tool_efficiency = 1.0 - (self.total_redundant_tool_calls / max(1, self.total_tool_calls))
         avg_graph_f1 = sum(self.graph_f1_scores) / max(1, len(self.graph_f1_scores))
         deanonymization_accuracy = self.deanonymization_success / max(1, self.deanonymization_total)
+        avg_reward_raw = self.total_reward / episodes
+        avg_reward = self._sigmoid_temperature(avg_reward_raw, temperature=2.0)
         avg_knowledge_carrier = self.total_knowledge_carrier / episodes
         avg_knowledge_indexing = self.total_knowledge_indexing / episodes
         avg_connectivity = self.total_connectivity / episodes
         spawn_latency_signal = 1.0 / max(1.0, avg_spawn_critical_steps)
         spawn_signal = max(0.0, min(1.0, 0.6 * spawn_completion + 0.4 * spawn_latency_signal))
+        reward_norm = avg_reward
         retrieval_signal = max(0.0, min(1.0, 0.5 + 0.35 * avg_knowledge_carrier + 0.35 * avg_knowledge_indexing))
         structural_signal = max(
             0.0,