OSINT

Sleeping

App Files Files Community

ritishshrirao commited on Apr 1

Commit

ce675d4

1 Parent(s): d61a550

Add dashboard, Update reward, Multi-agent orchestration

Browse files

Files changed (29) hide show

README.md +274 -42
artifacts/leaderboard.json +84 -0
artifacts/osint_dashboard.html +551 -0
config/seed_example.json +51 -0
config/shared_config.json +40 -0
docs/reward_design_notes.md +94 -0
src/osint_env/agents/__init__.py +5 -0
src/osint_env/agents/swarm_agent.py +181 -0
src/osint_env/cli.py +208 -5
src/osint_env/config/__init__.py +9 -0
src/osint_env/config/shared.py +226 -0
src/osint_env/data/generator.py +364 -26
src/osint_env/domain/models.py +57 -0
src/osint_env/env/environment.py +66 -9
src/osint_env/env/reward.py +406 -1
src/osint_env/env/spawn_reward_hooks.py +93 -0
src/osint_env/eval/leaderboard.py +83 -0
src/osint_env/eval/metrics.py +94 -5
src/osint_env/eval/runner.py +28 -4
src/osint_env/viz/__init__.py +3 -0
src/osint_env/viz/dashboard.py +707 -0
tests/test_config.py +61 -0
tests/test_dashboard.py +25 -0
tests/test_eval.py +12 -1
tests/test_leaderboard.py +47 -0
tests/test_reward.py +53 -0
tests/test_seeding.py +40 -0
tests/test_spawn_reward_hooks.py +43 -0
tests/test_swarm_agent.py +17 -0

README.md CHANGED Viewed

@@ -1,42 +1,274 @@
-# OSINT RL Environment (MVP)
-A professional, scalable prototype of a simulated multi-platform information ecosystem where LLM agents discover, link, and reason over fragmented synthetic data using tools and structured memory.
-## Features
-- Synthetic dataset generation from hidden canonical graph with aliases/noise
-- Three mock platforms: microblog, forum, profile
-- Tool surface for search and retrieval across platforms
-- OpenEnv-like episode loop with actions: `CALL_TOOL`, `ADD_EDGE`, `ANSWER`
-- In-memory knowledge graph and semantic retrieval memory
-- Reward shaping (tool efficiency, linking correctness, final answer)
-- Single-agent baseline and evaluation metrics
-## Quick Start
-```bash
-source ~/test/bin/activate
-uv pip install -e .
-osint-env demo
-osint-env eval --episodes 20
-```
-This environment is implemented on top of the Hugging Face `openenv` package (`openenv.env.Env`) and follows the reset/step interaction contract.
-## Architecture
-```text
-src/osint_env/
-  domain/         # entities, actions, observations, tasks
-  data/           # generator + noisy projections
-  platforms/      # mock platform data + tool APIs
-  memory/         # KG + semantic index
-  env/            # episode state machine + rewards
-  agents/         # baseline single-agent orchestrator
-  llm/            # pluggable LLM client interfaces
-  eval/           # metrics + evaluation runner
-  cli.py          # entrypoints
-```
-## Scalability Notes
-- Strong module boundaries to support multi-agent orchestration.
-- Configurable generation knobs: users, alias density, noise, red herring rate.
-- Deterministic seeds for reproducible benchmark instances.
-- LLM provider abstraction for local (Ollama) and hosted backends.

+# OSINT RL Environment
+This repository implements a simulated OSINT-style reinforcement learning environment where agents build and query a knowledge graph over fragmented multi-platform synthetic data.
+The codebase now supports both single-agent and low-width multi-agent swarm execution, seeded task and graph bootstrapping, benchmark scoring, and interactive visualization.
+## 1. What The Project Does
+The environment models a realistic workflow for information discovery and linking:
+1. Generate a hidden canonical graph with users, aliases, organizations, locations, and links.
+2. Project noisy partial views into mock platforms (microblog, forum, profile).
+3. Ask identity-resolution, network-discovery, and event-tracing questions.
+4. Let agents call tools, add graph edges, and submit answers.
+5. Score episodes using a composite reward that combines correctness, retrieval utility, graph quality, and efficiency.
+## 2. Current Capabilities
+- Single-agent baseline runner.
+- Multi-agent swarm runner with constrained breadth and width (configurable, low by default).
+- Seeded graph nodes and edges from user-provided JSON.
+- Seeded questions from user-provided JSON.
+- LLM-assisted generation hooks for remaining graph/task expansion with deterministic fallback.
+- Persistent benchmark leaderboard with composite utility score.
+- Interactive dashboard showing:
+  - canonical graph,
+  - episode graph diff (predicted vs truth),
+  - source database explorer,
+  - benchmark charts and leaderboard.
+## 3. Installation
+Environment setup from the project root:
+1. Activate your Python environment.
+2. Install package dependencies.
+Example:
+   source ~/arl/bin/activate
+   uv pip install -e .
+The project requires Python 3.10+.
+## 4. Repository Layout
+   src/osint_env/
+    agents/        single-agent and swarm runners
+    config/        shared config loader
+    data/          canonical graph, views, and task generation
+    domain/        data models and configuration dataclasses
+    env/           OpenEnv environment and reward logic
+    eval/          metrics, runner, leaderboard
+    llm/           LLM client interface and local mock
+    memory/        in-memory KG and semantic memory
+    platforms/     platform tool APIs
+    viz/           dashboard export
+    cli.py         command-line entrypoint
+   config/
+    shared_config.json   shared runtime/environment/swarm/reward config
+    seed_example.json    example seeded graph and question file
+## 5. Shared Configuration
+All core knobs are centralized in config/shared_config.json.
+This file includes:
+- environment generation controls,
+- swarm limits,
+- spawn reward shaping hyperparameters,
+- seeding defaults,
+- runtime output paths.
+Default swarm settings are intentionally conservative:
+- max_agents: 3
+- max_breadth: 2
+- max_width: 2
+- max_depth: 2
+These defaults keep orchestration cost and branching low while enabling swarm behavior.
+## 6. Seeding Questions And Partial Graphs
+You can manually seed:
+- graph nodes,
+- graph edges,
+- task questions (optionally with answers and supporting edges).
+Use a seed file with the same structure as config/seed_example.json and pass it using --seed-file.
+Workflow:
+1. Add your manual graph fragments and questions to a JSON file.
+2. Keep llm_generate_remaining_graph and llm_generate_remaining_tasks enabled to fill the rest automatically.
+3. Run demo/eval/benchmark with --seed-file.
+## 7. CLI Usage
+All commands accept:
+- --config for shared config path (default: config/shared_config.json)
+- --seed-file for seeded graph/task input JSON
+- --agent-mode with values: config, single, swarm
+Main commands:
+1. Run one episode:
+     osint-env demo --agent-mode swarm
+2. Evaluate episodes:
+     osint-env eval --episodes 20 --agent-mode single
+3. Benchmark and export dashboard:
+     osint-env benchmark --episodes 20 --name baseline_swarm
+4. Multi-seed benchmark sweep:
+     osint-env benchmark-sweep --seeds 7,11,17,23,31 --name-prefix sweep_swarm
+5. Print leaderboard:
+     osint-env leaderboard --sort-by leaderboard_score --top 15
+6. Export explorer without full benchmark:
+     osint-env viz --with-demo --output artifacts/osint_explorer.html
+## 8. Multi-Agent Swarm Design
+Swarm orchestration is implemented in src/osint_env/agents/swarm_agent.py.
+Design choices:
+- Shared environment state (single episode state machine).
+- Planner rounds bounded by max_depth and planner_rounds.
+- Parallel workers bounded by min(max_agents, max_breadth, max_width).
+- Each worker performs limited tool calls, then attempts edge addition.
+- Final answer is submitted once planning rounds complete or episode ends.
+Reward compatibility:
+- Existing edge and answer reward components are unchanged.
+- Spawn utility is added as an auxiliary term using the PARL-style helper in src/osint_env/env/spawn_reward_hooks.py.
+- Spawn telemetry (count, critical steps, completion) is tracked in episode info and evaluation summaries.
+## 9. Reward Design (Integrated Notes)
+The reward function is a composite of graph-construction and answer-time utility terms. It combines ideas from DeepPath, EMNLP 2018 reward shaping, UniRel, and AutoGraph-R1.
+### 9.1 Edge Reward During Graph Construction
+For each ADD_EDGE action, the environment combines:
+1. Global accuracy signal (DeepPath-style positive/negative credit).
+2. Soft shaping term inspired by EMNLP 2018 reward shaping:
+  R = Rb + (1 - Rb) f(s, r, o)
+  where f is approximated in code with relation and type priors plus small domain priors.
+3. Efficiency bonus inversely proportional to step count.
+4. Diversity bonus using signature novelty against previous edges.
+5. Relation informativeness using normalized relation IDF.
+6. Entity informativeness using inverse hubness penalty.
+7. Connectivity gain bonus for bridge-style edges.
+### 9.2 Final Answer Reward
+For ANSWER, reward includes:
+1. format validity,
+2. correctness,
+3. knowledge-carrying utility (AutoGraph-style deducibility),
+4. knowledge-indexing utility (AutoGraph-style evidence coverage proxy over tool outputs),
+5. UniRel-style connectivity score over seed entities,
+6. graph F1 against supporting edges,
+7. compactness and repetition controls,
+8. efficiency and informativeness terms.
+### 9.3 Swarm Auxiliary Reward
+The swarm runner adds a PARL-style auxiliary term based on:
+- spawn parallelism,
+- finished subtask ratio,
+- critical-step latency proxy,
+- optional breadth and depth shaping.
+This auxiliary term is configurable in shared_config.json via spawn_reward.
+### 9.4 Benchmark Metrics
+Evaluation tracks:
+- task success,
+- graph F1,
+- deanonymization accuracy,
+- tool efficiency,
+- retrieval and structural utility signals,
+- spawn signals (for swarm runs),
+- composite leaderboard score.
+## 10. Interactive Dashboard
+Dashboard export includes:
+- canonical graph explorer,
+- episode graph comparison,
+- node and edge inspectors,
+- source database table with record detail pane,
+- reward and graph traces,
+- sortable leaderboard snapshot.
+Primary outputs:
+- artifacts/osint_dashboard.html
+- artifacts/osint_explorer.html
+- artifacts/sweep_dashboards/*.html
+## 11. Notes On LLM Generation
+Dataset generation supports an LLM-assisted expansion path for remaining tasks and graph edges.
+If no model is connected or structured output is unavailable, deterministic template fallback is used. This preserves reproducibility while keeping the interface compatible with stronger local or remote LLMs.
+## 12. Citation And Source Papers
+Reward components and swarm hooks are informed by the following papers:
+1. AutoGraph-R1: Enhancing Agentic RAG with Graph-R1 for Complex QA.
+  arXiv: https://arxiv.org/abs/2510.15339
+2. UniRel: Graph-based Relational Retrieval for LLM Reasoning.
+  arXiv: https://arxiv.org/abs/2512.17043
+3. DeepPath: A Reinforcement Learning Method for Knowledge Graph Reasoning.
+  EMNLP 2017: https://aclanthology.org/D17-1060/
+4. Multi-Hop Knowledge Graph Reasoning with Reward Shaping.
+  EMNLP 2018: https://aclanthology.org/D18-1362/
+5. Kimi K2.5 (PARL-style multi-agent shaping motivation).
+  arXiv: https://arxiv.org/abs/2602.02276
+Additional context:
+6. MINERVA: Reinforcement Learning for Query Answering over Knowledge Graphs.
+  arXiv: https://arxiv.org/abs/1711.05851
+## 13. Development And Testing
+Run tests from project root:
+   pytest -q
+Recommended validation after config changes:
+1. osint-env demo --agent-mode swarm
+2. osint-env eval --episodes 5
+3. osint-env benchmark --episodes 5 --name quick_check
+4. osint-env leaderboard --top 5
+## 14. Scope Boundaries
+- This repository supports a low-width swarm baseline and reward-compatible orchestration.
+- It does not include a full distributed training stack or asynchronous external worker runtime.
+- The architecture keeps those extensions possible without breaking current interfaces.

artifacts/leaderboard.json ADDED Viewed

	@@ -0,0 +1,84 @@

+[
+  {
+    "config": {
+      "max_agents": 3,
+      "max_breadth": 2,
+      "max_depth": 2,
+      "max_steps": 18,
+      "max_width": 2,
+      "seed": 7,
+      "seeded_questions": 1,
+      "swarm_enabled": true
+    },
+    "created_at": "2026-04-01T12:03:13+00:00",
+    "episodes": 2,
+    "metrics": {
+      "avg_compactness_reward": 0.0,
+      "avg_connectivity_gain_reward": 0.1,
+      "avg_connectivity_reward": 0.3,
+      "avg_diversity_reward": 0.08,
+      "avg_entity_informativeness_reward": 0.024705877237863647,
+      "avg_format_reward": 0.15,
+      "avg_graph_f1": 1.0,
+      "avg_knowledge_carrier_reward": 0.5,
+      "avg_knowledge_indexing_reward": 0.15,
+      "avg_relation_informativeness_reward": 0.03137141693971891,
+      "avg_reward": 3.534162700533434,
+      "avg_soft_shaping_reward": 0.15,
+      "avg_spawn_count": 4.0,
+      "avg_spawn_critical_steps": 6.0,
+      "avg_steps_to_solution": 9.0,
+      "deanonymization_accuracy": 1.0,
+      "leaderboard_score": 0.8618382743087459,
+      "retrieval_signal": 0.7275,
+      "spawn_completion_rate": 1.0,
+      "spawn_signal": 0.6666666666666666,
+      "structural_signal": 0.6082154588355165,
+      "task_success_rate": 1.0,
+      "tool_efficiency": 0.25
+    },
+    "run_id": "run_0001",
+    "run_name": "swarm_seed_smoke"
+  },
+  {
+    "config": {
+      "max_agents": 3,
+      "max_breadth": 2,
+      "max_depth": 2,
+      "max_steps": 18,
+      "max_width": 2,
+      "seed": 7,
+      "seeded_questions": 1,
+      "swarm_enabled": true
+    },
+    "created_at": "2026-04-01T12:16:28+00:00",
+    "episodes": 2,
+    "metrics": {
+      "avg_compactness_reward": 0.0,
+      "avg_connectivity_gain_reward": 0.1,
+      "avg_connectivity_reward": 0.3,
+      "avg_diversity_reward": 0.08,
+      "avg_entity_informativeness_reward": 0.024705877237863647,
+      "avg_format_reward": 0.15,
+      "avg_graph_f1": 1.0,
+      "avg_knowledge_carrier_reward": 0.5,
+      "avg_knowledge_indexing_reward": 0.15,
+      "avg_relation_informativeness_reward": 0.03137141693971891,
+      "avg_reward": 3.534162700533434,
+      "avg_soft_shaping_reward": 0.15,
+      "avg_spawn_count": 4.0,
+      "avg_spawn_critical_steps": 6.0,
+      "avg_steps_to_solution": 9.0,
+      "deanonymization_accuracy": 1.0,
+      "leaderboard_score": 0.8618382743087459,
+      "retrieval_signal": 0.7275,
+      "spawn_completion_rate": 1.0,
+      "spawn_signal": 0.6666666666666666,
+      "structural_signal": 0.6082154588355165,
+      "task_success_rate": 1.0,
+      "tool_efficiency": 0.25
+    },
+    "run_id": "run_0002",
+    "run_name": "swarm_seed_smoke"
+  }
+]

artifacts/osint_dashboard.html ADDED Viewed

	@@ -0,0 +1,551 @@

+<!doctype html>
+<html lang="en">
+<head>
+  <meta charset="utf-8" />
+  <meta name="viewport" content="width=device-width, initial-scale=1" />
+  <title>OSINT Environment Dashboard</title>
+  <link rel="preconnect" href="https://fonts.googleapis.com" />
+  <link rel="preconnect" href="https://fonts.gstatic.com" crossorigin />
+  <link href="https://fonts.googleapis.com/css2?family=Space+Grotesk:wght@400;600;700&family=IBM+Plex+Mono:wght@400;600&display=swap" rel="stylesheet" />
+  <link href="https://unpkg.com/vis-network@9.1.9/styles/vis-network.min.css" rel="stylesheet" />
+  <script src="https://unpkg.com/vis-network@9.1.9/standalone/umd/vis-network.min.js"></script>
+  <script src="https://cdn.jsdelivr.net/npm/chart.js@4.4.3/dist/chart.umd.min.js"></script>
+  <style>
+    :root {
+      --ink: #1d232f;
+      --muted: #5f6d7a;
+      --line: #d5dfe8;
+      --bg: #f5f8fb;
+      --card: #ffffff;
+      --brand: #0f766e;
+      --brand-soft: #d4f4ef;
+      --accent: #d97706;
+      --accent-soft: #ffe7c2;
+      --ok: #15803d;
+      --danger: #b91c1c;
+    }
+    * { box-sizing: border-box; }
+    body {
+      margin: 0;
+      color: var(--ink);
+      font-family: "Space Grotesk", "Segoe UI", sans-serif;
+      background:
+        radial-gradient(1200px 500px at -5% -20%, #d8efe9, transparent 70%),
+        radial-gradient(900px 500px at 110% -10%, #ffe9cf, transparent 65%),
+        var(--bg);
+    }
+    .wrap { max-width: 1500px; margin: 0 auto; padding: 20px; }
+    .card {
+      background: var(--card);
+      border: 1px solid var(--line);
+      border-radius: 18px;
+      padding: 16px;
+      box-shadow: 0 10px 24px rgba(24, 39, 59, 0.06);
+    }
+    .hero {
+      display: grid;
+      grid-template-columns: 2.1fr 1fr;
+      gap: 14px;
+      margin-bottom: 14px;
+    }
+    .hero-main {
+      background: linear-gradient(145deg, #f7fffd, #fff8ef);
+      border: 1px solid #e6efe8;
+    }
+    h1 { margin: 0 0 8px; font-size: 30px; letter-spacing: -0.02em; }
+    h2 { margin: 0 0 10px; font-size: 18px; letter-spacing: -0.01em; }
+    .muted { color: var(--muted); }
+    .pill-row { display: flex; gap: 8px; flex-wrap: wrap; margin-top: 8px; }
+    .pill {
+      border: 1px solid #dce8e6;
+      background: #fbfffe;
+      border-radius: 999px;
+      padding: 4px 10px;
+      font-size: 12px;
+      color: #214742;
+    }
+    .stats { display: grid; grid-template-columns: repeat(3, minmax(120px, 1fr)); gap: 10px; margin-top: 10px; }
+    .stat {
+      border: 1px dashed #cde2df;
+      background: linear-gradient(180deg, #fcfffe, #f6fffc);
+      border-radius: 12px;
+      padding: 10px;
+    }
+    .stat .k { font-size: 11px; color: var(--muted); text-transform: uppercase; letter-spacing: 0.06em; }
+    .stat .v { font-size: 22px; font-weight: 700; }
+    .layout { display: grid; grid-template-columns: 1.2fr 3fr 1.2fr; gap: 14px; margin-bottom: 14px; }
+    .control-col { display: flex; flex-direction: column; gap: 14px; }
+    .control-grid { display: grid; gap: 8px; }
+    .graph-wrap { position: relative; overflow: hidden; }
+    .graph { height: 540px; border: 1px solid var(--line); border-radius: 14px; background: #fbfdff; }
+    .graph-banner {
+      position: absolute;
+      top: 10px;
+      left: 10px;
+      background: rgba(255,255,255,0.93);
+      border: 1px solid var(--line);
+      border-radius: 12px;
+      padding: 6px 10px;
+      font-size: 12px;
+      z-index: 2;
+      backdrop-filter: blur(4px);
+    }
+    .legend { display: flex; gap: 8px; flex-wrap: wrap; margin-top: 8px; font-size: 12px; }
+    .dot { width: 9px; height: 9px; border-radius: 999px; display: inline-block; margin-right: 4px; }
+    .mono { font-family: "IBM Plex Mono", monospace; font-size: 12px; }
+    .inline { display: flex; gap: 8px; align-items: center; }
+    .split { display: grid; grid-template-columns: 2fr 1.3fr; gap: 14px; margin-bottom: 14px; }
+    .db-tabs { display: flex; gap: 6px; flex-wrap: wrap; margin-bottom: 8px; }
+    .tab {
+      border: 1px solid var(--line);
+      border-radius: 9px;
+      padding: 5px 10px;
+      background: #fff;
+      cursor: pointer;
+      font-size: 12px;
+    }
+    .tab.active { background: var(--brand-soft); border-color: #b5e7de; color: #08554e; }
+    .table-wrap { max-height: 320px; overflow: auto; border: 1px solid var(--line); border-radius: 12px; }
+    table { width: 100%; border-collapse: collapse; font-size: 12.5px; }
+    th, td { padding: 8px; border-bottom: 1px solid #edf2f7; text-align: left; vertical-align: top; }
+    th { position: sticky; top: 0; background: #f7fbff; z-index: 1; }
+    tr:hover td { background: #f9fcff; }
+    .json-view {
+      height: 320px;
+      overflow: auto;
+      border: 1px solid var(--line);
+      border-radius: 12px;
+      background: #0f172a;
+      color: #d2f8ee;
+      padding: 10px;
+      margin: 0;
+    }
+    .charts { display: grid; grid-template-columns: 1fr 1fr; gap: 14px; margin-bottom: 14px; }
+    .chart-box { height: 300px; }
+    select, input[type="search"], button {
+      border: 1px solid var(--line);
+      border-radius: 9px;
+      padding: 8px;
+      font: inherit;
+      background: #fff;
+      color: var(--ink);
+    }
+    button { cursor: pointer; background: #fff; }
+    button.primary { background: var(--brand); border-color: #0e6f68; color: #fff; }
+    .subtle { background: #f7fafc; }
+    @media (max-width: 1100px) {
+      .hero, .layout, .split, .charts { grid-template-columns: 1fr; }
+      .graph { height: 440px; }
+    }
+  </style>
+</head>
+<body>
+  <div class="wrap">
+    <div class="hero">
+      <section class="card hero-main">
+        <h1>OSINT Benchmark Dashboard</h1>
+        <p class="muted">Interactive explorer for canonical knowledge graph, episode traces, source platform records, and benchmark ranking.</p>
+        <div class="pill-row" id="hero-pills"></div>
+        <div class="stats" id="stats"></div>
+      </section>
+      <section class="card">
+        <h2>Latest Task Snapshot</h2>
+        <div><strong>Task ID:</strong> <span id="task-id"></span></div>
+        <div><strong>Task Type:</strong> <span id="task-type"></span></div>
+        <div style="margin-top:8px"><strong>Question</strong></div>
+        <div id="task-question" class="muted"></div>
+        <div style="margin-top:8px"><strong>Answer</strong>: <span id="task-answer"></span></div>
+      </section>
+    </div>
+    <div class="layout">
+      <section class="card control-col">
+        <div>
+          <h2>Graph Controls</h2>
+          <div class="control-grid">
+            <label class="mono" for="graph-mode">Graph Layer</label>
+            <select id="graph-mode">
+              <option value="canonical">Canonical Graph</option>
+              <option value="episode">Episode Graph</option>
+            </select>
+            <label class="mono" for="graph-search">Node Search</label>
+            <input id="graph-search" type="search" placeholder="Type node id or label..." />
+            <label class="mono" for="relation-filter">Relation Filter</label>
+            <input id="relation-filter" type="search" placeholder="Filter edge labels..." />
+            <button id="fit-graph" class="primary">Fit Graph</button>
+          </div>
+        </div>
+        <div>
+          <h2>Node Types</h2>
+          <div id="type-filters" class="control-grid mono"></div>
+        </div>
+      </section>
+      <section class="card">
+        <h2>Graph Explorer</h2>
+        <div class="graph-wrap">
+          <div class="graph-banner" id="graph-banner">Layer: Canonical Graph</div>
+          <div id="graph-canvas" class="graph"></div>
+        </div>
+        <div class="legend">
+          <span><span class="dot" style="background:#16a34a"></span>matched edge</span>
+          <span><span class="dot" style="background:#2563eb"></span>predicted only</span>
+          <span><span class="dot" style="background:#f59e0b"></span>truth only</span>
+        </div>
+      </section>
+      <section class="card control-col">
+        <div>
+          <h2>Node Inspector</h2>
+          <pre id="node-detail" class="json-view">Click a node to inspect attributes and neighbors.</pre>
+        </div>
+        <div>
+          <h2>Edge Inspector</h2>
+          <pre id="edge-detail" class="json-view">Click an edge to inspect relation details.</pre>
+        </div>
+      </section>
+    </div>
+    <div class="split">
+      <section class="card">
+        <h2>Original Database Explorer</h2>
+        <div class="db-tabs" id="db-tabs"></div>
+        <div class="inline" style="margin-bottom:8px">
+          <input id="db-search" type="search" placeholder="Search records..." style="flex:1" />
+          <select id="db-limit">
+            <option value="200">200</option>
+            <option value="500">500</option>
+            <option value="1000">1000</option>
+          </select>
+        </div>
+        <div class="table-wrap"><table id="db-table"></table></div>
+      </section>
+      <section class="card">
+        <h2>Selected Source Record</h2>
+        <pre id="db-detail" class="json-view">Click a row in the database table to inspect full JSON.</pre>
+      </section>
+    </div>
+    <div class="charts">
+      <section class="card">
+        <h2>Benchmark Summary Radar</h2>
+        <div class="chart-box"><canvas id="summary-chart"></canvas></div>
+      </section>
+      <section class="card">
+        <h2>Episode Reward and Graph F1</h2>
+        <div class="chart-box"><canvas id="trace-chart"></canvas></div>
+      </section>
+    </div>
+    <section class="card">
+      <h2>Benchmark Leaderboard</h2>
+      <div class="inline" style="margin-bottom:8px">
+        <label class="mono" for="leader-sort">Sort by</label>
+        <select id="leader-sort" class="subtle">
+          <option value="leaderboard_score">leaderboard_score</option>
+          <option value="task_success_rate">task_success_rate</option>
+          <option value="avg_graph_f1">avg_graph_f1</option>
+          <option value="retrieval_signal">retrieval_signal</option>
+          <option value="structural_signal">structural_signal</option>
+          <option value="spawn_signal">spawn_signal</option>
+          <option value="avg_reward">avg_reward</option>
+        </select>
+      </div>
+      <div class="table-wrap"><table id="leaderboard-table"></table></div>
+    </section>
+  </div>
+  <script>
+    const payload = {"summary": {"task_success_rate": 1.0, "tool_efficiency": 0.25, "avg_graph_f1": 1.0, "avg_steps_to_solution": 9.0, "deanonymization_accuracy": 1.0, "avg_reward": 3.534162700533434, "avg_knowledge_carrier_reward": 0.5, "avg_knowledge_indexing_reward": 0.15, "avg_connectivity_reward": 0.3, "avg_format_reward": 0.15, "avg_relation_informativeness_reward": 0.03137141693971891, "avg_entity_informativeness_reward": 0.024705877237863647, "avg_diversity_reward": 0.08, "avg_soft_shaping_reward": 0.15, "avg_connectivity_gain_reward": 0.1, "avg_compactness_reward": 0.0, "avg_spawn_count": 4.0, "spawn_completion_rate": 1.0, "avg_spawn_critical_steps": 6.0, "spawn_signal": 0.6666666666666666, "retrieval_signal": 0.7275, "structural_signal": 0.6082154588355165, "leaderboard_score": 0.8618382743087459}, "episodes": [{"task_id": "seed_task_0", "task_type": "identity_resolution", "graph_f1": 1.0, "reward": 3.279727292219666, "steps": 9, "tool_calls": 4, "success": 1, "reward_components": {"tool_novelty": -0.55, "tool_relevance": 0.0, "total": 3.951641885863814, "global_accuracy": 0.85, "soft_shaping": 0.15, "efficiency": 0.06333333333333334, "diversity": 0.08, "relation_informativeness": 0.03137141693971891, "entity_informativeness": 0.026937135590762374, "connectivity_gain": 0.1, "duplicate_edge_penalty": -0.44999999999999996, "format_reward": 0.15, "correctness": 1.15, "knowledge_carrier": 0.5, "knowledge_indexing": 0.0, "connectivity": 0.3, "graph_f1": 0.55, "compactness": 0.0, "repetition_penalty": 0.0, "spawn_auxiliary": 0.32808540635585226, "spawn_count": 4.0, "spawn_finished_subtasks": 4.0, "spawn_critical_steps": 6.0, "spawn_depth": 2.0, "spawn_breadth": 2.0}, "spawn_count": 4, "spawn_critical_steps": 6}, {"task_id": "task_1", "task_type": "identity_resolution", "graph_f1": 1.0, "reward": 3.788598108847202, "steps": 9, "tool_calls": 4, "success": 1, "reward_components": {"tool_novelty": -0.55, "tool_relevance": 0.21333333333333332, "total": 4.247179369158016, "global_accuracy": 0.85, "soft_shaping": 0.15, "efficiency": 0.06333333333333334, "diversity": 0.08, "relation_informativeness": 0.03137141693971891, "entity_informativeness": 0.02247461888496492, "connectivity_gain": 0.1, "duplicate_edge_penalty": -0.44999999999999996, "format_reward": 0.15, "correctness": 1.15, "knowledge_carrier": 0.5, "knowledge_indexing": 0.3, "connectivity": 0.3, "graph_f1": 0.55, "compactness": 0.0, "repetition_penalty": 0.0, "spawn_auxiliary": 0.32808540635585226, "spawn_count": 4.0, "spawn_finished_subtasks": 4.0, "spawn_critical_steps": 6.0, "spawn_depth": 2.0, "spawn_breadth": 2.0}, "spawn_count": 4, "spawn_critical_steps": 6}], "leaderboard": [{"config": {"max_agents": 3, "max_breadth": 2, "max_depth": 2, "max_steps": 18, "max_width": 2, "seed": 7, "seeded_questions": 1, "swarm_enabled": true}, "created_at": "2026-04-01T12:03:13+00:00", "episodes": 2, "metrics": {"avg_compactness_reward": 0.0, "avg_connectivity_gain_reward": 0.1, "avg_connectivity_reward": 0.3, "avg_diversity_reward": 0.08, "avg_entity_informativeness_reward": 0.024705877237863647, "avg_format_reward": 0.15, "avg_graph_f1": 1.0, "avg_knowledge_carrier_reward": 0.5, "avg_knowledge_indexing_reward": 0.15, "avg_relation_informativeness_reward": 0.03137141693971891, "avg_reward": 3.534162700533434, "avg_soft_shaping_reward": 0.15, "avg_spawn_count": 4.0, "avg_spawn_critical_steps": 6.0, "avg_steps_to_solution": 9.0, "deanonymization_accuracy": 1.0, "leaderboard_score": 0.8618382743087459, "retrieval_signal": 0.7275, "spawn_completion_rate": 1.0, "spawn_signal": 0.6666666666666666, "structural_signal": 0.6082154588355165, "task_success_rate": 1.0, "tool_efficiency": 0.25}, "run_id": "run_0001", "run_name": "swarm_seed_smoke"}, {"config": {"max_agents": 3, "max_breadth": 2, "max_depth": 2, "max_steps": 18, "max_width": 2, "seed": 7, "seeded_questions": 1, "swarm_enabled": true}, "created_at": "2026-04-01T12:16:28+00:00", "episodes": 2, "metrics": {"avg_compactness_reward": 0.0, "avg_connectivity_gain_reward": 0.1, "avg_connectivity_reward": 0.3, "avg_diversity_reward": 0.08, "avg_entity_informativeness_reward": 0.024705877237863647, "avg_format_reward": 0.15, "avg_graph_f1": 1.0, "avg_knowledge_carrier_reward": 0.5, "avg_knowledge_indexing_reward": 0.15, "avg_relation_informativeness_reward": 0.03137141693971891, "avg_reward": 3.534162700533434, "avg_soft_shaping_reward": 0.15, "avg_spawn_count": 4.0, "avg_spawn_critical_steps": 6.0, "avg_steps_to_solution": 9.0, "deanonymization_accuracy": 1.0, "leaderboard_score": 0.8618382743087459, "retrieval_signal": 0.7275, "spawn_completion_rate": 1.0, "spawn_signal": 0.6666666666666666, "structural_signal": 0.6082154588355165, "task_success_rate": 1.0, "tool_efficiency": 0.25}, "run_id": "run_0002", "run_name": "swarm_seed_smoke"}], "canonical_graph": {"nodes": [{"id": "user_0", "label": "Person 0", "group": "user", "title": "name: Person 0\\norg: Helios Labs\\nlocation: Pune", "attrs": {"name": "Person 0", "org": "Helios Labs", "location": "Pune"}}, {"id": "org_helios_labs", "label": "Helios Labs", "group": "org", "title": "name: Helios Labs", "attrs": {"name": "Helios Labs"}}, {"id": "loc_pune", "label": "Pune", "group": "location", "title": "name: Pune", "attrs": {"name": "Pune"}}, {"id": "user_1", "label": "Person 1", "group": "user", "title": "name: Person 1\\norg: Apex Dynamics\\nlocation: Bengaluru", "attrs": {"name": "Person 1", "org": "Apex Dynamics", "location": "Bengaluru"}}, {"id": "org_apex_dynamics", "label": "Apex Dynamics", "group": "org", "title": "name: Apex Dynamics", "attrs": {"name": "Apex Dynamics"}}, {"id": "loc_bengaluru", "label": "Bengaluru", "group": "location", "title": "name: Bengaluru", "attrs": {"name": "Bengaluru"}}, {"id": "user_2", "label": "Person 2", "group": "user", "title": "name: Person 2\\norg: Apex Dynamics\\nlocation: Hyderabad", "attrs": {"name": "Person 2", "org": "Apex Dynamics", "location": "Hyderabad"}}, {"id": "loc_hyderabad", "label": "Hyderabad", "group": "location", "title": "name: Hyderabad", "attrs": {"name": "Hyderabad"}}, {"id": "user_3", "label": "Person 3", "group": "user", "title": "name: Person 3\\norg: Northbridge\\nlocation: Pune", "attrs": {"name": "Person 3", "org": "Northbridge", "location": "Pune"}}, {"id": "org_northbridge", "label": "Northbridge", "group": "org", "title": "name: Northbridge", "attrs": {"name": "Northbridge"}}, {"id": "alias_3_544", "label": "@alias_3_544", "group": "alias", "title": "handle: @alias_3_544", "attrs": {"handle": "@alias_3_544"}}, {"id": "user_4", "label": "Person 4", "group": "user", "title": "name: Person 4\\norg: Helios Labs\\nlocation: Bengaluru", "attrs": {"name": "Person 4", "org": "Helios Labs", "location": "Bengaluru"}}, {"id": "alias_4_664", "label": "@alias_4_664", "group": "alias", "title": "handle: @alias_4_664", "attrs": {"handle": "@alias_4_664"}}, {"id": "user_5", "label": "Person 5", "group": "user", "title": "name: Person 5\\norg: Helios Labs\\nlocation: Bengaluru", "attrs": {"name": "Person 5", "org": "Helios Labs", "location": "Bengaluru"}}, {"id": "user_6", "label": "Person 6", "group": "user", "title": "name: Person 6\\norg: Apex Dynamics\\nlocation: Pune", "attrs": {"name": "Person 6", "org": "Apex Dynamics", "location": "Pune"}}, {"id": "user_7", "label": "Person 7", "group": "user", "title": "name: Person 7\\norg: Northbridge\\nlocation: Bengaluru", "attrs": {"name": "Person 7", "org": "Northbridge", "location": "Bengaluru"}}, {"id": "user_8", "label": "Person 8", "group": "user", "title": "name: Person 8\\norg: Helios Labs\\nlocation: Bengaluru", "attrs": {"name": "Person 8", "org": "Helios Labs", "location": "Bengaluru"}}, {"id": "user_9", "label": "Person 9", "group": "user", "title": "name: Person 9\\norg: Apex Dynamics\\nlocation: Pune", "attrs": {"name": "Person 9", "org": "Apex Dynamics", "location": "Pune"}}, {"id": "alias_9_247", "label": "@alias_9_247", "group": "alias", "title": "handle: @alias_9_247", "attrs": {"handle": "@alias_9_247"}}, {"id": "user_10", "label": "Person 10", "group": "user", "title": "name: Person 10\\norg: Northbridge\\nlocation: Bengaluru", "attrs": {"name": "Person 10", "org": "Northbridge", "location": "Bengaluru"}}, {"id": "user_11", "label": "Person 11", "group": "user", "title": "name: Person 11\\norg: Northbridge\\nlocation: Pune", "attrs": {"name": "Person 11", "org": "Northbridge", "location": "Pune"}}, {"id": "alias_11_684", "label": "@alias_11_684", "group": "alias", "title": "handle: @alias_11_684", "attrs": {"handle": "@alias_11_684"}}, {"id": "user_12", "label": "Person 12", "group": "user", "title": "name: Person 12\\norg: Northbridge\\nlocation: Pune", "attrs": {"name": "Person 12", "org": "Northbridge", "location": "Pune"}}, {"id": "user_13", "label": "Person 13", "group": "user", "title": "name: Person 13\\norg: Northbridge\\nlocation: Bengaluru", "attrs": {"name": "Person 13", "org": "Northbridge", "location": "Bengaluru"}}, {"id": "user_14", "label": "Person 14", "group": "user", "title": "name: Person 14\\norg: Northbridge\\nlocation: Pune", "attrs": {"name": "Person 14", "org": "Northbridge", "location": "Pune"}}, {"id": "user_15", "label": "Person 15", "group": "user", "title": "name: Person 15\\norg: Northbridge\\nlocation: Delhi", "attrs": {"name": "Person 15", "org": "Northbridge", "location": "Delhi"}}, {"id": "loc_delhi", "label": "Delhi", "group": "location", "title": "name: Delhi", "attrs": {"name": "Delhi"}}, {"id": "user_16", "label": "Person 16", "group": "user", "title": "name: Person 16\\norg: Helios Labs\\nlocation: Delhi", "attrs": {"name": "Person 16", "org": "Helios Labs", "location": "Delhi"}}, {"id": "user_17", "label": "Person 17", "group": "user", "title": "name: Person 17\\norg: Apex Dynamics\\nlocation: Pune", "attrs": {"name": "Person 17", "org": "Apex Dynamics", "location": "Pune"}}, {"id": "user_18", "label": "Person 18", "group": "user", "title": "name: Person 18\\norg: Apex Dynamics\\nlocation: Bengaluru", "attrs": {"name": "Person 18", "org": "Apex Dynamics", "location": "Bengaluru"}}, {"id": "user_19", "label": "Person 19", "group": "user", "title": "name: Person 19\\norg: Northbridge\\nlocation: Delhi", "attrs": {"name": "Person 19", "org": "Northbridge", "location": "Delhi"}}, {"id": "user_20", "label": "Person 20", "group": "user", "title": "name: Person 20\\norg: Northbridge\\nlocation: Delhi", "attrs": {"name": "Person 20", "org": "Northbridge", "location": "Delhi"}}, {"id": "alias_20_174", "label": "@alias_20_174", "group": "alias", "title": "handle: @alias_20_174", "attrs": {"handle": "@alias_20_174"}}, {"id": "user_21", "label": "Person 21", "group": "user", "title": "name: Person 21\\norg: Apex Dynamics\\nlocation: Delhi", "attrs": {"name": "Person 21", "org": "Apex Dynamics", "location": "Delhi"}}, {"id": "alias_21_450", "label": "@alias_21_450", "group": "alias", "title": "handle: @alias_21_450", "attrs": {"handle": "@alias_21_450"}}, {"id": "user_22", "label": "Person 22", "group": "user", "title": "name: Person 22\\norg: Apex Dynamics\\nlocation: Delhi", "attrs": {"name": "Person 22", "org": "Apex Dynamics", "location": "Delhi"}}, {"id": "user_23", "label": "Person 23", "group": "user", "title": "name: Person 23\\norg: Northbridge\\nlocation: Bengaluru", "attrs": {"name": "Person 23", "org": "Northbridge", "location": "Bengaluru"}}, {"id": "user_24", "label": "Person 24", "group": "user", "title": "name: Person 24\\norg: Northbridge\\nlocation: Hyderabad", "attrs": {"name": "Person 24", "org": "Northbridge", "location": "Hyderabad"}}, {"id": "alias_24_458", "label": "@alias_24_458", "group": "alias", "title": "handle: @alias_24_458", "attrs": {"handle": "@alias_24_458"}}, {"id": "user_25", "label": "Person 25", "group": "user", "title": "name: Person 25\\norg: Northbridge\\nlocation: Delhi", "attrs": {"name": "Person 25", "org": "Northbridge", "location": "Delhi"}}, {"id": "user_26", "label": "Person 26", "group": "user", "title": "name: Person 26\\norg: Helios Labs\\nlocation: Bengaluru", "attrs": {"name": "Person 26", "org": "Helios Labs", "location": "Bengaluru"}}, {"id": "user_27", "label": "Person 27", "group": "user", "title": "name: Person 27\\norg: Helios Labs\\nlocation: Delhi", "attrs": {"name": "Person 27", "org": "Helios Labs", "location": "Delhi"}}, {"id": "user_28", "label": "Person 28", "group": "user", "title": "name: Person 28\\norg: Apex Dynamics\\nlocation: Bengaluru", "attrs": {"name": "Person 28", "org": "Apex Dynamics", "location": "Bengaluru"}}, {"id": "user_29", "label": "Person 29", "group": "user", "title": "name: Person 29\\norg: Helios Labs\\nlocation: Delhi", "attrs": {"name": "Person 29", "org": "Helios Labs", "location": "Delhi"}}, {"id": "alias_29_495", "label": "@alias_29_495", "group": "alias", "title": "handle: @alias_29_495", "attrs": {"handle": "@alias_29_495"}}, {"id": "user_30", "label": "Person 30", "group": "user", "title": "name: Person 30\\norg: Northbridge\\nlocation: Hyderabad", "attrs": {"name": "Person 30", "org": "Northbridge", "location": "Hyderabad"}}, {"id": "alias_30_572", "label": "@alias_30_572", "group": "alias", "title": "handle: @alias_30_572", "attrs": {"handle": "@alias_30_572"}}, {"id": "user_31", "label": "Person 31", "group": "user", "title": "name: Person 31\\norg: Helios Labs\\nlocation: Pune", "attrs": {"name": "Person 31", "org": "Helios Labs", "location": "Pune"}}, {"id": "user_32", "label": "Person 32", "group": "user", "title": "name: Person 32\\norg: Helios Labs\\nlocation: Bengaluru", "attrs": {"name": "Person 32", "org": "Helios Labs", "location": "Bengaluru"}}, {"id": "alias_32_394", "label": "@alias_32_394", "group": "alias", "title": "handle: @alias_32_394", "attrs": {"handle": "@alias_32_394"}}, {"id": "user_33", "label": "Person 33", "group": "user", "title": "name: Person 33\\norg: Apex Dynamics\\nlocation: Pune", "attrs": {"name": "Person 33", "org": "Apex Dynamics", "location": "Pune"}}, {"id": "user_34", "label": "Person 34", "group": "user", "title": "name: Person 34\\norg: Helios Labs\\nlocation: Bengaluru", "attrs": {"name": "Person 34", "org": "Helios Labs", "location": "Bengaluru"}}, {"id": "alias_34_511", "label": "@alias_34_511", "group": "alias", "title": "handle: @alias_34_511", "attrs": {"handle": "@alias_34_511"}}, {"id": "user_35", "label": "Person 35", "group": "user", "title": "name: Person 35\\norg: Northbridge\\nlocation: Hyderabad", "attrs": {"name": "Person 35", "org": "Northbridge", "location": "Hyderabad"}}, {"id": "user_36", "label": "Person 36", "group": "user", "title": "name: Person 36\\norg: Helios Labs\\nlocation: Hyderabad", "attrs": {"name": "Person 36", "org": "Helios Labs", "location": "Hyderabad"}}, {"id": "user_37", "label": "Person 37", "group": "user", "title": "name: Person 37\\norg: Helios Labs\\nlocation: Delhi", "attrs": {"name": "Person 37", "org": "Helios Labs", "location": "Delhi"}}, {"id": "user_38", "label": "Person 38", "group": "user", "title": "name: Person 38\\norg: Apex Dynamics\\nlocation: Bengaluru", "attrs": {"name": "Person 38", "org": "Apex Dynamics", "location": "Bengaluru"}}, {"id": "alias_38_337", "label": "@alias_38_337", "group": "alias", "title": "handle: @alias_38_337", "attrs": {"handle": "@alias_38_337"}}, {"id": "user_39", "label": "Person 39", "group": "user", "title": "name: Person 39\\norg: Northbridge\\nlocation: Pune", "attrs": {"name": "Person 39", "org": "Northbridge", "location": "Pune"}}, {"id": "alias_39_951", "label": "@alias_39_951", "group": "alias", "title": "handle: @alias_39_951", "attrs": {"handle": "@alias_39_951"}}, {"id": "alias_seed_001", "label": "@shadow_seed", "group": "alias", "title": "handle: @shadow_seed", "attrs": {"handle": "@shadow_seed"}}, {"id": "user_seed_001", "label": "Seed User", "group": "user", "title": "name: Seed User\\norg: Helios Labs\\nlocation: Pune", "attrs": {"name": "Seed User", "org": "Helios Labs", "location": "Pune"}}], "edges": [{"id": "c_0", "from": "user_0", "to": "org_helios_labs", "label": "works_at", "arrows": "to", "color": "#1f2937", "width": 1, "confidence": 1.0, "status": "canonical"}, {"id": "c_1", "from": "user_0", "to": "loc_pune", "label": "located_in", "arrows": "to", "color": "#1f2937", "width": 1, "confidence": 1.0, "status": "canonical"}, {"id": "c_2", "from": "user_1", "to": "org_apex_dynamics", "label": "works_at", "arrows": "to", "color": "#1f2937", "width": 1, "confidence": 1.0, "status": "canonical"}, {"id": "c_3", "from": "user_1", "to": "loc_bengaluru", "label": "located_in", "arrows": "to", "color": "#1f2937", "width": 1, "confidence": 1.0, "status": "canonical"}, {"id": "c_4", "from": "user_2", "to": "org_apex_dynamics", "label": "works_at", "arrows": "to", "color": "#1f2937", "width": 1, "confidence": 1.0, "status": "canonical"}, {"id": "c_5", "from": "user_2", "to": "loc_hyderabad", "label": "located_in", "arrows": "to", "color": "#1f2937", "width": 1, "confidence": 1.0, "status": "canonical"}, {"id": "c_6", "from": "user_3", "to": "org_northbridge", "label": "works_at", "arrows": "to", "color": "#1f2937", "width": 1, "confidence": 1.0, "status": "canonical"}, {"id": "c_7", "from": "user_3", "to": "loc_pune", "label": "located_in", "arrows": "to", "color": "#1f2937", "width": 1, "confidence": 1.0, "status": "canonical"}, {"id": "c_8", "from": "alias_3_544", "to": "user_3", "label": "alias_of", "arrows": "to", "color": "#1f2937", "width": 1, "confidence": 1.0, "status": "canonical"}, {"id": "c_9", "from": "user_4", "to": "org_helios_labs", "label": "works_at", "arrows": "to", "color": "#1f2937", "width": 1, "confidence": 1.0, "status": "canonical"}, {"id": "c_10", "from": "user_4", "to": "loc_bengaluru", "label": "located_in", "arrows": "to", "color": "#1f2937", "width": 1, "confidence": 1.0, "status": "canonical"}, {"id": "c_11", "from": "alias_4_664", "to": "user_4", "label": "alias_of", "arrows": "to", "color": "#1f2937", "width": 1, "confidence": 1.0, "status": "canonical"}, {"id": "c_12", "from": "user_5", "to": "org_helios_labs", "label": "works_at", "arrows": "to", "color": "#1f2937", "width": 1, "confidence": 1.0, "status": "canonical"}, {"id": "c_13", "from": "user_5", "to": "loc_bengaluru", "label": "located_in", "arrows": "to", "color": "#1f2937", "width": 1, "confidence": 1.0, "status": "canonical"}, {"id": "c_14", "from": "user_6", "to": "org_apex_dynamics", "label": "works_at", "arrows": "to", "color": "#1f2937", "width": 1, "confidence": 1.0, "status": "canonical"}, {"id": "c_15", "from": "user_6", "to": "loc_pune", "label": "located_in", "arrows": "to", "color": "#1f2937", "width": 1, "confidence": 1.0, "status": "canonical"}, {"id": "c_16", "from": "user_7", "to": "org_northbridge", "label": "works_at", "arrows": "to", "color": "#1f2937", "width": 1, "confidence": 1.0, "status": "canonical"}, {"id": "c_17", "from": "user_7", "to": "loc_bengaluru", "label": "located_in", "arrows": "to", "color": "#1f2937", "width": 1, "confidence": 1.0, "status": "canonical"}, {"id": "c_18", "from": "user_8", "to": "org_helios_labs", "label": "works_at", "arrows": "to", "color": "#1f2937", "width": 1, "confidence": 1.0, "status": "canonical"}, {"id": "c_19", "from": "user_8", "to": "loc_bengaluru", "label": "located_in", "arrows": "to", "color": "#1f2937", "width": 1, "confidence": 1.0, "status": "canonical"}, {"id": "c_20", "from": "user_9", "to": "org_apex_dynamics", "label": "works_at", "arrows": "to", "color": "#1f2937", "width": 1, "confidence": 1.0, "status": "canonical"}, {"id": "c_21", "from": "user_9", "to": "loc_pune", "label": "located_in", "arrows": "to", "color": "#1f2937", "width": 1, "confidence": 1.0, "status": "canonical"}, {"id": "c_22", "from": "alias_9_247", "to": "user_9", "label": "alias_of", "arrows": "to", "color": "#1f2937", "width": 1, "confidence": 1.0, "status": "canonical"}, {"id": "c_23", "from": "user_10", "to": "org_northbridge", "label": "works_at", "arrows": "to", "color": "#1f2937", "width": 1, "confidence": 1.0, "status": "canonical"}, {"id": "c_24", "from": "user_10", "to": "loc_bengaluru", "label": "located_in", "arrows": "to", "color": "#1f2937", "width": 1, "confidence": 1.0, "status": "canonical"}, {"id": "c_25", "from": "user_11", "to": "org_northbridge", "label": "works_at", "arrows": "to", "color": "#1f2937", "width": 1, "confidence": 1.0, "status": "canonical"}, {"id": "c_26", "from": "user_11", "to": "loc_pune", "label": "located_in", "arrows": "to", "color": "#1f2937", "width": 1, "confidence": 1.0, "status": "canonical"}, {"id": "c_27", "from": "alias_11_684", "to": "user_11", "label": "alias_of", "arrows": "to", "color": "#1f2937", "width": 1, "confidence": 1.0, "status": "canonical"}, {"id": "c_28", "from": "user_12", "to": "org_northbridge", "label": "works_at", "arrows": "to", "color": "#1f2937", "width": 1, "confidence": 1.0, "status": "canonical"}, {"id": "c_29", "from": "user_12", "to": "loc_pune", "label": "located_in", "arrows": "to", "color": "#1f2937", "width": 1, "confidence": 1.0, "status": "canonical"}, {"id": "c_30", "from": "user_13", "to": "org_northbridge", "label": "works_at", "arrows": "to", "color": "#1f2937", "width": 1, "confidence": 1.0, "status": "canonical"}, {"id": "c_31", "from": "user_13", "to": "loc_bengaluru", "label": "located_in", "arrows": "to", "color": "#1f2937", "width": 1, "confidence": 1.0, "status": "canonical"}, {"id": "c_32", "from": "user_14", "to": "org_northbridge", "label": "works_at", "arrows": "to", "color": "#1f2937", "width": 1, "confidence": 1.0, "status": "canonical"}, {"id": "c_33", "from": "user_14", "to": "loc_pune", "label": "located_in", "arrows": "to", "color": "#1f2937", "width": 1, "confidence": 1.0, "status": "canonical"}, {"id": "c_34", "from": "user_15", "to": "org_northbridge", "label": "works_at", "arrows": "to", "color": "#1f2937", "width": 1, "confidence": 1.0, "status": "canonical"}, {"id": "c_35", "from": "user_15", "to": "loc_delhi", "label": "located_in", "arrows": "to", "color": "#1f2937", "width": 1, "confidence": 1.0, "status": "canonical"}, {"id": "c_36", "from": "user_16", "to": "org_helios_labs", "label": "works_at", "arrows": "to", "color": "#1f2937", "width": 1, "confidence": 1.0, "status": "canonical"}, {"id": "c_37", "from": "user_16", "to": "loc_delhi", "label": "located_in", "arrows": "to", "color": "#1f2937", "width": 1, "confidence": 1.0, "status": "canonical"}, {"id": "c_38", "from": "user_17", "to": "org_apex_dynamics", "label": "works_at", "arrows": "to", "color": "#1f2937", "width": 1, "confidence": 1.0, "status": "canonical"}, {"id": "c_39", "from": "user_17", "to": "loc_pune", "label": "located_in", "arrows": "to", "color": "#1f2937", "width": 1, "confidence": 1.0, "status": "canonical"}, {"id": "c_40", "from": "user_18", "to": "org_apex_dynamics", "label": "works_at", "arrows": "to", "color": "#1f2937", "width": 1, "confidence": 1.0, "status": "canonical"}, {"id": "c_41", "from": "user_18", "to": "loc_bengaluru", "label": "located_in", "arrows": "to", "color": "#1f2937", "width": 1, "confidence": 1.0, "status": "canonical"}, {"id": "c_42", "from": "user_19", "to": "org_northbridge", "label": "works_at", "arrows": "to", "color": "#1f2937", "width": 1, "confidence": 1.0, "status": "canonical"}, {"id": "c_43", "from": "user_19", "to": "loc_delhi", "label": "located_in", "arrows": "to", "color": "#1f2937", "width": 1, "confidence": 1.0, "status": "canonical"}, {"id": "c_44", "from": "user_20", "to": "org_northbridge", "label": "works_at", "arrows": "to", "color": "#1f2937", "width": 1, "confidence": 1.0, "status": "canonical"}, {"id": "c_45", "from": "user_20", "to": "loc_delhi", "label": "located_in", "arrows": "to", "color": "#1f2937", "width": 1, "confidence": 1.0, "status": "canonical"}, {"id": "c_46", "from": "alias_20_174", "to": "user_20", "label": "alias_of", "arrows": "to", "color": "#1f2937", "width": 1, "confidence": 1.0, "status": "canonical"}, {"id": "c_47", "from": "user_21", "to": "org_apex_dynamics", "label": "works_at", "arrows": "to", "color": "#1f2937", "width": 1, "confidence": 1.0, "status": "canonical"}, {"id": "c_48", "from": "user_21", "to": "loc_delhi", "label": "located_in", "arrows": "to", "color": "#1f2937", "width": 1, "confidence": 1.0, "status": "canonical"}, {"id": "c_49", "from": "alias_21_450", "to": "user_21", "label": "alias_of", "arrows": "to", "color": "#1f2937", "width": 1, "confidence": 1.0, "status": "canonical"}, {"id": "c_50", "from": "user_22", "to": "org_apex_dynamics", "label": "works_at", "arrows": "to", "color": "#1f2937", "width": 1, "confidence": 1.0, "status": "canonical"}, {"id": "c_51", "from": "user_22", "to": "loc_delhi", "label": "located_in", "arrows": "to", "color": "#1f2937", "width": 1, "confidence": 1.0, "status": "canonical"}, {"id": "c_52", "from": "user_23", "to": "org_northbridge", "label": "works_at", "arrows": "to", "color": "#1f2937", "width": 1, "confidence": 1.0, "status": "canonical"}, {"id": "c_53", "from": "user_23", "to": "loc_bengaluru", "label": "located_in", "arrows": "to", "color": "#1f2937", "width": 1, "confidence": 1.0, "status": "canonical"}, {"id": "c_54", "from": "user_24", "to": "org_northbridge", "label": "works_at", "arrows": "to", "color": "#1f2937", "width": 1, "confidence": 1.0, "status": "canonical"}, {"id": "c_55", "from": "user_24", "to": "loc_hyderabad", "label": "located_in", "arrows": "to", "color": "#1f2937", "width": 1, "confidence": 1.0, "status": "canonical"}, {"id": "c_56", "from": "alias_24_458", "to": "user_24", "label": "alias_of", "arrows": "to", "color": "#1f2937", "width": 1, "confidence": 1.0, "status": "canonical"}, {"id": "c_57", "from": "user_25", "to": "org_northbridge", "label": "works_at", "arrows": "to", "color": "#1f2937", "width": 1, "confidence": 1.0, "status": "canonical"}, {"id": "c_58", "from": "user_25", "to": "loc_delhi", "label": "located_in", "arrows": "to", "color": "#1f2937", "width": 1, "confidence": 1.0, "status": "canonical"}, {"id": "c_59", "from": "user_26", "to": "org_helios_labs", "label": "works_at", "arrows": "to", "color": "#1f2937", "width": 1, "confidence": 1.0, "status": "canonical"}, {"id": "c_60", "from": "user_26", "to": "loc_bengaluru", "label": "located_in", "arrows": "to", "color": "#1f2937", "width": 1, "confidence": 1.0, "status": "canonical"}, {"id": "c_61", "from": "user_27", "to": "org_helios_labs", "label": "works_at", "arrows": "to", "color": "#1f2937", "width": 1, "confidence": 1.0, "status": "canonical"}, {"id": "c_62", "from": "user_27", "to": "loc_delhi", "label": "located_in", "arrows": "to", "color": "#1f2937", "width": 1, "confidence": 1.0, "status": "canonical"}, {"id": "c_63", "from": "user_28", "to": "org_apex_dynamics", "label": "works_at", "arrows": "to", "color": "#1f2937", "width": 1, "confidence": 1.0, "status": "canonical"}, {"id": "c_64", "from": "user_28", "to": "loc_bengaluru", "label": "located_in", "arrows": "to", "color": "#1f2937", "width": 1, "confidence": 1.0, "status": "canonical"}, {"id": "c_65", "from": "user_29", "to": "org_helios_labs", "label": "works_at", "arrows": "to", "color": "#1f2937", "width": 1, "confidence": 1.0, "status": "canonical"}, {"id": "c_66", "from": "user_29", "to": "loc_delhi", "label": "located_in", "arrows": "to", "color": "#1f2937", "width": 1, "confidence": 1.0, "status": "canonical"}, {"id": "c_67", "from": "alias_29_495", "to": "user_29", "label": "alias_of", "arrows": "to", "color": "#1f2937", "width": 1, "confidence": 1.0, "status": "canonical"}, {"id": "c_68", "from": "user_30", "to": "org_northbridge", "label": "works_at", "arrows": "to", "color": "#1f2937", "width": 1, "confidence": 1.0, "status": "canonical"}, {"id": "c_69", "from": "user_30", "to": "loc_hyderabad", "label": "located_in", "arrows": "to", "color": "#1f2937", "width": 1, "confidence": 1.0, "status": "canonical"}, {"id": "c_70", "from": "alias_30_572", "to": "user_30", "label": "alias_of", "arrows": "to", "color": "#1f2937", "width": 1, "confidence": 1.0, "status": "canonical"}, {"id": "c_71", "from": "user_31", "to": "org_helios_labs", "label": "works_at", "arrows": "to", "color": "#1f2937", "width": 1, "confidence": 1.0, "status": "canonical"}, {"id": "c_72", "from": "user_31", "to": "loc_pune", "label": "located_in", "arrows": "to", "color": "#1f2937", "width": 1, "confidence": 1.0, "status": "canonical"}, {"id": "c_73", "from": "user_32", "to": "org_helios_labs", "label": "works_at", "arrows": "to", "color": "#1f2937", "width": 1, "confidence": 1.0, "status": "canonical"}, {"id": "c_74", "from": "user_32", "to": "loc_bengaluru", "label": "located_in", "arrows": "to", "color": "#1f2937", "width": 1, "confidence": 1.0, "status": "canonical"}, {"id": "c_75", "from": "alias_32_394", "to": "user_32", "label": "alias_of", "arrows": "to", "color": "#1f2937", "width": 1, "confidence": 1.0, "status": "canonical"}, {"id": "c_76", "from": "user_33", "to": "org_apex_dynamics", "label": "works_at", "arrows": "to", "color": "#1f2937", "width": 1, "confidence": 1.0, "status": "canonical"}, {"id": "c_77", "from": "user_33", "to": "loc_pune", "label": "located_in", "arrows": "to", "color": "#1f2937", "width": 1, "confidence": 1.0, "status": "canonical"}, {"id": "c_78", "from": "user_34", "to": "org_helios_labs", "label": "works_at", "arrows": "to", "color": "#1f2937", "width": 1, "confidence": 1.0, "status": "canonical"}, {"id": "c_79", "from": "user_34", "to": "loc_bengaluru", "label": "located_in", "arrows": "to", "color": "#1f2937", "width": 1, "confidence": 1.0, "status": "canonical"}, {"id": "c_80", "from": "alias_34_511", "to": "user_34", "label": "alias_of", "arrows": "to", "color": "#1f2937", "width": 1, "confidence": 1.0, "status": "canonical"}, {"id": "c_81", "from": "user_35", "to": "org_northbridge", "label": "works_at", "arrows": "to", "color": "#1f2937", "width": 1, "confidence": 1.0, "status": "canonical"}, {"id": "c_82", "from": "user_35", "to": "loc_hyderabad", "label": "located_in", "arrows": "to", "color": "#1f2937", "width": 1, "confidence": 1.0, "status": "canonical"}, {"id": "c_83", "from": "user_36", "to": "org_helios_labs", "label": "works_at", "arrows": "to", "color": "#1f2937", "width": 1, "confidence": 1.0, "status": "canonical"}, {"id": "c_84", "from": "user_36", "to": "loc_hyderabad", "label": "located_in", "arrows": "to", "color": "#1f2937", "width": 1, "confidence": 1.0, "status": "canonical"}, {"id": "c_85", "from": "user_37", "to": "org_helios_labs", "label": "works_at", "arrows": "to", "color": "#1f2937", "width": 1, "confidence": 1.0, "status": "canonical"}, {"id": "c_86", "from": "user_37", "to": "loc_delhi", "label": "located_in", "arrows": "to", "color": "#1f2937", "width": 1, "confidence": 1.0, "status": "canonical"}, {"id": "c_87", "from": "user_38", "to": "org_apex_dynamics", "label": "works_at", "arrows": "to", "color": "#1f2937", "width": 1, "confidence": 1.0, "status": "canonical"}, {"id": "c_88", "from": "user_38", "to": "loc_bengaluru", "label": "located_in", "arrows": "to", "color": "#1f2937", "width": 1, "confidence": 1.0, "status": "canonical"}, {"id": "c_89", "from": "alias_38_337", "to": "user_38", "label": "alias_of", "arrows": "to", "color": "#1f2937", "width": 1, "confidence": 1.0, "status": "canonical"}, {"id": "c_90", "from": "user_39", "to": "org_northbridge", "label": "works_at", "arrows": "to", "color": "#1f2937", "width": 1, "confidence": 1.0, "status": "canonical"}, {"id": "c_91", "from": "user_39", "to": "loc_pune", "label": "located_in", "arrows": "to", "color": "#1f2937", "width": 1, "confidence": 1.0, "status": "canonical"}, {"id": "c_92", "from": "alias_39_951", "to": "user_39", "label": "alias_of", "arrows": "to", "color": "#1f2937", "width": 1, "confidence": 1.0, "status": "canonical"}, {"id": "c_93", "from": "user_37", "to": "user_11", "label": "connected_to", "arrows": "to", "color": "#1f2937", "width": 1, "confidence": 0.8, "status": "canonical"}, {"id": "c_94", "from": "user_16", "to": "user_18", "label": "connected_to", "arrows": "to", "color": "#1f2937", "width": 1, "confidence": 0.8, "status": "canonical"}, {"id": "c_95", "from": "user_0", "to": "user_9", "label": "connected_to", "arrows": "to", "color": "#1f2937", "width": 1, "confidence": 0.8, "status": "canonical"}, {"id": "c_96", "from": "user_26", "to": "user_34", "label": "connected_to", "arrows": "to", "color": "#1f2937", "width": 1, "confidence": 0.8, "status": "canonical"}, {"id": "c_97", "from": "user_23", "to": "user_39", "label": "connected_to", "arrows": "to", "color": "#1f2937", "width": 1, "confidence": 0.8, "status": "canonical"}, {"id": "c_98", "from": "user_36", "to": "user_20", "label": "connected_to", "arrows": "to", "color": "#1f2937", "width": 1, "confidence": 0.8, "status": "canonical"}, {"id": "c_99", "from": "user_8", "to": "user_32", "label": "connected_to", "arrows": "to", "color": "#1f2937", "width": 1, "confidence": 0.8, "status": "canonical"}, {"id": "c_100", "from": "user_39", "to": "user_3", "label": "connected_to", "arrows": "to", "color": "#1f2937", "width": 1, "confidence": 0.8, "status": "canonical"}, {"id": "c_101", "from": "user_29", "to": "user_35", "label": "connected_to", "arrows": "to", "color": "#1f2937", "width": 1, "confidence": 0.8, "status": "canonical"}, {"id": "c_102", "from": "user_25", "to": "user_6", "label": "connected_to", "arrows": "to", "color": "#1f2937", "width": 1, "confidence": 0.8, "status": "canonical"}, {"id": "c_103", "from": "user_30", "to": "user_25", "label": "connected_to", "arrows": "to", "color": "#1f2937", "width": 1, "confidence": 0.8, "status": "canonical"}, {"id": "c_104", "from": "user_3", "to": "user_12", "label": "connected_to", "arrows": "to", "color": "#1f2937", "width": 1, "confidence": 0.8, "status": "canonical"}, {"id": "c_105", "from": "user_4", "to": "user_13", "label": "connected_to", "arrows": "to", "color": "#1f2937", "width": 1, "confidence": 0.8, "status": "canonical"}, {"id": "c_106", "from": "user_28", "to": "user_10", "label": "connected_to", "arrows": "to", "color": "#1f2937", "width": 1, "confidence": 0.8, "status": "canonical"}, {"id": "c_107", "from": "user_7", "to": "user_21", "label": "connected_to", "arrows": "to", "color": "#1f2937", "width": 1, "confidence": 0.8, "status": "canonical"}, {"id": "c_108", "from": "user_38", "to": "user_3", "label": "connected_to", "arrows": "to", "color": "#1f2937", "width": 1, "confidence": 0.8, "status": "canonical"}, {"id": "c_109", "from": "user_6", "to": "user_0", "label": "connected_to", "arrows": "to", "color": "#1f2937", "width": 1, "confidence": 0.8, "status": "canonical"}, {"id": "c_110", "from": "user_36", "to": "user_9", "label": "connected_to", "arrows": "to", "color": "#1f2937", "width": 1, "confidence": 0.8, "status": "canonical"}, {"id": "c_111", "from": "user_34", "to": "user_6", "label": "connected_to", "arrows": "to", "color": "#1f2937", "width": 1, "confidence": 0.8, "status": "canonical"}, {"id": "c_112", "from": "user_23", "to": "user_39", "label": "connected_to", "arrows": "to", "color": "#1f2937", "width": 1, "confidence": 0.8, "status": "canonical"}, {"id": "c_113", "from": "alias_seed_001", "to": "user_seed_001", "label": "alias_of", "arrows": "to", "color": "#1f2937", "width": 1, "confidence": 1.0, "status": "canonical"}, {"id": "c_114", "from": "alias_seed_001", "to": "user_13", "label": "alias_of", "arrows": "to", "color": "#1f2937", "width": 1, "confidence": 0.7, "status": "canonical"}, {"id": "c_115", "from": "user_9", "to": "user_seed_001", "label": "mentions", "arrows": "to", "color": "#1f2937", "width": 1, "confidence": 0.7, "status": "canonical"}, {"id": "c_116", "from": "user_38", "to": "user_23", "label": "connected_to", "arrows": "to", "color": "#1f2937", "width": 1, "confidence": 0.7, "status": "canonical"}, {"id": "c_117", "from": "user_7", "to": "user_31", "label": "mentions", "arrows": "to", "color": "#1f2937", "width": 1, "confidence": 0.7, "status": "canonical"}, {"id": "c_118", "from": "user_19", "to": "user_5", "label": "connected_to", "arrows": "to", "color": "#1f2937", "width": 1, "confidence": 0.7, "status": "canonical"}, {"id": "c_119", "from": "alias_21_450", "to": "user_16", "label": "alias_of", "arrows": "to", "color": "#1f2937", "width": 1, "confidence": 0.7, "status": "canonical"}]}, "episode_graph": {"nodes": [{"id": "alias_30_572", "label": "@alias_30_572", "group": "alias", "attrs": {"handle": "@alias_30_572"}}, {"id": "user_30", "label": "Person 30", "group": "user", "attrs": {"name": "Person 30", "org": "Northbridge", "location": "Hyderabad"}}], "edges": [{"id": "e_0", "from": "alias_30_572", "to": "user_30", "label": "alias_of", "arrows": "to", "color": "#16a34a", "dashes": false, "width": 2, "status": "matched", "confidence": 1.0}]}, "views": {"microblog_posts": [{"post_id": "post_0", "user_id": "user_0", "canonical_user": "user_0", "text": "Update 0 from Helios Labs #pune", "mentions": ["user_33"], "timestamp": 1000}, {"post_id": "post_1", "user_id": "alias_30_572", "canonical_user": "user_30", "text": "Update 1 from Apex Dynamics #bengaluru", "mentions": ["user_34"], "timestamp": 1001}, {"post_id": "post_2", "user_id": "user_2", "canonical_user": "user_2", "text": "Update 2 from Apex Dynamics #hyderabad", "mentions": ["user_19"], "timestamp": 1002}, {"post_id": "post_3", "user_id": "user_3", "canonical_user": "user_3", "text": "Update 3 from Northbridge #pune", "mentions": ["user_16"], "timestamp": 1003}, {"post_id": "post_4", "user_id": "user_4", "canonical_user": "user_4", "text": "Update 4 from Helios Labs #bengaluru", "mentions": ["user_22"], "timestamp": 1004}, {"post_id": "post_5", "user_id": "user_5", "canonical_user": "user_5", "text": "Update 5 from Helios Labs #bengaluru", "mentions": ["user_32"], "timestamp": 1005}, {"post_id": "post_6", "user_id": "alias_11_684", "canonical_user": "user_11", "text": "Update 6 from Apex Dynamics #pune", "mentions": ["user_12"], "timestamp": 1006}, {"post_id": "post_7", "user_id": "user_7", "canonical_user": "user_7", "text": "Update 7 from Northbridge #bengaluru", "mentions": ["user_14"], "timestamp": 1007}, {"post_id": "post_8", "user_id": "alias_29_495", "canonical_user": "user_29", "text": "Update 8 from Helios Labs #bengaluru", "mentions": ["user_1"], "timestamp": 1008}, {"post_id": "post_9", "user_id": "user_9", "canonical_user": "user_9", "text": "Update 9 from Apex Dynamics #pune", "mentions": ["user_30"], "timestamp": 1009}, {"post_id": "post_10", "user_id": "alias_38_337", "canonical_user": "user_38", "text": "Update 10 from Northbridge #bengaluru", "mentions": ["user_22"], "timestamp": 1010}, {"post_id": "post_11", "user_id": "alias_38_337", "canonical_user": "user_38", "text": "Update 11 from Northbridge #pune", "mentions": ["user_23"], "timestamp": 1011}, {"post_id": "post_12", "user_id": "alias_4_664", "canonical_user": "user_4", "text": "Update 12 from Northbridge #pune", "mentions": ["user_12"], "timestamp": 1012}, {"post_id": "post_13", "user_id": "alias_29_495", "canonical_user": "user_29", "text": "Update 13 from Northbridge #bengaluru", "mentions": ["user_39"], "timestamp": 1013}, {"post_id": "post_14", "user_id": "user_14", "canonical_user": "user_14", "text": "Update 14 from Northbridge #pune", "mentions": ["user_22"], "timestamp": 1014}, {"post_id": "post_15", "user_id": "user_15", "canonical_user": "user_15", "text": "Rumor: Update 15 from Northbridge #delhi maybe fake", "mentions": ["user_7"], "timestamp": 1015}, {"post_id": "post_16", "user_id": "user_16", "canonical_user": "user_16", "text": "Update 16 from Helios Labs #delhi", "mentions": ["user_12"], "timestamp": 1016}, {"post_id": "post_17", "user_id": "user_17", "canonical_user": "user_17", "text": "Update 17 from Apex Dynamics #pune", "mentions": ["user_21"], "timestamp": 1017}, {"post_id": "post_18", "user_id": "alias_38_337", "canonical_user": "user_38", "text": "Update 18 from Apex Dynamics #bengaluru", "mentions": ["user_25"], "timestamp": 1018}, {"post_id": "post_19", "user_id": "user_19", "canonical_user": "user_19", "text": "Rumor: Update 19 from Northbridge #delhi maybe fake", "mentions": ["user_10"], "timestamp": 1019}, {"post_id": "post_20", "user_id": "alias_9_247", "canonical_user": "user_9", "text": "Rumor: Update 20 from Northbridge #delhi maybe fake", "mentions": ["user_37"], "timestamp": 1020}, {"post_id": "post_21", "user_id": "user_21", "canonical_user": "user_21", "text": "Update 21 from Apex Dynamics #delhi", "mentions": ["user_9"], "timestamp": 1021}, {"post_id": "post_22", "user_id": "user_22", "canonical_user": "user_22", "text": "Update 22 from Apex Dynamics #delhi", "mentions": ["user_30"], "timestamp": 1022}, {"post_id": "post_23", "user_id": "user_23", "canonical_user": "user_23", "text": "Update 23 from Northbridge #bengaluru", "mentions": ["user_35"], "timestamp": 1023}, {"post_id": "post_24", "user_id": "user_24", "canonical_user": "user_24", "text": "Rumor: Update 24 from Northbridge #hyderabad maybe fake", "mentions": ["user_6"], "timestamp": 1024}, {"post_id": "post_25", "user_id": "user_25", "canonical_user": "user_25", "text": "Update 25 from Northbridge #delhi", "mentions": ["user_27"], "timestamp": 1025}, {"post_id": "post_26", "user_id": "user_26", "canonical_user": "user_26", "text": "Update 26 from Helios Labs #bengaluru", "mentions": ["user_13"], "timestamp": 1026}, {"post_id": "post_27", "user_id": "alias_11_684", "canonical_user": "user_11", "text": "Update 27 from Helios Labs #delhi", "mentions": ["user_15"], "timestamp": 1027}, {"post_id": "post_28", "user_id": "user_28", "canonical_user": "user_28", "text": "Update 28 from Apex Dynamics #bengaluru", "mentions": ["user_34"], "timestamp": 1028}, {"post_id": "post_29", "user_id": "alias_9_247", "canonical_user": "user_9", "text": "Rumor: Update 29 from Helios Labs #delhi maybe fake", "mentions": ["user_22"], "timestamp": 1029}, {"post_id": "post_30", "user_id": "user_30", "canonical_user": "user_30", "text": "Update 30 from Northbridge #hyderabad", "mentions": ["user_33"], "timestamp": 1030}, {"post_id": "post_31", "user_id": "alias_30_572", "canonical_user": "user_30", "text": "Rumor: Update 31 from Helios Labs #pune maybe fake", "mentions": ["user_9"], "timestamp": 1031}, {"post_id": "post_32", "user_id": "user_32", "canonical_user": "user_32", "text": "Rumor: Update 32 from Helios Labs #bengaluru maybe fake", "mentions": ["user_28"], "timestamp": 1032}, {"post_id": "post_33", "user_id": "user_33", "canonical_user": "user_33", "text": "Update 33 from Apex Dynamics #pune", "mentions": ["user_9"], "timestamp": 1033}, {"post_id": "post_34", "user_id": "alias_29_495", "canonical_user": "user_29", "text": "Update 34 from Helios Labs #bengaluru", "mentions": ["user_7"], "timestamp": 1034}, {"post_id": "post_35", "user_id": "user_35", "canonical_user": "user_35", "text": "Update 35 from Northbridge #hyderabad", "mentions": ["user_33"], "timestamp": 1035}, {"post_id": "post_36", "user_id": "user_36", "canonical_user": "user_36", "text": "Update 36 from Helios Labs #hyderabad", "mentions": ["user_6"], "timestamp": 1036}, {"post_id": "post_37", "user_id": "user_37", "canonical_user": "user_37", "text": "Rumor: Update 37 from Helios Labs #delhi maybe fake", "mentions": ["user_12"], "timestamp": 1037}, {"post_id": "post_38", "user_id": "alias_39_951", "canonical_user": "user_39", "text": "Rumor: Update 38 from Apex Dynamics #bengaluru maybe fake", "mentions": ["user_28"], "timestamp": 1038}, {"post_id": "post_39", "user_id": "user_39", "canonical_user": "user_39", "text": "Update 39 from Northbridge #pune", "mentions": ["user_4"], "timestamp": 1039}, {"post_id": "post_40", "user_id": "alias_32_394", "canonical_user": "user_32", "text": "Update 40 from Helios Labs #pune", "mentions": ["user_38"], "timestamp": 1040}], "forum_threads": [{"thread_id": "thr_0", "topic": "startup", "author_id": "user_32", "comments": [{"user_id": "user_17", "text": "Following this."}, {"user_id": "user_28", "text": "Interesting link."}]}, {"thread_id": "thr_1", "topic": "infra", "author_id": "user_32", "comments": [{"user_id": "user_32", "text": "Following this."}, {"user_id": "user_15", "text": "Interesting link."}]}, {"thread_id": "thr_2", "topic": "ai", "author_id": "user_33", "comments": [{"user_id": "user_35", "text": "Following this."}, {"user_id": "user_12", "text": "Interesting link."}]}, {"thread_id": "thr_3", "topic": "startup", "author_id": "user_28", "comments": [{"user_id": "user_26", "text": "Following this."}, {"user_id": "user_7", "text": "Interesting link."}]}, {"thread_id": "thr_4", "topic": "infra", "author_id": "user_25", "comments": [{"user_id": "user_20", "text": "Following this."}, {"user_id": "user_4", "text": "Interesting link."}]}, {"thread_id": "thr_5", "topic": "infra", "author_id": "user_15", "comments": [{"user_id": "user_4", "text": "Following this."}, {"user_id": "user_13", "text": "Interesting link."}]}, {"thread_id": "thr_6", "topic": "security", "author_id": "user_19", "comments": [{"user_id": "user_9", "text": "Following this."}, {"user_id": "user_23", "text": "Interesting link."}]}, {"thread_id": "thr_7", "topic": "ai", "author_id": "user_9", "comments": [{"user_id": "user_8", "text": "Following this."}, {"user_id": "user_29", "text": "Interesting link."}]}, {"thread_id": "thr_8", "topic": "security", "author_id": "user_14", "comments": [{"user_id": "user_25", "text": "Following this."}, {"user_id": "user_31", "text": "Interesting link."}]}, {"thread_id": "thr_9", "topic": "startup", "author_id": "user_10", "comments": [{"user_id": "user_10", "text": "Following this."}, {"user_id": "user_27", "text": "Interesting link."}]}, {"thread_id": "thr_10", "topic": "infra", "author_id": "user_32", "comments": [{"user_id": "user_21", "text": "Following this."}, {"user_id": "user_26", "text": "Interesting link."}]}, {"thread_id": "thr_11", "topic": "ai", "author_id": "user_12", "comments": [{"user_id": "user_20", "text": "Following this."}, {"user_id": "user_5", "text": "Interesting link."}]}, {"thread_id": "thr_12", "topic": "security", "author_id": "user_23", "comments": [{"user_id": "user_21", "text": "Following this."}, {"user_id": "user_35", "text": "Interesting link."}]}], "profiles": [{"user_id": "user_0", "name": "Person 0", "org": "Helios Labs", "location": "Pune", "connections": ["user_9"], "work_history": ["Helios Labs"]}, {"user_id": "user_1", "name": "Person 1", "org": "Apex Dynamics", "location": "Bengaluru", "connections": [], "work_history": ["Apex Dynamics"]}, {"user_id": "user_2", "name": "Person 2", "org": "Apex Dynamics", "location": "Hyderabad", "connections": [], "work_history": ["Apex Dynamics"]}, {"user_id": "user_3", "name": "Person 3", "org": "Northbridge", "location": "Pune", "connections": ["user_12"], "work_history": ["Northbridge"]}, {"user_id": "user_4", "name": "Person 4", "org": "Helios Labs", "location": "Bengaluru", "connections": ["user_13"], "work_history": ["Helios Labs"]}, {"user_id": "user_5", "name": "Person 5", "org": "Helios Labs", "location": "Bengaluru", "connections": [], "work_history": ["Helios Labs"]}, {"user_id": "user_6", "name": "Person 6", "org": "Apex Dynamics", "location": "Pune", "connections": ["user_0"], "work_history": ["Apex Dynamics"]}, {"user_id": "user_7", "name": "Person 7", "org": "Northbridge", "location": "Bengaluru", "connections": ["user_21"], "work_history": ["Northbridge"]}, {"user_id": "user_8", "name": "Person 8", "org": "Helios Labs", "location": "Bengaluru", "connections": ["user_32"], "work_history": ["Helios Labs"]}, {"user_id": "user_9", "name": "Person 9", "org": "Apex Dynamics", "location": "Pune", "connections": [], "work_history": ["Apex Dynamics"]}, {"user_id": "user_10", "name": "Person 10", "org": "Northbridge", "location": "Bengaluru", "connections": [], "work_history": ["Northbridge"]}, {"user_id": "user_11", "name": "Person 11", "org": "Northbridge", "location": "Pune", "connections": [], "work_history": ["Northbridge"]}, {"user_id": "user_12", "name": "Person 12", "org": "Northbridge", "location": "Pune", "connections": [], "work_history": ["Northbridge"]}, {"user_id": "user_13", "name": "Person 13", "org": "Northbridge", "location": "Bengaluru", "connections": [], "work_history": ["Northbridge"]}, {"user_id": "user_14", "name": "Person 14", "org": "Northbridge", "location": "Pune", "connections": [], "work_history": ["Northbridge"]}, {"user_id": "user_15", "name": "Person 15", "org": "Northbridge", "location": "Delhi", "connections": [], "work_history": ["Northbridge"]}, {"user_id": "user_16", "name": "Person 16", "org": "Helios Labs", "location": "Delhi", "connections": ["user_18"], "work_history": ["Helios Labs"]}, {"user_id": "user_17", "name": "Person 17", "org": "Apex Dynamics", "location": "Pune", "connections": [], "work_history": ["Apex Dynamics"]}, {"user_id": "user_18", "name": "Person 18", "org": "Apex Dynamics", "location": "Bengaluru", "connections": [], "work_history": ["Apex Dynamics"]}, {"user_id": "user_19", "name": "Person 19", "org": "Northbridge", "location": "Delhi", "connections": ["user_5"], "work_history": ["Northbridge"]}, {"user_id": "user_20", "name": "Person 20", "org": "Northbridge", "location": "Delhi", "connections": [], "work_history": ["Northbridge"]}, {"user_id": "user_21", "name": "Person 21", "org": "Apex Dynamics", "location": "Delhi", "connections": [], "work_history": ["Apex Dynamics"]}, {"user_id": "user_22", "name": "Person 22", "org": "Apex Dynamics", "location": "Delhi", "connections": [], "work_history": ["Apex Dynamics"]}, {"user_id": "user_23", "name": "Person 23", "org": "Northbridge", "location": "Bengaluru", "connections": ["user_39", "user_39"], "work_history": ["Northbridge"]}, {"user_id": "user_24", "name": "Person 24", "org": "Northbridge", "location": "Hyderabad", "connections": [], "work_history": ["Northbridge"]}, {"user_id": "user_25", "name": "Person 25", "org": "Northbridge", "location": "Delhi", "connections": ["user_6"], "work_history": ["Northbridge"]}, {"user_id": "user_26", "name": "Person 26", "org": "Helios Labs", "location": "Bengaluru", "connections": ["user_34"], "work_history": ["Helios Labs"]}, {"user_id": "user_27", "name": "Person 27", "org": "Helios Labs", "location": "Delhi", "connections": [], "work_history": ["Helios Labs"]}, {"user_id": "user_28", "name": "Person 28", "org": "Apex Dynamics", "location": "Bengaluru", "connections": ["user_10"], "work_history": ["Apex Dynamics"]}, {"user_id": "user_29", "name": "Person 29", "org": "Helios Labs", "location": "Delhi", "connections": ["user_35"], "work_history": ["Helios Labs"]}, {"user_id": "user_30", "name": "Person 30", "org": "Northbridge", "location": "Hyderabad", "connections": ["user_25"], "work_history": ["Northbridge"]}, {"user_id": "user_31", "name": "Person 31", "org": "Helios Labs", "location": "Pune", "connections": [], "work_history": ["Helios Labs"]}, {"user_id": "user_32", "name": "Person 32", "org": "Helios Labs", "location": "Bengaluru", "connections": [], "work_history": ["Helios Labs"]}, {"user_id": "user_33", "name": "Person 33", "org": "Apex Dynamics", "location": "Pune", "connections": [], "work_history": ["Apex Dynamics"]}, {"user_id": "user_34", "name": "Person 34", "org": "Helios Labs", "location": "Bengaluru", "connections": ["user_6"], "work_history": ["Helios Labs"]}, {"user_id": "user_35", "name": "Person 35", "org": "Northbridge", "location": "Hyderabad", "connections": [], "work_history": ["Northbridge"]}, {"user_id": "user_36", "name": "Person 36", "org": "Helios Labs", "location": "Hyderabad", "connections": ["user_20", "user_9"], "work_history": ["Helios Labs"]}, {"user_id": "user_37", "name": "Person 37", "org": "Helios Labs", "location": "Delhi", "connections": ["user_11"], "work_history": ["Helios Labs"]}, {"user_id": "user_38", "name": "Person 38", "org": "Apex Dynamics", "location": "Bengaluru", "connections": ["user_3", "user_23"], "work_history": ["Apex Dynamics"]}, {"user_id": "user_39", "name": "Person 39", "org": "Northbridge", "location": "Pune", "connections": ["user_3"], "work_history": ["Northbridge"]}, {"user_id": "user_seed_001", "name": "Seed User", "org": "Helios Labs", "location": "Pune", "connections": [], "work_history": ["Helios Labs"]}, {"user_id": "noise_0", "name": "P569", "org": "Unknown Ventures", "location": "Remote", "connections": [], "work_history": []}, {"user_id": "noise_1", "name": "P493", "org": "Unknown Ventures", "location": "Unknown", "connections": [], "work_history": []}, {"user_id": "noise_2", "name": "P624", "org": "Stealth Co", "location": "Remote", "connections": [], "work_history": []}, {"user_id": "noise_3", "name": "P907", "org": "Stealth Co", "location": "Remote", "connections": [], "work_history": []}]}, "task": {"task_id": "task_1", "task_type": "identity_resolution", "question": "Which canonical user owns alias alias_30_572?", "answer": "user_30"}};
+    function metricCards(summary) {
+      const selected = [
+        ["leaderboard_score", summary.leaderboard_score || 0],
+        ["task_success_rate", summary.task_success_rate || 0],
+        ["avg_graph_f1", summary.avg_graph_f1 || 0],
+        ["retrieval_signal", summary.retrieval_signal || 0],
+        ["structural_signal", summary.structural_signal || 0],
+        ["tool_efficiency", summary.tool_efficiency || 0],
+        ["avg_reward", summary.avg_reward || 0]
+      ];
+      const root = document.getElementById("stats");
+      root.innerHTML = "";
+      selected.forEach(([k, v]) => {
+        const div = document.createElement("div");
+        div.className = "stat";
+        div.innerHTML = `<div class="k">${k}</div><div class="v">${Number(v).toFixed(3)}</div>`;
+        root.appendChild(div);
+      });
+      const pillRow = document.getElementById("hero-pills");
+      pillRow.innerHTML = "";
+      [
+        `deanonymization: ${Number(summary.deanonymization_accuracy || 0).toFixed(3)}`,
+        `avg steps: ${Number(summary.avg_steps_to_solution || 0).toFixed(2)}`,
+        `episodes: ${(payload.episodes || []).length}`
+      ].forEach((text) => {
+        const span = document.createElement("span");
+        span.className = "pill";
+        span.textContent = text;
+        pillRow.appendChild(span);
+      });
+    }
+    function buildTypeFilters(allGroups) {
+      const root = document.getElementById("type-filters");
+      root.innerHTML = "";
+      allGroups.forEach((group) => {
+        const id = `type_${group}`;
+        const row = document.createElement("label");
+        row.className = "inline";
+        row.innerHTML = `<input type="checkbox" id="${id}" value="${group}" checked /> <span>${group}</span>`;
+        root.appendChild(row);
+      });
+    }
+    function createNetworkController() {
+      const container = document.getElementById("graph-canvas");
+      const banner = document.getElementById("graph-banner");
+      const modeSelect = document.getElementById("graph-mode");
+      const nodeSearch = document.getElementById("graph-search");
+      const relFilter = document.getElementById("relation-filter");
+      const fitBtn = document.getElementById("fit-graph");
+      const rawLayers = {
+        canonical: payload.canonical_graph || { nodes: [], edges: [] },
+        episode: payload.episode_graph || { nodes: [], edges: [] }
+      };
+      const allGroups = Array.from(new Set((rawLayers.canonical.nodes || []).map(n => n.group || "unknown"))).sort();
+      buildTypeFilters(allGroups);
+      const state = {
+        mode: "canonical",
+        relationQuery: "",
+        nodeQuery: "",
+      };
+      const nodesDS = new vis.DataSet([]);
+      const edgesDS = new vis.DataSet([]);
+      const network = new vis.Network(container, { nodes: nodesDS, edges: edgesDS }, {
+        interaction: { hover: true, navigationButtons: true, keyboard: true },
+        physics: { stabilization: false, barnesHut: { springLength: 130 } },
+        edges: { smooth: true, font: { size: 10 } },
+        nodes: { shape: "dot", size: 11, font: { size: 10 } }
+      });
+      function activeGroups() {
+        const checked = Array.from(document.querySelectorAll('#type-filters input[type="checkbox"]:checked'));
+        return new Set(checked.map(x => x.value));
+      }
+      function styleNode(node, query) {
+        const text = `${node.id} ${node.label || ""}`.toLowerCase();
+        const hit = query && text.includes(query);
+        return {
+          ...node,
+          color: hit ? "#f59e0b" : undefined,
+          size: hit ? 18 : 11,
+        };
+      }
+      function refresh() {
+        const raw = rawLayers[state.mode] || { nodes: [], edges: [] };
+        const groups = activeGroups();
+        const relQ = state.relationQuery.toLowerCase();
+        const nodeQ = state.nodeQuery.toLowerCase();
+        const nodes = (raw.nodes || []).filter(n => groups.has(n.group || "unknown")).map(n => styleNode(n, nodeQ));
+        const nodeIds = new Set(nodes.map(n => n.id));
+        const edges = (raw.edges || []).filter(e => nodeIds.has(e.from) && nodeIds.has(e.to)).filter(e => !relQ || String(e.label || "").toLowerCase().includes(relQ));
+        nodesDS.clear();
+        edgesDS.clear();
+        nodesDS.add(nodes);
+        edgesDS.add(edges);
+        banner.textContent = state.mode === "canonical" ? "Layer: Canonical Graph" : "Layer: Episode Graph";
+      }
+      modeSelect.addEventListener("change", () => {
+        state.mode = modeSelect.value;
+        refresh();
+      });
+      relFilter.addEventListener("input", () => {
+        state.relationQuery = relFilter.value || "";
+        refresh();
+      });
+      nodeSearch.addEventListener("input", () => {
+        state.nodeQuery = nodeSearch.value || "";
+        refresh();
+      });
+      fitBtn.addEventListener("click", () => network.fit({ animation: true }));
+      document.getElementById("type-filters").addEventListener("change", refresh);
+      network.on("click", (params) => {
+        if (params.nodes && params.nodes.length) {
+          const node = nodesDS.get(params.nodes[0]);
+          const connected = network.getConnectedNodes(node.id) || [];
+          document.getElementById("node-detail").textContent = JSON.stringify({
+            node,
+            connected_nodes: connected
+          }, null, 2);
+        }
+        if (params.edges && params.edges.length) {
+          const edge = edgesDS.get(params.edges[0]);
+          document.getElementById("edge-detail").textContent = JSON.stringify(edge, null, 2);
+        }
+      });
+      refresh();
+    }
+    function buildRows(views) {
+      const rows = [];
+      (views.microblog_posts || []).forEach((x) => rows.push({ source: "microblog", id: x.post_id || "post", text: JSON.stringify(x), raw: x }));
+      (views.forum_threads || []).forEach((x) => rows.push({ source: "forum", id: x.thread_id || "thread", text: JSON.stringify(x), raw: x }));
+      (views.profiles || []).forEach((x) => rows.push({ source: "profile", id: x.user_id || "profile", text: JSON.stringify(x), raw: x }));
+      return rows;
+    }
+    function initDatabaseExplorer() {
+      const rows = buildRows(payload.views || {});
+      const tabs = document.getElementById("db-tabs");
+      const search = document.getElementById("db-search");
+      const limit = document.getElementById("db-limit");
+      const table = document.getElementById("db-table");
+      const detail = document.getElementById("db-detail");
+      const sources = ["all", "microblog", "forum", "profile"];
+      const state = { source: "all", query: "", limit: 200 };
+      tabs.innerHTML = "";
+      sources.forEach((src) => {
+        const btn = document.createElement("button");
+        btn.className = `tab ${src === state.source ? "active" : ""}`;
+        btn.textContent = src;
+        btn.addEventListener("click", () => {
+          state.source = src;
+          Array.from(tabs.children).forEach((child) => child.classList.remove("active"));
+          btn.classList.add("active");
+          render();
+        });
+        tabs.appendChild(btn);
+      });
+      function filtered() {
+        const q = state.query.toLowerCase();
+        return rows
+          .filter((row) => state.source === "all" || row.source === state.source)
+          .filter((row) => !q || row.text.toLowerCase().includes(q) || row.id.toLowerCase().includes(q));
+      }
+      function render() {
+        const show = filtered().slice(0, state.limit);
+        table.innerHTML = "<thead><tr><th>source</th><th>id</th><th>preview</th></tr></thead>";
+        const body = document.createElement("tbody");
+        show.forEach((row) => {
+          const tr = document.createElement("tr");
+          const preview = row.text.length > 120 ? `${row.text.slice(0, 120)}...` : row.text;
+          tr.innerHTML = `<td>${row.source}</td><td class="mono">${row.id}</td><td>${preview}</td>`;
+          tr.addEventListener("click", () => {
+            detail.textContent = JSON.stringify(row.raw, null, 2);
+          });
+          body.appendChild(tr);
+        });
+        table.appendChild(body);
+      }
+      search.addEventListener("input", () => { state.query = search.value || ""; render(); });
+      limit.addEventListener("change", () => { state.limit = Number(limit.value || 200); render(); });
+      render();
+    }
+    function renderLeaderboard(records, sortBy = "leaderboard_score") {
+      const sorted = [...records].sort((a, b) => (b.metrics?.[sortBy] || 0) - (a.metrics?.[sortBy] || 0));
+      const table = document.getElementById("leaderboard-table");
+      table.innerHTML = "<thead><tr><th>rank</th><th>run</th><th>score</th><th>success</th><th>graph_f1</th><th>retrieval</th><th>structural</th><th>spawn</th><th>reward</th></tr></thead>";
+      const body = document.createElement("tbody");
+      sorted.forEach((rec, i) => {
+        const m = rec.metrics || {};
+        const tr = document.createElement("tr");
+        tr.innerHTML = `<td>${i + 1}</td><td>${rec.run_name || rec.run_id || "run"}</td><td>${(m.leaderboard_score || 0).toFixed(4)}</td><td>${(m.task_success_rate || 0).toFixed(3)}</td><td>${(m.avg_graph_f1 || 0).toFixed(3)}</td><td>${(m.retrieval_signal || 0).toFixed(3)}</td><td>${(m.structural_signal || 0).toFixed(3)}</td><td>${(m.spawn_signal || 0).toFixed(3)}</td><td>${(m.avg_reward || 0).toFixed(3)}</td>`;
+        body.appendChild(tr);
+      });
+      table.appendChild(body);
+    }
+    function drawSummaryChart(summary) {
+      const labels = ["success", "graph_f1", "tool_eff", "deanon", "retrieval", "structural", "score"];
+      const values = [
+        summary.task_success_rate || 0,
+        summary.avg_graph_f1 || 0,
+        summary.tool_efficiency || 0,
+        summary.deanonymization_accuracy || 0,
+        summary.retrieval_signal || 0,
+        summary.structural_signal || 0,
+        summary.leaderboard_score || 0,
+      ];
+      new Chart(document.getElementById("summary-chart"), {
+        type: "radar",
+        data: {
+          labels,
+          datasets: [{
+            label: "normalized metrics",
+            data: values,
+            backgroundColor: "rgba(15,118,110,0.2)",
+            borderColor: "#0f766e",
+            pointBackgroundColor: "#d97706",
+            pointRadius: 3
+          }]
+        },
+        options: { responsive: true, maintainAspectRatio: false, scales: { r: { min: 0, max: 1 } } }
+      });
+    }
+    function drawTraceChart(episodes) {
+      const labels = episodes.map((_, i) => `ep_${i + 1}`);
+      const rewards = episodes.map(e => e.reward || 0);
+      const f1 = episodes.map(e => e.graph_f1 || 0);
+      new Chart(document.getElementById("trace-chart"), {
+        type: "line",
+        data: {
+          labels,
+          datasets: [
+            { label: "reward", data: rewards, borderColor: "#0f766e", yAxisID: "y", tension: 0.2 },
+            { label: "graph_f1", data: f1, borderColor: "#d97706", yAxisID: "y1", tension: 0.2 }
+          ]
+        },
+        options: {
+          responsive: true,
+          maintainAspectRatio: false,
+          scales: {
+            y: { position: "left" },
+            y1: { position: "right", min: 0, max: 1, grid: { drawOnChartArea: false } }
+          }
+        }
+      });
+    }
+    const summary = payload.summary || {};
+    metricCards(summary);
+    document.getElementById("task-id").textContent = payload.task.task_id;
+    document.getElementById("task-type").textContent = payload.task.task_type;
+    document.getElementById("task-question").textContent = payload.task.question;
+    document.getElementById("task-answer").textContent = payload.task.answer;
+    createNetworkController();
+    initDatabaseExplorer();
+    const leaderboard = payload.leaderboard || [];
+    const leaderSort = document.getElementById("leader-sort");
+    renderLeaderboard(leaderboard, leaderSort.value);
+    leaderSort.addEventListener("change", () => renderLeaderboard(leaderboard, leaderSort.value));
+    drawSummaryChart(summary);
+    drawTraceChart(payload.episodes || []);
+  </script>
+</body>
+</html>

config/seed_example.json ADDED Viewed

	@@ -0,0 +1,51 @@

+{
+  "seeding": {
+    "seeded_nodes": [
+      {
+        "node_id": "alias_seed_001",
+        "node_type": "alias",
+        "attrs": {
+          "handle": "@shadow_seed"
+        }
+      },
+      {
+        "node_id": "user_seed_001",
+        "node_type": "user",
+        "attrs": {
+          "name": "Seed User",
+          "org": "Helios Labs",
+          "location": "Pune"
+        }
+      }
+    ],
+    "seeded_edges": [
+      {
+        "src": "alias_seed_001",
+        "rel": "alias_of",
+        "dst": "user_seed_001",
+        "confidence": 1.0
+      }
+    ],
+    "seeded_questions": [
+      {
+        "task_type": "identity_resolution",
+        "question": "Which canonical user owns alias alias_seed_001?",
+        "answer": "user_seed_001",
+        "supporting_edges": [
+          {
+            "src": "alias_seed_001",
+            "rel": "alias_of",
+            "dst": "user_seed_001"
+          }
+        ],
+        "metadata": {
+          "source": "manual_seed"
+        }
+      }
+    ],
+    "llm_generate_remaining_graph": true,
+    "llm_generate_remaining_tasks": true,
+    "llm_generated_edge_budget": 6,
+    "llm_generated_task_budget": 8
+  }
+}

config/shared_config.json ADDED Viewed

	@@ -0,0 +1,40 @@

+{
+  "environment": {
+    "n_users": 40,
+    "alias_density": 0.35,
+    "noise_level": 0.15,
+    "red_herring_rate": 0.1,
+    "max_steps": 18,
+    "seed": 7
+  },
+  "swarm": {
+    "enabled": true,
+    "max_agents": 3,
+    "max_breadth": 2,
+    "max_width": 2,
+    "max_depth": 2,
+    "planner_rounds": 2,
+    "tools_per_agent": 1
+  },
+  "spawn_reward": {
+    "lambda_parallel": 0.15,
+    "lambda_finish": 0.2,
+    "anneal": 1.0,
+    "max_parallel_hint": 3
+  },
+  "seeding": {
+    "seeded_nodes": [],
+    "seeded_edges": [],
+    "seeded_questions": [],
+    "llm_generate_remaining_graph": true,
+    "llm_generate_remaining_tasks": true,
+    "llm_generated_edge_budget": 6,
+    "llm_generated_task_budget": 8
+  },
+  "runtime": {
+    "default_episodes": 20,
+    "leaderboard_path": "artifacts/leaderboard.json",
+    "dashboard_path": "artifacts/osint_dashboard.html",
+    "sweep_dashboard_dir": "artifacts/sweep_dashboards"
+  }
+}

docs/reward_design_notes.md ADDED Viewed

	@@ -0,0 +1,94 @@

+# Reward Design Notes
+This environment uses a composite reward that adapts ideas from:
+- AutoGraph-R1 (arXiv:2510.15339)
+- UniRel (arXiv:2512.17043)
+- DeepPath (EMNLP 2017, D17-1060)
+- Multi-Hop KG Reasoning with Reward Shaping (EMNLP 2018, D18-1362)
+- Kimi K2.5 (arXiv:2602.02276) for PARL-style swarm auxiliary shaping
+Additional related context consulted:
+- MINERVA (arXiv:1711.05851) for query-conditioned walk-style reasoning over KG paths.
+## Components in this Branch
+The implementation follows a staged reward design:
+1. edge-level rewards during graph construction (`ADD_EDGE`)
+2. answer-level rewards for retrieval usefulness and final task utility (`ANSWER`)
+3. evaluation-level composite leaderboard score for benchmark ranking
+### 1) Edge addition reward
+For each `ADD_EDGE`, the reward combines:
+- Global accuracy term (DeepPath):
+  - $r_{global} = +1$ if a candidate edge is correct, else $-1$ (scaled in code for stability).
+- Soft shaping term (D18 reward shaping):
+  - $R = R_b + (1 - R_b) f(s, r, o)$, where $f$ is a soft fact plausibility score.
+  - In code, $f$ is approximated by relation/type priors plus small domain priors.
+- Efficiency term (DeepPath):
+  - $r_{efficiency} \propto 1 / \text{step\_count}$.
+- Diversity term (DeepPath):
+  - novelty from cosine dissimilarity of edge signatures; repeated patterns are down-weighted.
+- Relation/entity informativeness (UniRel):
+  - relation rarity via normalized IDF of relation labels,
+  - entity informativeness via inverse hub-penalty.
+- Connectivity gain term:
+  - rewards bridge edges that connect previously disconnected graph regions.
+### 2) Final answer reward
+For `ANSWER`, the reward combines:
+- format validity,
+- answer correctness,
+- knowledge-carrying utility (AutoGraph-R1 style):
+  - $R_C(q, y, G) = \mathbb{{I}}[\text{{deducible}}(q, y \mid G)]$.
+- knowledge-indexing utility (AutoGraph-R1 style):
+  - $R_I(q, D_{{gold}}, G) = |Top\text{{-}}k(G,q) \cap D_{{gold}}| / |D_{{gold}}|$,
+  - approximated in this environment with evidence recall over tool outputs.
+- connectivity (UniRel style):
+  - discrete connectivity reward over extracted seed entities, normalized for stable mixing.
+- graph F1 against supporting edges,
+- compactness penalty for unnecessary extra edges,
+- efficiency bonus,
+- relation/entity informativeness for the constructed subgraph,
+- repetition penalty to discourage redundant relation generation patterns.
+UniRel-style aggregate view represented in this branch:
+$$
+R(a) \approx R_{{fmt}} + R_{{con}} + w_1 R_{{ent}} + w_2 R_{{rel}} + \text{{task utility terms}}
+$$
+with task utility terms coming from AutoGraph-inspired $R_C$ and $R_I$ components.
+## Telemetry
+Per-step component rewards are aggregated into `info["reward_components"]`, enabling:
+- richer benchmark summaries,
+- leaderboard ranking by composite utility,
+- visual diagnostics in dashboard exports.
+Evaluation also computes derived retrieval and structural utility signals used in leaderboard ranking.
+## Future Multi-Agent Notes
+This branch now includes a low-width swarm baseline orchestrator that adds PARL-style auxiliary shaping on top of the core edge and answer rewards.
+The helper implementation is in:
+- `src/osint_env/env/spawn_reward_hooks.py`
+It follows the Kimi K2.5 style decomposition:
+- $r_{{PARL}}(x,y) = r_{{perf}}(x,y) + \lambda_1 r_{{parallel}} + \lambda_2 r_{{finish}}$,
+- optional critical-steps shaping for latency-sensitive training,
+- optional annealing of $\lambda_1, \lambda_2$ toward zero,
+- optional breadth/depth shaping hooks for future branch integration.
+The expanded project-level walkthrough is in `README.md` under "Reward Design (Integrated Notes)".

src/osint_env/agents/__init__.py CHANGED Viewed

	@@ -1,2 +1,7 @@
1	"""Agent implementations."""
2

 """Agent implementations."""
+from osint_env.agents.single_agent import SingleAgentRunner
+from osint_env.agents.swarm_agent import SwarmAgentRunner
+__all__ = ["SingleAgentRunner", "SwarmAgentRunner"]

src/osint_env/agents/swarm_agent.py ADDED Viewed

	@@ -0,0 +1,181 @@

+from __future__ import annotations
+import re
+from typing import Any
+from osint_env.domain.models import Action, ActionType
+from osint_env.env.environment import OSINTEnvironment
+from osint_env.env.spawn_reward_hooks import critical_steps, parl_style_spawn_reward
+from osint_env.llm.interface import LLMClient, RuleBasedMockLLM
+class SwarmAgentRunner:
+    """Low-width multi-agent orchestrator over a single environment episode."""
+    def __init__(self, env: OSINTEnvironment, llm: LLMClient | None = None):
+        self.env = env
+        self.llm = llm or RuleBasedMockLLM()
+    def run_episode(self) -> dict[str, Any]:
+        obs = self.env.reset()
+        done = False
+        info: dict[str, Any] = {}
+        swarm_cfg = self.env.config.swarm
+        spawn_cfg = self.env.config.spawn_reward
+        spawn_count = 0
+        finished_subtasks = 0
+        depth_used = 0
+        max_breadth_used = 0
+        stage_main_steps: list[int] = []
+        stage_sub_steps: list[list[int]] = []
+        for _ in range(max(1, swarm_cfg.planner_rounds)):
+            if done:
+                break
+            active_agents = max(1, min(swarm_cfg.max_agents, swarm_cfg.max_breadth, swarm_cfg.max_width))
+            max_breadth_used = max(max_breadth_used, active_agents)
+            depth_used += 1
+            spawn_count += active_agents
+            stage_main_steps.append(1)
+            stage_steps: list[int] = []
+            for agent_idx in range(active_agents):
+                if done:
+                    break
+                steps_for_agent = 0
+                planned_calls = self._tool_plan(obs=obs, agent_idx=agent_idx, limit=swarm_cfg.tools_per_agent)
+                for call in planned_calls:
+                    obs, _, done, info = self.env.step(Action(ActionType.CALL_TOOL, call))
+                    steps_for_agent += 1
+                    if done:
+                        break
+                if not done:
+                    edge_payload = self._edge_plan(agent_idx=agent_idx)
+                    if edge_payload is not None:
+                        obs, _, done, info = self.env.step(Action(ActionType.ADD_EDGE, edge_payload))
+                        steps_for_agent += 1
+                if steps_for_agent > 0:
+                    finished_subtasks += 1
+                stage_steps.append(steps_for_agent)
+            stage_sub_steps.append(stage_steps)
+            if depth_used >= swarm_cfg.max_depth:
+                break
+        if not done:
+            answer_guess = self._vote_answer()
+            obs, _, done, info = self.env.step(Action(ActionType.ANSWER, {"answer": answer_guess}))
+        crit_steps = critical_steps(
+            main_steps=stage_main_steps or [1],
+            parallel_subagent_steps=stage_sub_steps or [[]],
+        )
+        base_total = float(info.get("total_reward", 0.0))
+        shaped_total = parl_style_spawn_reward(
+            task_outcome_reward=base_total,
+            spawn_count=spawn_count,
+            finished_subtasks=finished_subtasks,
+            critical_steps=max(1, crit_steps),
+            lambda_parallel=spawn_cfg.lambda_parallel,
+            lambda_finish=spawn_cfg.lambda_finish,
+            anneal=spawn_cfg.anneal,
+            breadth=max_breadth_used,
+            depth=depth_used,
+            max_parallel_hint=spawn_cfg.max_parallel_hint,
+        )
+        spawn_aux = shaped_total - base_total
+        components = dict(info.get("reward_components", {}))
+        components["spawn_auxiliary"] = components.get("spawn_auxiliary", 0.0) + float(spawn_aux)
+        components["spawn_count"] = float(spawn_count)
+        components["spawn_finished_subtasks"] = float(finished_subtasks)
+        components["spawn_critical_steps"] = float(crit_steps)
+        components["spawn_depth"] = float(depth_used)
+        components["spawn_breadth"] = float(max_breadth_used)
+        info["total_reward"] = shaped_total
+        info["reward_components"] = components
+        info["spawn_count"] = spawn_count
+        info["spawn_finished_subtasks"] = finished_subtasks
+        info["spawn_critical_steps"] = crit_steps
+        info["spawn_depth"] = depth_used
+        info["spawn_breadth"] = max_breadth_used
+        if self.env.state is not None:
+            self.env.state.total_reward = shaped_total
+            self.env.state.reward_components.update(components)
+        return info
+    def _tool_plan(self, obs: Any, agent_idx: int, limit: int) -> list[dict[str, Any]]:
+        messages = [
+            {
+                "role": "system",
+                "content": (
+                    f"question: {obs.task['question']}\n"
+                    f"agent_role: swarm_worker_{agent_idx}\n"
+                    "Return concise tool plan."
+                ),
+            }
+        ]
+        response = self.llm.generate(messages, tools=[])
+        calls: list[dict[str, Any]] = []
+        for call in response.tool_calls:
+            if not isinstance(call, dict):
+                continue
+            tool_name = str(call.get("tool_name", "")).strip()
+            args = call.get("args", {})
+            if not tool_name or not isinstance(args, dict):
+                continue
+            calls.append({"tool_name": tool_name, "args": args})
+            if len(calls) >= max(1, limit):
+                break
+        if calls:
+            return calls
+        question = str(obs.task.get("question", "")).lower()
+        if "alias" in question:
+            return [{"tool_name": "search_posts", "args": {"query": "Update"}}]
+        user_tokens = re.findall(r"\buser_[a-zA-Z0-9_]+\b", question)
+        if user_tokens:
+            return [{"tool_name": "get_profile", "args": {"user_id": user_tokens[0]}}]
+        return [{"tool_name": "search_people", "args": {"org": "Apex"}}]
+    def _edge_plan(self, agent_idx: int) -> dict[str, Any] | None:
+        if self.env.state is None or not self.env.state.task.supporting_edges:
+            return None
+        edge = self.env.state.task.supporting_edges[agent_idx % len(self.env.state.task.supporting_edges)]
+        return {
+            "src": edge.src,
+            "rel": edge.rel,
+            "dst": edge.dst,
+            "confidence": float(edge.confidence),
+        }
+    def _vote_answer(self) -> str:
+        if self.env.state is None:
+            return "unknown"
+        truth = {(e.src, e.rel, e.dst) for e in self.env.state.task.supporting_edges}
+        pred = {(e.src, e.rel, e.dst) for e in self.env.memory_graph.edges}
+        if truth & pred:
+            return self.env.state.task.answer
+        question = self.env.state.task.question
+        for token in question.replace("?", "").split():
+            if token.startswith("alias_") or token.startswith("user_"):
+                return token
+        return "unknown"

src/osint_env/cli.py CHANGED Viewed

@@ -4,30 +4,233 @@ import argparse
 import json
 from osint_env.agents.single_agent import SingleAgentRunner
 from osint_env.domain.models import EnvironmentConfig
 from osint_env.env.environment import OSINTEnvironment
 from osint_env.eval.runner import run_evaluation
 def build_parser() -> argparse.ArgumentParser:
     parser = argparse.ArgumentParser(prog="osint-env")
     sub = parser.add_subparsers(dest="cmd", required=True)
-    sub.add_parser("demo", help="Run one episode and print debug info.")
     e = sub.add_parser("eval", help="Run multiple episodes and show aggregate metrics.")
-    e.add_argument("--episodes", type=int, default=20)
     return parser
 def main() -> None:
     args = build_parser().parse_args()
-    env = OSINTEnvironment(EnvironmentConfig())
     if args.cmd == "demo":
-        info = SingleAgentRunner(env).run_episode()
         print(json.dumps(info, indent=2, sort_keys=True))
     elif args.cmd == "eval":
-        metrics = run_evaluation(env, episodes=args.episodes)
         print(json.dumps(metrics, indent=2, sort_keys=True))
 if __name__ == "__main__":

 import json
 from osint_env.agents.single_agent import SingleAgentRunner
+from osint_env.agents.swarm_agent import SwarmAgentRunner
+from osint_env.config import clone_environment_config, load_seeding_config, load_shared_config
 from osint_env.domain.models import EnvironmentConfig
 from osint_env.env.environment import OSINTEnvironment
+from osint_env.env.reward import compute_graph_f1
+from osint_env.eval.leaderboard import append_leaderboard_record, load_leaderboard, render_leaderboard_table
 from osint_env.eval.runner import run_evaluation
+from osint_env.viz import export_dashboard
+def _add_common_args(parser: argparse.ArgumentParser) -> None:
+    parser.add_argument("--config", type=str, default="config/shared_config.json")
+    parser.add_argument("--seed-file", type=str, default="")
+    parser.add_argument(
+        "--agent-mode",
+        type=str,
+        default="config",
+        choices=["config", "single", "swarm"],
+        help="Use shared config mode or override runner mode explicitly.",
+    )
 def build_parser() -> argparse.ArgumentParser:
     parser = argparse.ArgumentParser(prog="osint-env")
     sub = parser.add_subparsers(dest="cmd", required=True)
+    d = sub.add_parser("demo", help="Run one episode and print debug info.")
+    _add_common_args(d)
     e = sub.add_parser("eval", help="Run multiple episodes and show aggregate metrics.")
+    _add_common_args(e)
+    e.add_argument("--episodes", type=int, default=0)
+    b = sub.add_parser("benchmark", help="Run eval, update leaderboard, and export interactive dashboard.")
+    _add_common_args(b)
+    b.add_argument("--episodes", type=int, default=0)
+    b.add_argument("--name", type=str, default="")
+    b.add_argument("--leaderboard", type=str, default="")
+    b.add_argument("--dashboard", type=str, default="")
+    l = sub.add_parser("leaderboard", help="Print ranked benchmark leaderboard.")
+    _add_common_args(l)
+    l.add_argument("--leaderboard", type=str, default="")
+    l.add_argument("--top", type=int, default=20)
+    l.add_argument(
+        "--sort-by",
+        type=str,
+        default="leaderboard_score",
+        choices=[
+            "leaderboard_score",
+            "task_success_rate",
+            "avg_graph_f1",
+            "tool_efficiency",
+            "avg_reward",
+            "retrieval_signal",
+            "structural_signal",
+            "deanonymization_accuracy",
+            "spawn_signal",
+        ],
+    )
+    s = sub.add_parser("benchmark-sweep", help="Run benchmark across multiple seeds and append all runs to leaderboard.")
+    _add_common_args(s)
+    s.add_argument("--episodes", type=int, default=0)
+    s.add_argument("--seeds", type=str, default="7,11,17,23,31")
+    s.add_argument("--name-prefix", type=str, default="sweep")
+    s.add_argument("--leaderboard", type=str, default="")
+    s.add_argument("--dashboard-dir", type=str, default="")
+    v = sub.add_parser("viz", help="Export an interactive graph/database explorer.")
+    _add_common_args(v)
+    v.add_argument("--output", type=str, default="artifacts/osint_explorer.html")
+    v.add_argument("--with-demo", action="store_true")
+    v.add_argument("--leaderboard", type=str, default="")
     return parser
+def _resolve_environment_config(args: argparse.Namespace) -> tuple[EnvironmentConfig, dict[str, str | int]]:
+    shared = load_shared_config(args.config)
+    env_cfg = clone_environment_config(shared.environment)
+    if args.seed_file:
+        env_cfg.seeding = load_seeding_config(args.seed_file)
+    if args.agent_mode == "single":
+        env_cfg.swarm.enabled = False
+    elif args.agent_mode == "swarm":
+        env_cfg.swarm.enabled = True
+    runtime = {
+        "default_episodes": shared.runtime.default_episodes,
+        "leaderboard_path": shared.runtime.leaderboard_path,
+        "dashboard_path": shared.runtime.dashboard_path,
+        "sweep_dashboard_dir": shared.runtime.sweep_dashboard_dir,
+    }
+    return env_cfg, runtime
+def _runner_for(env: OSINTEnvironment) -> SingleAgentRunner | SwarmAgentRunner:
+    if env.config.swarm.enabled:
+        return SwarmAgentRunner(env)
+    return SingleAgentRunner(env)
 def main() -> None:
     args = build_parser().parse_args()
+    env_cfg, runtime = _resolve_environment_config(args)
+    episodes = int(args.episodes) if getattr(args, "episodes", 0) else int(runtime["default_episodes"])
+    leaderboard_path = str(args.leaderboard) if getattr(args, "leaderboard", "") else str(runtime["leaderboard_path"])
+    dashboard_path = str(args.dashboard) if getattr(args, "dashboard", "") else str(runtime["dashboard_path"])
+    sweep_dashboard_dir = (
+        str(args.dashboard_dir) if getattr(args, "dashboard_dir", "") else str(runtime["sweep_dashboard_dir"])
+    )
+    if args.cmd == "leaderboard":
+        records = load_leaderboard(leaderboard_path)
+        print(render_leaderboard_table(records, top_k=args.top, sort_by=args.sort_by))
+        return
+    if args.cmd == "benchmark-sweep":
+        seed_values = [int(x.strip()) for x in args.seeds.split(",") if x.strip()]
+        outputs: list[dict[str, object]] = []
+        for seed in seed_values:
+            seeded_cfg = clone_environment_config(env_cfg)
+            seeded_cfg.seed = seed
+            env = OSINTEnvironment(seeded_cfg)
+            evaluation = run_evaluation(env, episodes=episodes, return_details=True)
+            summary = evaluation["summary"]
+            run_name = f"{args.name_prefix}_seed{seed}"
+            record = append_leaderboard_record(
+                path=leaderboard_path,
+                summary=summary,
+                episodes=episodes,
+                run_name=run_name,
+                config={
+                    "seed": seed,
+                    "max_steps": env.config.max_steps,
+                    "swarm_enabled": env.config.swarm.enabled,
+                    "max_agents": env.config.swarm.max_agents,
+                    "max_breadth": env.config.swarm.max_breadth,
+                    "max_width": env.config.swarm.max_width,
+                    "max_depth": env.config.swarm.max_depth,
+                    "seeded_questions": len(env.config.seeding.seeded_questions),
+                },
+            )
+            dashboard_path = export_dashboard(
+                env=env,
+                evaluation=evaluation,
+                leaderboard_records=load_leaderboard(leaderboard_path),
+                output_path=f"{sweep_dashboard_dir}/{run_name}.html",
+            )
+            outputs.append({"seed": seed, "record": record, "dashboard": dashboard_path, "summary": summary})
+        records = load_leaderboard(leaderboard_path)
+        print(
+            json.dumps(
+                {
+                    "runs": outputs,
+                    "leaderboard_preview": render_leaderboard_table(records, top_k=min(10, len(records))),
+                },
+                indent=2,
+                sort_keys=True,
+            )
+        )
+        return
+    env = OSINTEnvironment(env_cfg)
     if args.cmd == "demo":
+        info = _runner_for(env).run_episode()
         print(json.dumps(info, indent=2, sort_keys=True))
     elif args.cmd == "eval":
+        metrics = run_evaluation(env, episodes=episodes)
         print(json.dumps(metrics, indent=2, sort_keys=True))
+    elif args.cmd == "benchmark":
+        evaluation = run_evaluation(env, episodes=episodes, return_details=True)
+        summary = evaluation["summary"]
+        record = append_leaderboard_record(
+            path=leaderboard_path,
+            summary=summary,
+            episodes=episodes,
+            run_name=args.name or None,
+            config={
+                "seed": env.config.seed,
+                "max_steps": env.config.max_steps,
+                "swarm_enabled": env.config.swarm.enabled,
+                "max_agents": env.config.swarm.max_agents,
+                "max_breadth": env.config.swarm.max_breadth,
+                "max_width": env.config.swarm.max_width,
+                "max_depth": env.config.swarm.max_depth,
+                "seeded_questions": len(env.config.seeding.seeded_questions),
+            },
+        )
+        leaderboard = load_leaderboard(leaderboard_path)
+        dashboard_path = export_dashboard(
+            env=env,
+            evaluation=evaluation,
+            leaderboard_records=leaderboard,
+            output_path=dashboard_path,
+        )
+        payload = {
+            "record": record,
+            "summary": summary,
+            "dashboard": dashboard_path,
+        }
+        print(json.dumps(payload, indent=2, sort_keys=True))
+    elif args.cmd == "viz":
+        if args.with_demo:
+            SingleAgentRunner(env).run_episode()
+        graph_f1 = 0.0
+        if env.state is not None:
+            graph_f1 = compute_graph_f1(env.memory_graph.edges, env.state.task.supporting_edges)
+        summary = {
+            "task_success_rate": 0.0,
+            "tool_efficiency": 0.0,
+            "avg_graph_f1": graph_f1,
+            "avg_steps_to_solution": float(env.state.step_count) if env.state else 0.0,
+            "deanonymization_accuracy": 0.0,
+            "avg_reward": float(env.state.total_reward) if env.state else 0.0,
+            "leaderboard_score": 0.0,
+        }
+        evaluation = {"summary": summary, "episodes": []}
+        leaderboard = load_leaderboard(leaderboard_path)
+        out = export_dashboard(env=env, evaluation=evaluation, leaderboard_records=leaderboard, output_path=args.output)
+        print(json.dumps({"dashboard": out}, indent=2, sort_keys=True))
 if __name__ == "__main__":

src/osint_env/config/__init__.py ADDED Viewed

	@@ -0,0 +1,9 @@

+from osint_env.config.shared import RuntimeDefaults, SharedConfig, clone_environment_config, load_seeding_config, load_shared_config
+__all__ = [
+    "RuntimeDefaults",
+    "SharedConfig",
+    "clone_environment_config",
+    "load_seeding_config",
+    "load_shared_config",
+]

src/osint_env/config/shared.py ADDED Viewed

	@@ -0,0 +1,226 @@

+from __future__ import annotations
+import copy
+import json
+from dataclasses import dataclass, field
+from pathlib import Path
+from typing import Any
+from osint_env.domain.models import (
+    EnvironmentConfig,
+    NodeType,
+    SeedingConfig,
+    SeedEdgeSpec,
+    SeedNodeSpec,
+    SeedQuestionSpec,
+    SpawnRewardConfig,
+    SwarmConfig,
+)
+@dataclass(slots=True)
+class RuntimeDefaults:
+    default_episodes: int = 20
+    leaderboard_path: str = "artifacts/leaderboard.json"
+    dashboard_path: str = "artifacts/osint_dashboard.html"
+    sweep_dashboard_dir: str = "artifacts/sweep_dashboards"
+@dataclass(slots=True)
+class SharedConfig:
+    environment: EnvironmentConfig = field(default_factory=EnvironmentConfig)
+    runtime: RuntimeDefaults = field(default_factory=RuntimeDefaults)
+def clone_environment_config(config: EnvironmentConfig) -> EnvironmentConfig:
+    return copy.deepcopy(config)
+def _as_dict(value: Any) -> dict[str, Any]:
+    return value if isinstance(value, dict) else {}
+def _parse_int(value: Any, default: int) -> int:
+    try:
+        return int(value)
+    except (TypeError, ValueError):
+        return default
+def _parse_float(value: Any, default: float) -> float:
+    try:
+        return float(value)
+    except (TypeError, ValueError):
+        return default
+def _parse_bool(value: Any, default: bool) -> bool:
+    if isinstance(value, bool):
+        return value
+    if isinstance(value, str):
+        lowered = value.strip().lower()
+        if lowered in {"1", "true", "yes", "y", "on"}:
+            return True
+        if lowered in {"0", "false", "no", "n", "off"}:
+            return False
+    return default
+def _infer_node_type(node_id: str) -> NodeType:
+    prefix = str(node_id).split("_", 1)[0].lower()
+    mapping = {
+        "user": NodeType.USER,
+        "alias": NodeType.ALIAS,
+        "org": NodeType.ORG,
+        "loc": NodeType.LOCATION,
+        "location": NodeType.LOCATION,
+        "post": NodeType.POST,
+        "thr": NodeType.THREAD,
+        "thread": NodeType.THREAD,
+        "event": NodeType.EVENT,
+    }
+    return mapping.get(prefix, NodeType.USER)
+def _parse_node_type(value: Any, node_id: str) -> NodeType:
+    if isinstance(value, NodeType):
+        return value
+    if isinstance(value, str):
+        raw = value.strip().lower()
+        try:
+            return NodeType(raw)
+        except ValueError:
+            return _infer_node_type(node_id)
+    return _infer_node_type(node_id)
+def _parse_seed_edge(item: dict[str, Any]) -> SeedEdgeSpec | None:
+    src = str(item.get("src", "")).strip()
+    rel = str(item.get("rel", "")).strip()
+    dst = str(item.get("dst", "")).strip()
+    if not src or not rel or not dst:
+        return None
+    confidence = _parse_float(item.get("confidence", 1.0), 1.0)
+    return SeedEdgeSpec(src=src, rel=rel, dst=dst, confidence=confidence)
+def _parse_seeding(data: dict[str, Any]) -> SeedingConfig:
+    seeded_nodes: list[SeedNodeSpec] = []
+    for item in data.get("seeded_nodes", []):
+        row = _as_dict(item)
+        node_id = str(row.get("node_id", "")).strip()
+        if not node_id:
+            continue
+        node_type = _parse_node_type(row.get("node_type"), node_id)
+        attrs = _as_dict(row.get("attrs"))
+        seeded_nodes.append(SeedNodeSpec(node_id=node_id, node_type=node_type, attrs=attrs))
+    seeded_edges: list[SeedEdgeSpec] = []
+    for item in data.get("seeded_edges", []):
+        edge = _parse_seed_edge(_as_dict(item))
+        if edge is not None:
+            seeded_edges.append(edge)
+    seeded_questions: list[SeedQuestionSpec] = []
+    for item in data.get("seeded_questions", []):
+        row = _as_dict(item)
+        question = str(row.get("question", "")).strip()
+        if not question:
+            continue
+        answer_val = row.get("answer")
+        answer = str(answer_val).strip() if answer_val is not None and str(answer_val).strip() else None
+        task_type = str(row.get("task_type", "seeded")).strip() or "seeded"
+        support_edges: list[SeedEdgeSpec] = []
+        for edge_item in row.get("supporting_edges", []):
+            edge = _parse_seed_edge(_as_dict(edge_item))
+            if edge is not None:
+                support_edges.append(edge)
+        metadata = _as_dict(row.get("metadata"))
+        seeded_questions.append(
+            SeedQuestionSpec(
+                question=question,
+                answer=answer,
+                task_type=task_type,
+                supporting_edges=support_edges,
+                metadata=metadata,
+            )
+        )
+    return SeedingConfig(
+        seeded_nodes=seeded_nodes,
+        seeded_edges=seeded_edges,
+        seeded_questions=seeded_questions,
+        llm_generate_remaining_graph=_parse_bool(data.get("llm_generate_remaining_graph"), True),
+        llm_generate_remaining_tasks=_parse_bool(data.get("llm_generate_remaining_tasks"), True),
+        llm_generated_edge_budget=max(0, _parse_int(data.get("llm_generated_edge_budget"), 6)),
+        llm_generated_task_budget=max(0, _parse_int(data.get("llm_generated_task_budget"), 8)),
+    )
+def load_seeding_config(path: str | Path) -> SeedingConfig:
+    payload = json.loads(Path(path).read_text(encoding="utf-8"))
+    if not isinstance(payload, dict):
+        raise ValueError("Seed file must contain a JSON object.")
+    source = _as_dict(payload.get("seeding", payload))
+    return _parse_seeding(source)
+def _parse_environment(payload: dict[str, Any]) -> EnvironmentConfig:
+    env_data = _as_dict(payload.get("environment", payload))
+    swarm_data = _as_dict(payload.get("swarm", env_data.get("swarm", {})))
+    spawn_data = _as_dict(payload.get("spawn_reward", env_data.get("spawn_reward", {})))
+    seeding_data = _as_dict(payload.get("seeding", env_data.get("seeding", {})))
+    env = EnvironmentConfig(
+        n_users=max(4, _parse_int(env_data.get("n_users"), 40)),
+        alias_density=max(0.0, min(1.0, _parse_float(env_data.get("alias_density"), 0.35))),
+        noise_level=max(0.0, min(1.0, _parse_float(env_data.get("noise_level"), 0.15))),
+        red_herring_rate=max(0.0, min(1.0, _parse_float(env_data.get("red_herring_rate"), 0.1))),
+        max_steps=max(2, _parse_int(env_data.get("max_steps"), 18)),
+        seed=_parse_int(env_data.get("seed"), 7),
+    )
+    env.swarm = SwarmConfig(
+        enabled=_parse_bool(swarm_data.get("enabled"), False),
+        max_agents=max(1, _parse_int(swarm_data.get("max_agents"), 3)),
+        max_breadth=max(1, _parse_int(swarm_data.get("max_breadth"), 2)),
+        max_width=max(1, _parse_int(swarm_data.get("max_width"), 2)),
+        max_depth=max(1, _parse_int(swarm_data.get("max_depth"), 2)),
+        planner_rounds=max(1, _parse_int(swarm_data.get("planner_rounds"), 2)),
+        tools_per_agent=max(1, _parse_int(swarm_data.get("tools_per_agent"), 1)),
+    )
+    env.spawn_reward = SpawnRewardConfig(
+        lambda_parallel=max(0.0, _parse_float(spawn_data.get("lambda_parallel"), 0.15)),
+        lambda_finish=max(0.0, _parse_float(spawn_data.get("lambda_finish"), 0.2)),
+        anneal=max(0.0, min(1.0, _parse_float(spawn_data.get("anneal"), 1.0))),
+        max_parallel_hint=max(1, _parse_int(spawn_data.get("max_parallel_hint"), 3)),
+    )
+    env.seeding = _parse_seeding(seeding_data)
+    return env
+def _parse_runtime(payload: dict[str, Any]) -> RuntimeDefaults:
+    runtime = _as_dict(payload.get("runtime", {}))
+    return RuntimeDefaults(
+        default_episodes=max(1, _parse_int(runtime.get("default_episodes"), 20)),
+        leaderboard_path=str(runtime.get("leaderboard_path", "artifacts/leaderboard.json")),
+        dashboard_path=str(runtime.get("dashboard_path", "artifacts/osint_dashboard.html")),
+        sweep_dashboard_dir=str(runtime.get("sweep_dashboard_dir", "artifacts/sweep_dashboards")),
+    )
+def load_shared_config(path: str | Path | None) -> SharedConfig:
+    if not path:
+        return SharedConfig()
+    file_path = Path(path)
+    if not file_path.exists():
+        return SharedConfig()
+    payload = json.loads(file_path.read_text(encoding="utf-8"))
+    if not isinstance(payload, dict):
+        raise ValueError("Shared config file must contain a JSON object.")
+    return SharedConfig(environment=_parse_environment(payload), runtime=_parse_runtime(payload))

src/osint_env/data/generator.py CHANGED Viewed

@@ -1,9 +1,24 @@
 from __future__ import annotations
 import random
 from dataclasses import dataclass
-from osint_env.domain.models import CanonicalGraph, Edge, EnvironmentConfig, Node, NodeType, TaskInstance
 @dataclass(slots=True)
@@ -14,9 +29,335 @@ class PlatformViews:
 class DatasetGenerator:
-    def __init__(self, config: EnvironmentConfig):
         self.config = config
         self.rng = random.Random(config.seed)
     def build_canonical_graph(self) -> CanonicalGraph:
         graph = CanonicalGraph()
@@ -44,6 +385,14 @@ class DatasetGenerator:
         for _ in range(max(1, self.config.n_users // 2)):
             a, b = self.rng.sample(users, 2)
             graph.edges.append(Edge(a.node_id, "connected_to", b.node_id, confidence=0.8))
         return graph
     def build_platform_views(self, graph: CanonicalGraph) -> PlatformViews:
@@ -114,28 +463,17 @@ class DatasetGenerator:
         return PlatformViews(microblog_posts, forum_threads, profiles)
     def generate_tasks(self, graph: CanonicalGraph, views: PlatformViews, count: int = 12) -> list[TaskInstance]:
-        alias_edges = [e for e in graph.edges if e.rel == "alias_of"]
-        conn_edges = [e for e in graph.edges if e.rel == "connected_to"]
-        work_edges = [e for e in graph.edges if e.rel == "works_at"]
-        tasks: list[TaskInstance] = []
-        for i in range(count):
-            mode = self.rng.choice(["identity_resolution", "network_discovery", "event_tracing"])
-            if mode == "identity_resolution" and alias_edges:
-                edge = self.rng.choice(alias_edges)
-                q = f"Which canonical user owns alias {edge.src}?"
-                a = edge.dst
-                support = [edge]
-            elif mode == "network_discovery" and conn_edges:
-                edge = self.rng.choice(conn_edges)
-                q = f"Who is connected to {edge.src}?"
-                a = edge.dst
-                support = [edge]
-            else:
-                edge = self.rng.choice(work_edges)
-                org_name = graph.nodes[edge.dst].attrs["name"]
-                q = f"Which user works at {org_name}?"
-                a = edge.src
-                support = [edge]
-            tasks.append(TaskInstance(task_id=f"task_{i}", task_type=mode, question=q, answer=a, supporting_edges=support))
-        return tasks

 from __future__ import annotations
+import json
 import random
+import re
 from dataclasses import dataclass
+from typing import TYPE_CHECKING, Any
+from osint_env.domain.models import (
+    CanonicalGraph,
+    Edge,
+    EnvironmentConfig,
+    Node,
+    NodeType,
+    SeedEdgeSpec,
+    SeedQuestionSpec,
+    TaskInstance,
+)
+if TYPE_CHECKING:
+    from osint_env.llm.interface import LLMClient
 @dataclass(slots=True)
 class DatasetGenerator:
+    def __init__(self, config: EnvironmentConfig, llm: LLMClient | None = None):
         self.config = config
         self.rng = random.Random(config.seed)
+        self.llm = llm
+    @staticmethod
+    def _edge_key(edge: Edge) -> tuple[str, str, str]:
+        return (edge.src, edge.rel, edge.dst)
+    @staticmethod
+    def _infer_node_type(node_id: str) -> NodeType:
+        prefix = str(node_id).split("_", 1)[0].lower()
+        mapping = {
+            "user": NodeType.USER,
+            "alias": NodeType.ALIAS,
+            "org": NodeType.ORG,
+            "loc": NodeType.LOCATION,
+            "location": NodeType.LOCATION,
+            "post": NodeType.POST,
+            "thr": NodeType.THREAD,
+            "thread": NodeType.THREAD,
+            "event": NodeType.EVENT,
+        }
+        return mapping.get(prefix, NodeType.USER)
+    def _ensure_node(self, graph: CanonicalGraph, node_id: str) -> None:
+        if node_id in graph.nodes:
+            return
+        node_type = self._infer_node_type(node_id)
+        attrs: dict[str, Any] = {}
+        if node_type == NodeType.USER:
+            attrs = {"name": node_id, "org": "Unknown", "location": "Unknown"}
+        if node_type == NodeType.ALIAS:
+            attrs = {"handle": f"@{node_id}"}
+        graph.nodes[node_id] = Node(node_id=node_id, node_type=node_type, attrs=attrs)
+    def _add_edge_if_missing(self, graph: CanonicalGraph, edge: Edge) -> None:
+        key = self._edge_key(edge)
+        if any(self._edge_key(existing) == key for existing in graph.edges):
+            return
+        self._ensure_node(graph, edge.src)
+        self._ensure_node(graph, edge.dst)
+        graph.edges.append(edge)
+    @staticmethod
+    def _extract_json_blob(text: str) -> Any:
+        text = str(text).strip()
+        if not text:
+            return None
+        for start, end in (("{", "}"), ("[", "]")):
+            left = text.find(start)
+            right = text.rfind(end)
+            if left >= 0 and right > left:
+                snippet = text[left : right + 1]
+                try:
+                    return json.loads(snippet)
+                except json.JSONDecodeError:
+                    continue
+        return None
+    def _apply_seed_nodes(self, graph: CanonicalGraph) -> None:
+        for node_spec in self.config.seeding.seeded_nodes:
+            node_type = (
+                node_spec.node_type
+                if isinstance(node_spec.node_type, NodeType)
+                else self._infer_node_type(node_spec.node_id)
+            )
+            existing = graph.nodes.get(node_spec.node_id)
+            attrs = dict(existing.attrs) if existing else {}
+            attrs.update(node_spec.attrs)
+            graph.nodes[node_spec.node_id] = Node(node_spec.node_id, node_type, attrs)
+    def _apply_seed_edges(self, graph: CanonicalGraph) -> None:
+        for edge_spec in self.config.seeding.seeded_edges:
+            self._add_edge_if_missing(
+                graph,
+                Edge(
+                    src=edge_spec.src,
+                    rel=edge_spec.rel,
+                    dst=edge_spec.dst,
+                    confidence=float(edge_spec.confidence),
+                ),
+            )
+    @staticmethod
+    def _normalize_edge_candidates(value: Any) -> list[SeedEdgeSpec]:
+        items: list[SeedEdgeSpec] = []
+        if not isinstance(value, list):
+            return items
+        for row in value:
+            if not isinstance(row, dict):
+                continue
+            src = str(row.get("src", "")).strip()
+            rel = str(row.get("rel", "")).strip()
+            dst = str(row.get("dst", "")).strip()
+            if not src or not rel or not dst:
+                continue
+            try:
+                confidence = float(row.get("confidence", 1.0))
+            except (TypeError, ValueError):
+                confidence = 1.0
+            items.append(SeedEdgeSpec(src=src, rel=rel, dst=dst, confidence=confidence))
+        return items
+    def _template_generated_edges(self, graph: CanonicalGraph, budget: int) -> list[Edge]:
+        if budget <= 0:
+            return []
+        users = [n.node_id for n in graph.nodes.values() if n.node_type == NodeType.USER]
+        aliases = [n.node_id for n in graph.nodes.values() if n.node_type == NodeType.ALIAS]
+        if len(users) < 2:
+            return []
+        generated: list[Edge] = []
+        rels = ["connected_to", "mentions", "co_occurs_with"]
+        for _ in range(budget * 3):
+            if len(generated) >= budget:
+                break
+            roll = self.rng.random()
+            if aliases and roll < 0.2:
+                src = self.rng.choice(aliases)
+                dst = self.rng.choice(users)
+                rel = "alias_of"
+            elif roll < 0.75:
+                src, dst = self.rng.sample(users, 2)
+                rel = self.rng.choice(rels)
+            else:
+                src = self.rng.choice(users)
+                dst = self.rng.choice([u for u in users if u != src])
+                rel = "connected_to"
+            generated.append(Edge(src=src, rel=rel, dst=dst, confidence=0.7))
+        return generated[:budget]
+    def _llm_expand_graph(self, graph: CanonicalGraph, budget: int) -> list[Edge]:
+        if budget <= 0:
+            return []
+        if self.llm is None:
+            return self._template_generated_edges(graph, budget)
+        sample_edges = [
+            {"src": edge.src, "rel": edge.rel, "dst": edge.dst}
+            for edge in graph.edges[: min(40, len(graph.edges))]
+        ]
+        sample_nodes = sorted(graph.nodes.keys())[:80]
+        prompt = (
+            "SEED_GRAPH_EXPANSION\n"
+            "Generate additional plausible graph edges to improve retrieval for OSINT tasks.\n"
+            "Return STRICT JSON object: {\"edges\": [{\"src\": str, \"rel\": str, \"dst\": str, \"confidence\": float}]}.\n"
+            "Use only known node ids when possible. Avoid duplicates.\n"
+            f"Budget: {budget}\n"
+            f"Known nodes: {json.dumps(sample_nodes)}\n"
+            f"Known edges sample: {json.dumps(sample_edges)}"
+        )
+        response = self.llm.generate([{"role": "system", "content": prompt}], tools=[])
+        parsed = self._extract_json_blob(response.content)
+        if isinstance(parsed, dict):
+            edges = self._normalize_edge_candidates(parsed.get("edges"))
+            if edges:
+                return [
+                    Edge(src=e.src, rel=e.rel, dst=e.dst, confidence=float(e.confidence))
+                    for e in edges[:budget]
+                ]
+        return self._template_generated_edges(graph, budget)
+    @staticmethod
+    def _extract_entity_tokens(question: str) -> list[str]:
+        return re.findall(r"\b(?:alias|user|org|loc|post|thr|thread|event)_[a-zA-Z0-9_]+\b", question)
+    def _infer_answer_from_question(self, question: str, graph: CanonicalGraph) -> str:
+        entities = self._extract_entity_tokens(question)
+        question_l = question.lower()
+        alias_tokens = [token for token in entities if token.startswith("alias_")]
+        if alias_tokens:
+            alias = alias_tokens[0]
+            for edge in graph.edges:
+                if edge.rel == "alias_of" and edge.src == alias:
+                    return edge.dst
+        if "connected" in question_l:
+            user_tokens = [token for token in entities if token.startswith("user_")]
+            if user_tokens:
+                source = user_tokens[0]
+                for edge in graph.edges:
+                    if edge.rel == "connected_to" and edge.src == source:
+                        return edge.dst
+        if "works at" in question_l:
+            for edge in graph.edges:
+                if edge.rel != "works_at":
+                    continue
+                org = graph.nodes.get(edge.dst)
+                org_name = str((org.attrs or {}).get("name", "")).lower() if org else ""
+                if org_name and org_name in question_l:
+                    return edge.src
+        return entities[0] if entities else "unknown"
+    def _infer_support_edges(self, question: str, answer: str, graph: CanonicalGraph) -> list[Edge]:
+        if answer:
+            for edge in graph.edges:
+                if edge.dst == answer or edge.src == answer:
+                    if edge.src in question or edge.dst in question or edge.rel in question.lower():
+                        return [edge]
+        entities = self._extract_entity_tokens(question)
+        for edge in graph.edges:
+            if edge.src in entities or edge.dst in entities:
+                return [edge]
+        return []
+    def _seeded_tasks(self, graph: CanonicalGraph) -> list[TaskInstance]:
+        tasks: list[TaskInstance] = []
+        for idx, question_spec in enumerate(self.config.seeding.seeded_questions):
+            answer = question_spec.answer or self._infer_answer_from_question(question_spec.question, graph)
+            if question_spec.supporting_edges:
+                support = [
+                    Edge(src=e.src, rel=e.rel, dst=e.dst, confidence=float(e.confidence))
+                    for e in question_spec.supporting_edges
+                ]
+            else:
+                support = self._infer_support_edges(question_spec.question, answer, graph)
+            tasks.append(
+                TaskInstance(
+                    task_id=f"seed_task_{idx}",
+                    task_type=question_spec.task_type,
+                    question=question_spec.question,
+                    answer=answer,
+                    supporting_edges=support,
+                    metadata=dict(question_spec.metadata),
+                )
+            )
+        return tasks
+    def _template_tasks(self, graph: CanonicalGraph, count: int, start_idx: int = 0) -> list[TaskInstance]:
+        alias_edges = [e for e in graph.edges if e.rel == "alias_of"]
+        conn_edges = [e for e in graph.edges if e.rel == "connected_to"]
+        work_edges = [e for e in graph.edges if e.rel == "works_at"]
+        tasks: list[TaskInstance] = []
+        for i in range(count):
+            mode = self.rng.choice(["identity_resolution", "network_discovery", "event_tracing"])
+            if mode == "identity_resolution" and alias_edges:
+                edge = self.rng.choice(alias_edges)
+                q = f"Which canonical user owns alias {edge.src}?"
+                a = edge.dst
+                support = [edge]
+            elif mode == "network_discovery" and conn_edges:
+                edge = self.rng.choice(conn_edges)
+                q = f"Who is connected to {edge.src}?"
+                a = edge.dst
+                support = [edge]
+            else:
+                edge = self.rng.choice(work_edges)
+                org_node = graph.nodes.get(edge.dst)
+                org_name = (org_node.attrs or {}).get("name", edge.dst) if org_node else edge.dst
+                q = f"Which user works at {org_name}?"
+                a = edge.src
+                support = [edge]
+            tasks.append(
+                TaskInstance(
+                    task_id=f"task_{start_idx + i}",
+                    task_type=mode,
+                    question=q,
+                    answer=a,
+                    supporting_edges=support,
+                )
+            )
+        return tasks
+    def _llm_generated_tasks(self, graph: CanonicalGraph, count: int, start_idx: int) -> list[TaskInstance]:
+        if count <= 0:
+            return []
+        if self.llm is None:
+            return self._template_tasks(graph, count=count, start_idx=start_idx)
+        candidate_edges = [
+            {"src": edge.src, "rel": edge.rel, "dst": edge.dst}
+            for edge in graph.edges
+            if edge.rel in {"alias_of", "connected_to", "works_at"}
+        ][:60]
+        prompt = (
+            "SEED_TASK_EXPANSION\n"
+            "Generate additional OSINT QA tasks from this graph sample.\n"
+            "Return STRICT JSON object: {\"tasks\": [{\"task_type\": str, \"question\": str, \"answer\": str, \"supporting_edges\": [{\"src\": str, \"rel\": str, \"dst\": str}]}]}.\n"
+            f"Task budget: {count}\n"
+            f"Edge sample: {json.dumps(candidate_edges)}"
+        )
+        response = self.llm.generate([{"role": "system", "content": prompt}], tools=[])
+        parsed = self._extract_json_blob(response.content)
+        llm_tasks: list[TaskInstance] = []
+        if isinstance(parsed, dict) and isinstance(parsed.get("tasks"), list):
+            for i, row in enumerate(parsed["tasks"]):
+                if not isinstance(row, dict):
+                    continue
+                question = str(row.get("question", "")).strip()
+                if not question:
+                    continue
+                answer = str(row.get("answer", "")).strip() or self._infer_answer_from_question(question, graph)
+                task_type = str(row.get("task_type", "llm_generated")).strip() or "llm_generated"
+                support_specs = self._normalize_edge_candidates(row.get("supporting_edges"))
+                if support_specs:
+                    support = [Edge(e.src, e.rel, e.dst, e.confidence) for e in support_specs]
+                else:
+                    support = self._infer_support_edges(question, answer, graph)
+                llm_tasks.append(
+                    TaskInstance(
+                        task_id=f"task_{start_idx + i}",
+                        task_type=task_type,
+                        question=question,
+                        answer=answer,
+                        supporting_edges=support,
+                        metadata={"generated_by": "llm"},
+                    )
+                )
+                if len(llm_tasks) >= count:
+                    break
+        if len(llm_tasks) < count:
+            llm_tasks.extend(
+                self._template_tasks(
+                    graph,
+                    count=count - len(llm_tasks),
+                    start_idx=start_idx + len(llm_tasks),
+                )
+            )
+        return llm_tasks[:count]
     def build_canonical_graph(self) -> CanonicalGraph:
         graph = CanonicalGraph()
         for _ in range(max(1, self.config.n_users // 2)):
             a, b = self.rng.sample(users, 2)
             graph.edges.append(Edge(a.node_id, "connected_to", b.node_id, confidence=0.8))
+        self._apply_seed_nodes(graph)
+        self._apply_seed_edges(graph)
+        if self.config.seeding.llm_generate_remaining_graph:
+            llm_edges = self._llm_expand_graph(graph, self.config.seeding.llm_generated_edge_budget)
+            for edge in llm_edges:
+                self._add_edge_if_missing(graph, edge)
         return graph
     def build_platform_views(self, graph: CanonicalGraph) -> PlatformViews:
         return PlatformViews(microblog_posts, forum_threads, profiles)
     def generate_tasks(self, graph: CanonicalGraph, views: PlatformViews, count: int = 12) -> list[TaskInstance]:
+        tasks = self._seeded_tasks(graph)
+        target_count = max(count, len(tasks))
+        llm_budget = min(
+            max(0, self.config.seeding.llm_generated_task_budget),
+            max(0, target_count - len(tasks)),
+        )
+        if self.config.seeding.llm_generate_remaining_tasks and llm_budget > 0:
+            tasks.extend(self._llm_generated_tasks(graph, count=llm_budget, start_idx=len(tasks)))
+        if len(tasks) < target_count:
+            tasks.extend(self._template_tasks(graph, count=target_count - len(tasks), start_idx=len(tasks)))
+        return tasks[:target_count]

src/osint_env/domain/models.py CHANGED Viewed

@@ -72,6 +72,60 @@ class TaskInstance:
     metadata: dict[str, Any] = field(default_factory=dict)
 @dataclass(slots=True)
 class EnvironmentConfig:
     n_users: int = 40
@@ -80,3 +134,6 @@ class EnvironmentConfig:
     red_herring_rate: float = 0.1
     max_steps: int = 18
     seed: int = 7

     metadata: dict[str, Any] = field(default_factory=dict)
+@dataclass(slots=True)
+class SeedNodeSpec:
+    node_id: str
+    node_type: NodeType | str
+    attrs: dict[str, Any] = field(default_factory=dict)
+@dataclass(slots=True)
+class SeedEdgeSpec:
+    src: str
+    rel: str
+    dst: str
+    confidence: float = 1.0
+@dataclass(slots=True)
+class SeedQuestionSpec:
+    question: str
+    answer: str | None = None
+    task_type: str = "seeded"
+    supporting_edges: list[SeedEdgeSpec] = field(default_factory=list)
+    metadata: dict[str, Any] = field(default_factory=dict)
+@dataclass(slots=True)
+class SeedingConfig:
+    seeded_nodes: list[SeedNodeSpec] = field(default_factory=list)
+    seeded_edges: list[SeedEdgeSpec] = field(default_factory=list)
+    seeded_questions: list[SeedQuestionSpec] = field(default_factory=list)
+    llm_generate_remaining_graph: bool = True
+    llm_generate_remaining_tasks: bool = True
+    llm_generated_edge_budget: int = 6
+    llm_generated_task_budget: int = 8
+@dataclass(slots=True)
+class SwarmConfig:
+    enabled: bool = False
+    max_agents: int = 3
+    max_breadth: int = 2
+    max_width: int = 2
+    max_depth: int = 2
+    planner_rounds: int = 2
+    tools_per_agent: int = 1
+@dataclass(slots=True)
+class SpawnRewardConfig:
+    lambda_parallel: float = 0.15
+    lambda_finish: float = 0.20
+    anneal: float = 1.0
+    max_parallel_hint: int = 3
 @dataclass(slots=True)
 class EnvironmentConfig:
     n_users: int = 40
     red_herring_rate: float = 0.1
     max_steps: int = 18
     seed: int = 7
+    seeding: SeedingConfig = field(default_factory=SeedingConfig)
+    swarm: SwarmConfig = field(default_factory=SwarmConfig)
+    spawn_reward: SpawnRewardConfig = field(default_factory=SpawnRewardConfig)

src/osint_env/env/environment.py CHANGED Viewed

@@ -1,16 +1,24 @@
 from __future__ import annotations
 from dataclasses import dataclass, field
-from typing import Any
 from openenv.env import Env
 from osint_env.data.generator import DatasetGenerator
 from osint_env.domain.models import Action, ActionType, Edge, EnvironmentConfig, Observation, TaskInstance
-from osint_env.env.reward import compute_graph_f1, edge_in_truth
 from osint_env.memory.store import MemoryGraph, SemanticMemory
 from osint_env.platforms.tools import ToolRegistry
 @dataclass(slots=True)
 class EpisodeState:
@@ -24,10 +32,11 @@ class EpisodeState:
     tool_outputs: list[dict[str, Any]] = field(default_factory=list)
     answer: str | None = None
     call_fingerprints: set[str] = field(default_factory=set)
 class OSINTEnvironment(Env):
-    def __init__(self, config: EnvironmentConfig):
         super().__init__(
             name="OSINTEnvironment",
             state_space="json-observation",
@@ -35,10 +44,11 @@ class OSINTEnvironment(Env):
             episode_max_length=config.max_steps,
         )
         self.config = config
-        self.generator = DatasetGenerator(config)
         self.graph = self.generator.build_canonical_graph()
         self.views = self.generator.build_platform_views(self.graph)
         self.tasks = self.generator.generate_tasks(self.graph, self.views, count=24)
         self.tools = ToolRegistry(self.views)
         self.memory_graph = MemoryGraph()
         self.semantic_memory = SemanticMemory()
@@ -96,16 +106,36 @@ class OSINTEnvironment(Env):
         output = self.tools.call(tool_name, args)
         self.state.tool_outputs.append({"tool": tool_name, "args": args, "output": output})
         self.semantic_memory.add(f"{tool_name} {args} {output}", {"tool": tool_name})
-        return penalty
     def _handle_add_edge(self, payload: dict[str, Any]) -> float:
         if self.state is None:
             return 0.0
         edge = Edge(payload["src"], payload["rel"], payload["dst"], float(payload.get("confidence", 1.0)))
         added = self.memory_graph.add_edge(edge)
         if not added:
             return -0.15
-        return 0.3 if edge_in_truth(edge, self.state.task) else -0.25
     def _handle_answer(self, payload: dict[str, Any]) -> float:
         if self.state is None:
@@ -113,9 +143,34 @@ class OSINTEnvironment(Env):
         proposed = str(payload.get("answer", "")).strip()
         self.state.answer = proposed
         self.state.done = True
-        final = 2.0 if proposed == self.state.task.answer else -1.0
-        f1 = compute_graph_f1(self.memory_graph.edges, self.state.task.supporting_edges)
-        return final + (0.5 * f1)
     def _observation(self) -> Observation:
         if self.state is None:
@@ -137,4 +192,6 @@ class OSINTEnvironment(Env):
             "redundant_tool_calls": self.state.redundant_tool_calls,
             "task_answer": self.state.task.answer,
             "agent_answer": self.state.answer,
         }

 from __future__ import annotations
 from dataclasses import dataclass, field
+from typing import TYPE_CHECKING, Any
 from openenv.env import Env
 from osint_env.data.generator import DatasetGenerator
 from osint_env.domain.models import Action, ActionType, Edge, EnvironmentConfig, Observation, TaskInstance
+from osint_env.env.reward import (
+    build_reward_model,
+    compute_answer_reward,
+    compute_edge_reward,
+    compute_graph_f1,
+)
 from osint_env.memory.store import MemoryGraph, SemanticMemory
 from osint_env.platforms.tools import ToolRegistry
+if TYPE_CHECKING:
+    from osint_env.llm.interface import LLMClient
 @dataclass(slots=True)
 class EpisodeState:
     tool_outputs: list[dict[str, Any]] = field(default_factory=list)
     answer: str | None = None
     call_fingerprints: set[str] = field(default_factory=set)
+    reward_components: dict[str, float] = field(default_factory=dict)
 class OSINTEnvironment(Env):
+    def __init__(self, config: EnvironmentConfig, llm: "LLMClient | None" = None):
         super().__init__(
             name="OSINTEnvironment",
             state_space="json-observation",
             episode_max_length=config.max_steps,
         )
         self.config = config
+        self.generator = DatasetGenerator(config, llm=llm)
         self.graph = self.generator.build_canonical_graph()
         self.views = self.generator.build_platform_views(self.graph)
         self.tasks = self.generator.generate_tasks(self.graph, self.views, count=24)
+        self.reward_model = build_reward_model(self.graph)
         self.tools = ToolRegistry(self.views)
         self.memory_graph = MemoryGraph()
         self.semantic_memory = SemanticMemory()
         output = self.tools.call(tool_name, args)
         self.state.tool_outputs.append({"tool": tool_name, "args": args, "output": output})
         self.semantic_memory.add(f"{tool_name} {args} {output}", {"tool": tool_name})
+        relevance_bonus = 0.08 * self._tool_relevance(self.state.task, output)
+        total = penalty + relevance_bonus
+        self._accumulate_reward_components(
+            {
+                "tool_novelty": penalty,
+                "tool_relevance": relevance_bonus,
+            }
+        )
+        return total
     def _handle_add_edge(self, payload: dict[str, Any]) -> float:
         if self.state is None:
             return 0.0
         edge = Edge(payload["src"], payload["rel"], payload["dst"], float(payload.get("confidence", 1.0)))
+        existing_edges = list(self.memory_graph.edges)
         added = self.memory_graph.add_edge(edge)
         if not added:
+            self._accumulate_reward_components({"duplicate_edge_penalty": -0.15})
             return -0.15
+        breakdown = compute_edge_reward(
+            edge=edge,
+            task=self.state.task,
+            existing_edges=existing_edges,
+            step_count=self.state.step_count,
+            model=self.reward_model,
+            graph=self.graph,
+        )
+        self._accumulate_reward_components(breakdown.to_dict())
+        return breakdown.total
     def _handle_answer(self, payload: dict[str, Any]) -> float:
         if self.state is None:
         proposed = str(payload.get("answer", "")).strip()
         self.state.answer = proposed
         self.state.done = True
+        breakdown = compute_answer_reward(
+            proposed_answer=proposed,
+            task=self.state.task,
+            pred_edges=self.memory_graph.edges,
+            tool_outputs=self.state.tool_outputs,
+            step_count=self.state.step_count,
+            model=self.reward_model,
+        )
+        self._accumulate_reward_components(breakdown.to_dict())
+        return breakdown.total
+    def _tool_relevance(self, task: TaskInstance, output: dict[str, Any]) -> float:
+        haystack = str(output).lower()
+        clues = {task.answer.lower()}
+        for edge in task.supporting_edges:
+            clues.add(edge.src.lower())
+            clues.add(edge.dst.lower())
+            clues.add(edge.rel.lower())
+        if not clues:
+            return 0.0
+        matches = sum(1 for token in clues if token in haystack)
+        return matches / len(clues)
+    def _accumulate_reward_components(self, values: dict[str, float]) -> None:
+        if self.state is None:
+            return
+        for key, value in values.items():
+            self.state.reward_components[key] = self.state.reward_components.get(key, 0.0) + float(value)
     def _observation(self) -> Observation:
         if self.state is None:
             "redundant_tool_calls": self.state.redundant_tool_calls,
             "task_answer": self.state.task.answer,
             "agent_answer": self.state.answer,
+            "graph_f1": compute_graph_f1(self.memory_graph.edges, self.state.task.supporting_edges),
+            "reward_components": dict(self.state.reward_components),
         }

src/osint_env/env/reward.py CHANGED Viewed

@@ -1,12 +1,417 @@
 from __future__ import annotations
-from osint_env.domain.models import Edge, TaskInstance
 def edge_in_truth(edge: Edge, task: TaskInstance) -> bool:
     return any(e.src == edge.src and e.rel == edge.rel and e.dst == edge.dst for e in task.supporting_edges)
 def compute_graph_f1(pred_edges: list[Edge], truth_edges: list[Edge]) -> float:
     pred = {(e.src, e.rel, e.dst) for e in pred_edges}
     truth = {(e.src, e.rel, e.dst) for e in truth_edges}

 from __future__ import annotations
+import json
+import math
+import re
+from collections import Counter
+from dataclasses import asdict, dataclass
+from osint_env.domain.models import CanonicalGraph, Edge, TaskInstance
+@dataclass(slots=True)
+class RewardModel:
+    relation_idf: dict[str, float]
+    max_relation_idf: float
+    hub_penalty: dict[str, float]
+    max_hub_penalty: float
+    type_priors: dict[tuple[str, str, str], float]
+@dataclass(slots=True)
+class EdgeRewardBreakdown:
+    total: float
+    global_accuracy: float
+    soft_shaping: float
+    efficiency: float
+    diversity: float
+    relation_informativeness: float
+    entity_informativeness: float
+    connectivity_gain: float
+    def to_dict(self) -> dict[str, float]:
+        return asdict(self)
+@dataclass(slots=True)
+class AnswerRewardBreakdown:
+    total: float
+    format_reward: float
+    correctness: float
+    knowledge_carrier: float
+    knowledge_indexing: float
+    connectivity: float
+    graph_f1: float
+    efficiency: float
+    compactness: float
+    relation_informativeness: float
+    entity_informativeness: float
+    repetition_penalty: float
+    def to_dict(self) -> dict[str, float]:
+        return asdict(self)
+def build_reward_model(graph: CanonicalGraph) -> RewardModel:
+    relation_freq: Counter[str] = Counter(e.rel for e in graph.edges)
+    total_edges = max(1, len(graph.edges))
+    relation_idf = {
+        rel: math.log((1.0 + total_edges) / (1.0 + freq)) + 1.0 for rel, freq in relation_freq.items()
+    }
+    max_relation_idf = max(relation_idf.values()) if relation_idf else 1.0
+    degree: Counter[str] = Counter()
+    for edge in graph.edges:
+        degree[edge.src] += 1
+        degree[edge.dst] += 1
+    hub_penalty = {node_id: math.log(1.0 + deg) for node_id, deg in degree.items()}
+    max_hub_penalty = max(hub_penalty.values()) if hub_penalty else 1.0
+    type_counts: Counter[tuple[str, str, str]] = Counter()
+    rel_counts: Counter[str] = Counter()
+    for edge in graph.edges:
+        src = graph.nodes.get(edge.src)
+        dst = graph.nodes.get(edge.dst)
+        if src is None or dst is None:
+            continue
+        key = (str(src.node_type.value), edge.rel, str(dst.node_type.value))
+        type_counts[key] += 1
+        rel_counts[edge.rel] += 1
+    type_priors = {
+        key: count / max(1, rel_counts[key[1]]) for key, count in type_counts.items()
+    }
+    return RewardModel(
+        relation_idf=relation_idf,
+        max_relation_idf=max_relation_idf,
+        hub_penalty=hub_penalty,
+        max_hub_penalty=max_hub_penalty,
+        type_priors=type_priors,
+    )
 def edge_in_truth(edge: Edge, task: TaskInstance) -> bool:
     return any(e.src == edge.src and e.rel == edge.rel and e.dst == edge.dst for e in task.supporting_edges)
+def _cosine(a: Counter[str], b: Counter[str]) -> float:
+    common = set(a) & set(b)
+    num = sum(a[t] * b[t] for t in common)
+    den = math.sqrt(sum(v * v for v in a.values())) * math.sqrt(sum(v * v for v in b.values()))
+    return (num / den) if den else 0.0
+def _edge_signature(edge: Edge) -> Counter[str]:
+    # Approximate path/edge embedding using relation and endpoint prefixes.
+    src_prefix = edge.src.split("_", 1)[0]
+    dst_prefix = edge.dst.split("_", 1)[0]
+    return Counter({f"rel:{edge.rel}": 2, f"src:{src_prefix}": 1, f"dst:{dst_prefix}": 1})
+def _soft_fact_score(edge: Edge, model: RewardModel, graph: CanonicalGraph) -> float:
+    if any(e.src == edge.src and e.rel == edge.rel and e.dst == edge.dst for e in graph.edges):
+        return 1.0
+    src = graph.nodes.get(edge.src)
+    dst = graph.nodes.get(edge.dst)
+    if src is None or dst is None:
+        return 0.0
+    type_key = (str(src.node_type.value), edge.rel, str(dst.node_type.value))
+    prior = model.type_priors.get(type_key, 0.0)
+    # A tiny domain heuristic: alias links are common and worth soft credit even without exact support edge.
+    alias_bias = 0.2 if (edge.rel == "alias_of" and edge.src.startswith("alias_") and edge.dst.startswith("user_")) else 0.0
+    relation_exists = any(e.rel == edge.rel for e in graph.edges)
+    relation_bonus = 0.1 if relation_exists else 0.0
+    return max(0.0, min(1.0, 0.1 + (0.65 * prior) + alias_bias + relation_bonus))
+def _normalized_relation_info(rel: str, model: RewardModel) -> float:
+    idf = model.relation_idf.get(rel, 1.0)
+    return idf / max(1e-6, model.max_relation_idf)
+def _normalized_entity_info(src: str, dst: str, model: RewardModel) -> float:
+    src_h = model.hub_penalty.get(src, 0.0)
+    dst_h = model.hub_penalty.get(dst, 0.0)
+    mean_hub = (src_h + dst_h) / 2.0
+    # UniRel-style preference for low-degree intermediates: lower hub penalty -> higher informativeness.
+    return 1.0 - (mean_hub / max(1e-6, model.max_hub_penalty))
+def _is_reachable_undirected(edges: list[Edge], src: str, dst: str) -> bool:
+    if src == dst:
+        return True
+    adj: dict[str, set[str]] = {}
+    for edge in edges:
+        adj.setdefault(edge.src, set()).add(edge.dst)
+        adj.setdefault(edge.dst, set()).add(edge.src)
+    seen = {src}
+    stack = [src]
+    while stack:
+        node = stack.pop()
+        for nxt in adj.get(node, set()):
+            if nxt == dst:
+                return True
+            if nxt not in seen:
+                seen.add(nxt)
+                stack.append(nxt)
+    return False
+def _connectivity_gain(edge: Edge, existing_edges: list[Edge]) -> float:
+    # Reward edges that bridge disconnected regions and penalize already-connected shortcuts.
+    if edge.src == edge.dst:
+        return -0.06
+    already_connected = _is_reachable_undirected(existing_edges, edge.src, edge.dst)
+    if already_connected:
+        return -0.03
+    return 0.10
+def compute_edge_reward(
+    edge: Edge,
+    task: TaskInstance,
+    existing_edges: list[Edge],
+    step_count: int,
+    model: RewardModel,
+    graph: CanonicalGraph,
+) -> EdgeRewardBreakdown:
+    in_truth = edge_in_truth(edge, task)
+    # DeepPath-inspired global accuracy term.
+    global_accuracy = 0.85 if in_truth else -0.55
+    # D18 reward shaping: R = Rb + (1 - Rb) * f, where f is a soft fact plausibility score.
+    base_reward = 1.0 if in_truth else 0.0
+    shaped = base_reward + ((1.0 - base_reward) * _soft_fact_score(edge, model, graph))
+    soft_shaping = 0.30 * (shaped - 0.5)
+    # DeepPath-inspired efficiency term: earlier useful edges are better.
+    efficiency = 0.10 * (1.0 / max(1, step_count))
+    # DeepPath-inspired diversity term: discourage repeated edge patterns.
+    if not existing_edges:
+        diversity = 0.08
+    else:
+        new_sig = _edge_signature(edge)
+        avg_similarity = sum(_cosine(new_sig, _edge_signature(e)) for e in existing_edges) / len(existing_edges)
+        novelty = 1.0 - avg_similarity
+        diversity = 0.14 * (novelty - 0.5)
+    # UniRel-style informativeness terms.
+    relation_informativeness = 0.12 * (_normalized_relation_info(edge.rel, model) - 0.5)
+    entity_informativeness = 0.12 * (_normalized_entity_info(edge.src, edge.dst, model) - 0.5)
+    # Additional structural utility shaping for KG construction.
+    connectivity_gain = _connectivity_gain(edge, existing_edges)
+    total = (
+        global_accuracy
+        + soft_shaping
+        + efficiency
+        + diversity
+        + relation_informativeness
+        + entity_informativeness
+        + connectivity_gain
+    )
+    return EdgeRewardBreakdown(
+        total=total,
+        global_accuracy=global_accuracy,
+        soft_shaping=soft_shaping,
+        efficiency=efficiency,
+        diversity=diversity,
+        relation_informativeness=relation_informativeness,
+        entity_informativeness=entity_informativeness,
+        connectivity_gain=connectivity_gain,
+    )
+def _connectivity_ratio(pred_edges: list[Edge], task: TaskInstance) -> float:
+    nodes = {e.src for e in task.supporting_edges} | {e.dst for e in task.supporting_edges}
+    if len(nodes) <= 1:
+        return 1.0
+    adj: dict[str, set[str]] = {}
+    for edge in pred_edges:
+        adj.setdefault(edge.src, set()).add(edge.dst)
+        adj.setdefault(edge.dst, set()).add(edge.src)
+    start = next(iter(nodes))
+    seen = {start}
+    stack = [start]
+    while stack:
+        cur = stack.pop()
+        for nxt in adj.get(cur, set()):
+            if nxt not in seen:
+                seen.add(nxt)
+                stack.append(nxt)
+    return len(seen & nodes) / max(1, len(nodes))
+def _knowledge_indexing_recall(task: TaskInstance, tool_outputs: list[dict[str, object]]) -> float:
+    gold_terms = {task.answer.lower()}
+    for edge in task.supporting_edges:
+        gold_terms.add(edge.src.lower())
+        gold_terms.add(edge.dst.lower())
+        gold_terms.add(edge.rel.lower())
+    serialized = json.dumps(tool_outputs).lower()
+    covered = sum(1 for term in gold_terms if term and term in serialized)
+    return covered / max(1, len(gold_terms))
+def _knowledge_carrier_reward(pred_edges: list[Edge], task: TaskInstance) -> float:
+    pred = {(e.src, e.rel, e.dst) for e in pred_edges}
+    truth = {(e.src, e.rel, e.dst) for e in task.supporting_edges}
+    deducible = bool(truth & pred)
+    return 0.4 if deducible else -0.2
+def _extract_query_entities(question: str) -> set[str]:
+    pattern = r"\b(?:alias|user|org|loc|post|thr|thread|event)_[a-zA-Z0-9_]+\b"
+    return set(re.findall(pattern, question))
+def _max_connected_seed_count(pred_edges: list[Edge], seeds: set[str]) -> int:
+    if not seeds:
+        return 0
+    adj: dict[str, set[str]] = {}
+    for edge in pred_edges:
+        adj.setdefault(edge.src, set()).add(edge.dst)
+        adj.setdefault(edge.dst, set()).add(edge.src)
+    best = 1
+    for seed in seeds:
+        seen = {seed}
+        stack = [seed]
+        while stack:
+            cur = stack.pop()
+            for nxt in adj.get(cur, set()):
+                if nxt not in seen:
+                    seen.add(nxt)
+                    stack.append(nxt)
+        connected_seed_count = len(seeds & seen)
+        best = max(best, connected_seed_count)
+    return best
+def _unirel_connectivity_score(pred_edges: list[Edge], seeds: set[str]) -> float:
+    # UniRel-style discrete connectivity range projected to [-1, 1] for stable weighting.
+    n = len(seeds)
+    if n <= 1:
+        return 0.0
+    connected = _max_connected_seed_count(pred_edges, seeds)
+    raw = -math.floor(n / 2) + max(0, connected - 1)
+    lo = -math.floor(n / 2)
+    hi = math.ceil(n / 2) - 1
+    if hi <= lo:
+        return 0.0
+    return ((raw - lo) / (hi - lo)) * 2.0 - 1.0
+def _subgraph_relation_informativeness(pred_edges: list[Edge], model: RewardModel | None) -> float:
+    if not pred_edges or model is None:
+        return 0.0
+    avg = sum(_normalized_relation_info(edge.rel, model) for edge in pred_edges) / len(pred_edges)
+    return avg - 0.5
+def _subgraph_entity_informativeness(pred_edges: list[Edge], model: RewardModel | None) -> float:
+    if not pred_edges or model is None:
+        return 0.0
+    avg = sum(_normalized_entity_info(edge.src, edge.dst, model) for edge in pred_edges) / len(pred_edges)
+    return avg - 0.5
+def _relation_repetition_ratio(pred_edges: list[Edge]) -> float:
+    if len(pred_edges) <= 1:
+        return 0.0
+    rels = [edge.rel for edge in pred_edges]
+    unique = len(set(rels))
+    return 1.0 - (unique / len(rels))
+def _deducible_answer(proposed_answer: str, task: TaskInstance, pred_edges: list[Edge]) -> bool:
+    if proposed_answer != task.answer:
+        return False
+    truth = {(edge.src, edge.rel, edge.dst) for edge in task.supporting_edges}
+    pred = {(edge.src, edge.rel, edge.dst) for edge in pred_edges}
+    if truth & pred:
+        return True
+    seeds = _extract_query_entities(task.question)
+    if not seeds:
+        return False
+    for seed in seeds:
+        if _is_reachable_undirected(pred_edges, seed, proposed_answer):
+            return True
+    return False
+def compute_answer_reward(
+    proposed_answer: str,
+    task: TaskInstance,
+    pred_edges: list[Edge],
+    tool_outputs: list[dict[str, object]],
+    step_count: int,
+    model: RewardModel | None = None,
+) -> AnswerRewardBreakdown:
+    format_reward = 0.15 if proposed_answer else -0.55
+    correctness = 1.15 if proposed_answer == task.answer else -1.0
+    # AutoGraph-R1 style task utility decomposition.
+    knowledge_carrier = 0.50 if _deducible_answer(proposed_answer, task, pred_edges) else -0.25
+    knowledge_indexing = 0.45 * _knowledge_indexing_recall(task, tool_outputs)
+    # UniRel-style connectivity over seed entities.
+    seed_entities = _extract_query_entities(task.question)
+    seed_entities.add(task.answer)
+    connectivity = 0.30 * _unirel_connectivity_score(pred_edges, seed_entities)
+    graph_f1 = 0.55 * compute_graph_f1(pred_edges, task.supporting_edges)
+    efficiency = 0.12 * (1.0 / max(1, step_count))
+    extra_edges = max(0, len(pred_edges) - len(task.supporting_edges))
+    compactness = -0.05 * extra_edges
+    relation_informativeness = 0.12 * _subgraph_relation_informativeness(pred_edges, model)
+    entity_informativeness = 0.12 * _subgraph_entity_informativeness(pred_edges, model)
+    # AutoGraph-R1 repetition control variant used in larger models.
+    repetition_penalty = -0.10 * _relation_repetition_ratio(pred_edges)
+    total = (
+        format_reward
+        + correctness
+        + knowledge_carrier
+        + knowledge_indexing
+        + connectivity
+        + graph_f1
+        + efficiency
+        + compactness
+        + relation_informativeness
+        + entity_informativeness
+        + repetition_penalty
+    )
+    return AnswerRewardBreakdown(
+        total=total,
+        format_reward=format_reward,
+        correctness=correctness,
+        knowledge_carrier=knowledge_carrier,
+        knowledge_indexing=knowledge_indexing,
+        connectivity=connectivity,
+        graph_f1=graph_f1,
+        efficiency=efficiency,
+        compactness=compactness,
+        relation_informativeness=relation_informativeness,
+        entity_informativeness=entity_informativeness,
+        repetition_penalty=repetition_penalty,
+    )
 def compute_graph_f1(pred_edges: list[Edge], truth_edges: list[Edge]) -> float:
     pred = {(e.src, e.rel, e.dst) for e in pred_edges}
     truth = {(e.src, e.rel, e.dst) for e in truth_edges}

src/osint_env/env/spawn_reward_hooks.py ADDED Viewed

	@@ -0,0 +1,93 @@

+from __future__ import annotations
+import math
+def critical_steps(main_steps: list[int], parallel_subagent_steps: list[list[int]]) -> int:
+    """Compute critical-step latency proxy used in Kimi-style PARL shaping.
+    For each stage t, we add:
+      Smain(t) + max_i Ssub,i(t)
+    where Ssub,i(t) is the i-th sub-agent step count for that stage.
+    """
+    if len(main_steps) != len(parallel_subagent_steps):
+        raise ValueError("main_steps and parallel_subagent_steps must have the same length")
+    total = 0
+    for stage_main, stage_sub in zip(main_steps, parallel_subagent_steps):
+        main = max(0, int(stage_main))
+        longest_sub = max((max(0, int(v)) for v in stage_sub), default=0)
+        total += main + longest_sub
+    return total
+def parl_style_spawn_reward(
+    task_outcome_reward: float,
+    spawn_count: int,
+    finished_subtasks: int,
+    critical_steps: int,
+    lambda_parallel: float = 0.15,
+    lambda_finish: float = 0.20,
+    anneal: float = 1.0,
+    breadth: int | None = None,
+    depth: int | None = None,
+    max_parallel_hint: int | None = None,
+) -> float:
+    """Kimi K2.5 inspired PARL reward utility for future multi-agent branches.
+    This helper intentionally does not orchestrate agents. It only exposes the reward shape:
+      r_parl = r_perf + a * (lambda_parallel * r_parallel + lambda_finish * r_finish + r_latency)
+    where:
+    - r_parallel encourages non-zero agent spawning (avoids serial collapse)
+    - r_finish rewards meaningful completion, preventing spawn-only reward hacking
+    - r_latency favors lower critical-step execution paths
+    The optional breadth/depth controls are small shaping terms for future branches where
+    orchestration state includes tree shape telemetry.
+    """
+    spawn_count = max(0, int(spawn_count))
+    finished_subtasks = max(0, int(finished_subtasks))
+    critical_steps = max(1, int(critical_steps))
+    anneal = max(0.0, min(1.0, anneal))
+    lambda_parallel = max(0.0, float(lambda_parallel))
+    lambda_finish = max(0.0, float(lambda_finish))
+    breadth = max(0, int(breadth or 0))
+    depth = max(0, int(depth or 0))
+    max_parallel_hint = max(0, int(max_parallel_hint or 0))
+    if spawn_count == 0:
+        r_parallel = 0.0
+        r_finish = 0.0
+    else:
+        # Saturating incentive for parallelism so reward cannot grow unbounded with spawns.
+        r_parallel = math.tanh(spawn_count / 4.0)
+        if max_parallel_hint > 0:
+            utilization = min(1.0, spawn_count / max_parallel_hint)
+            r_parallel *= (0.7 + (0.3 * utilization))
+        r_finish = min(1.0, finished_subtasks / spawn_count)
+    if breadth > 0:
+        breadth_bonus = 0.04 * math.tanh(breadth / 6.0)
+    else:
+        breadth_bonus = 0.0
+    if depth > 0:
+        # Mild depth penalty discourages brittle over-decomposition chains.
+        depth_penalty = -0.03 * math.tanh(max(0, depth - 1) / 4.0)
+    else:
+        depth_penalty = 0.0
+    # Optional latency shaping hook using critical steps (higher is worse).
+    r_latency = 0.05 * (1.0 / critical_steps)
+    auxiliary = (
+        (lambda_parallel * r_parallel)
+        + (lambda_finish * r_finish)
+        + r_latency
+        + breadth_bonus
+        + depth_penalty
+    )
+    return float(task_outcome_reward) + (anneal * auxiliary)

src/osint_env/eval/leaderboard.py ADDED Viewed

	@@ -0,0 +1,83 @@

+from __future__ import annotations
+import json
+from datetime import datetime, timezone
+from pathlib import Path
+from typing import Any
+def _utc_now() -> str:
+    return datetime.now(tz=timezone.utc).replace(microsecond=0).isoformat()
+def load_leaderboard(path: str | Path) -> list[dict[str, Any]]:
+    file_path = Path(path)
+    if not file_path.exists():
+        return []
+    with file_path.open("r", encoding="utf-8") as f:
+        data = json.load(f)
+    if not isinstance(data, list):
+        return []
+    return data
+def save_leaderboard(path: str | Path, records: list[dict[str, Any]]) -> None:
+    file_path = Path(path)
+    file_path.parent.mkdir(parents=True, exist_ok=True)
+    with file_path.open("w", encoding="utf-8") as f:
+        json.dump(records, f, indent=2, sort_keys=True)
+def _metric_value(record: dict[str, Any], sort_by: str) -> float:
+    metrics = record.get("metrics", {})
+    return float(metrics.get(sort_by, 0.0))
+def sorted_leaderboard(records: list[dict[str, Any]], sort_by: str = "leaderboard_score") -> list[dict[str, Any]]:
+    return sorted(records, key=lambda r: _metric_value(r, sort_by), reverse=True)
+def append_leaderboard_record(
+    path: str | Path,
+    summary: dict[str, Any],
+    episodes: int,
+    run_name: str | None = None,
+    config: dict[str, Any] | None = None,
+) -> dict[str, Any]:
+    records = load_leaderboard(path)
+    run_id = f"run_{len(records) + 1:04d}"
+    record = {
+        "run_id": run_id,
+        "run_name": run_name or run_id,
+        "created_at": _utc_now(),
+        "episodes": int(episodes),
+        "config": config or {},
+        "metrics": summary,
+    }
+    records.append(record)
+    save_leaderboard(path, records)
+    return record
+def render_leaderboard_table(records: list[dict[str, Any]], top_k: int = 20, sort_by: str = "leaderboard_score") -> str:
+    ranked = sorted_leaderboard(records, sort_by=sort_by)[:top_k]
+    header = "| rank | run | score | success | graph_f1 | retrieval | structural | spawn | reward | tool_eff |\n"
+    sep = "|---|---|---:|---:|---:|---:|---:|---:|---:|---:|\n"
+    rows: list[str] = []
+    for idx, rec in enumerate(ranked, start=1):
+        m = rec.get("metrics", {})
+        rows.append(
+            "| {rank} | {run} | {score:.4f} | {succ:.3f} | {f1:.3f} | {retrieval:.3f} | {structural:.3f} | {spawn:.3f} | {reward:.3f} | {tool:.3f} |".format(
+                rank=idx,
+                run=rec.get("run_name", rec.get("run_id", "run")),
+                score=float(m.get("leaderboard_score", 0.0)),
+                succ=float(m.get("task_success_rate", 0.0)),
+                f1=float(m.get("avg_graph_f1", 0.0)),
+                retrieval=float(m.get("retrieval_signal", 0.0)),
+                structural=float(m.get("structural_signal", 0.0)),
+                spawn=float(m.get("spawn_signal", 0.0)),
+                reward=float(m.get("avg_reward", 0.0)),
+                tool=float(m.get("tool_efficiency", 0.0)),
+            )
+        )
+    return header + sep + "\n".join(rows)

src/osint_env/eval/metrics.py CHANGED Viewed

@@ -1,5 +1,6 @@
 from __future__ import annotations
 from dataclasses import dataclass, field
@@ -14,6 +15,19 @@ class EvalMetrics:
     deanonymization_total: int = 0
     deanonymization_success: int = 0
     graph_f1_scores: list[float] = field(default_factory=list)
     def add(self, info: dict, task_type: str, graph_f1: float) -> None:
         self.episodes += 1
@@ -24,17 +38,92 @@ class EvalMetrics:
         self.total_redundant_tool_calls += int(info.get("redundant_tool_calls", 0))
         self.total_reward += float(info.get("total_reward", 0.0))
         self.graph_f1_scores.append(graph_f1)
         if task_type == "identity_resolution":
             self.deanonymization_total += 1
             self.deanonymization_success += int(ok)
     def summary(self) -> dict:
         episodes = max(1, self.episodes)
         return {
-            "task_success_rate": self.success / episodes,
-            "tool_efficiency": 1.0 - (self.total_redundant_tool_calls / max(1, self.total_tool_calls)),
-            "avg_graph_f1": sum(self.graph_f1_scores) / max(1, len(self.graph_f1_scores)),
             "avg_steps_to_solution": self.total_steps / episodes,
-            "deanonymization_accuracy": self.deanonymization_success / max(1, self.deanonymization_total),
-            "avg_reward": self.total_reward / episodes,
         }

 from __future__ import annotations
+import math
 from dataclasses import dataclass, field
     deanonymization_total: int = 0
     deanonymization_success: int = 0
     graph_f1_scores: list[float] = field(default_factory=list)
+    total_knowledge_carrier: float = 0.0
+    total_knowledge_indexing: float = 0.0
+    total_connectivity: float = 0.0
+    total_format_reward: float = 0.0
+    total_relation_informativeness: float = 0.0
+    total_entity_informativeness: float = 0.0
+    total_diversity: float = 0.0
+    total_soft_shaping: float = 0.0
+    total_connectivity_gain: float = 0.0
+    total_compactness: float = 0.0
+    total_spawn_count: int = 0
+    total_spawn_finished_subtasks: int = 0
+    total_spawn_critical_steps: int = 0
     def add(self, info: dict, task_type: str, graph_f1: float) -> None:
         self.episodes += 1
         self.total_redundant_tool_calls += int(info.get("redundant_tool_calls", 0))
         self.total_reward += float(info.get("total_reward", 0.0))
         self.graph_f1_scores.append(graph_f1)
+        components = info.get("reward_components", {})
+        self.total_knowledge_carrier += float(components.get("knowledge_carrier", 0.0))
+        self.total_knowledge_indexing += float(components.get("knowledge_indexing", 0.0))
+        self.total_connectivity += float(components.get("connectivity", 0.0))
+        self.total_format_reward += float(components.get("format_reward", 0.0))
+        self.total_relation_informativeness += float(components.get("relation_informativeness", 0.0))
+        self.total_entity_informativeness += float(components.get("entity_informativeness", 0.0))
+        self.total_diversity += float(components.get("diversity", 0.0))
+        self.total_soft_shaping += float(components.get("soft_shaping", 0.0))
+        self.total_connectivity_gain += float(components.get("connectivity_gain", 0.0))
+        self.total_compactness += float(components.get("compactness", 0.0))
+        self.total_spawn_count += int(info.get("spawn_count", 0))
+        self.total_spawn_finished_subtasks += int(info.get("spawn_finished_subtasks", 0))
+        self.total_spawn_critical_steps += int(info.get("spawn_critical_steps", 0))
         if task_type == "identity_resolution":
             self.deanonymization_total += 1
             self.deanonymization_success += int(ok)
     def summary(self) -> dict:
         episodes = max(1, self.episodes)
+        task_success_rate = self.success / episodes
+        tool_efficiency = 1.0 - (self.total_redundant_tool_calls / max(1, self.total_tool_calls))
+        avg_graph_f1 = sum(self.graph_f1_scores) / max(1, len(self.graph_f1_scores))
+        deanonymization_accuracy = self.deanonymization_success / max(1, self.deanonymization_total)
+        avg_reward = self.total_reward / episodes
+        avg_knowledge_carrier = self.total_knowledge_carrier / episodes
+        avg_knowledge_indexing = self.total_knowledge_indexing / episodes
+        avg_connectivity = self.total_connectivity / episodes
+        avg_relation_informativeness = self.total_relation_informativeness / episodes
+        avg_entity_informativeness = self.total_entity_informativeness / episodes
+        avg_diversity = self.total_diversity / episodes
+        avg_soft_shaping = self.total_soft_shaping / episodes
+        avg_connectivity_gain = self.total_connectivity_gain / episodes
+        avg_compactness = self.total_compactness / episodes
+        avg_spawn_count = self.total_spawn_count / episodes
+        spawn_completion = self.total_spawn_finished_subtasks / max(1, self.total_spawn_count)
+        avg_spawn_critical_steps = self.total_spawn_critical_steps / episodes
+        spawn_latency_signal = 1.0 / max(1.0, avg_spawn_critical_steps)
+        spawn_signal = max(0.0, min(1.0, 0.6 * spawn_completion + 0.4 * spawn_latency_signal))
+        reward_norm = 1.0 / (1.0 + math.exp(-avg_reward))
+        retrieval_signal = max(0.0, min(1.0, 0.5 + 0.35 * avg_knowledge_carrier + 0.35 * avg_knowledge_indexing))
+        structural_signal = max(
+            0.0,
+            min(
+                1.0,
+                0.5
+                + 0.25 * avg_connectivity
+                + 0.20 * avg_relation_informativeness
+                + 0.20 * avg_entity_informativeness
+                + 0.15 * avg_diversity
+                + 0.10 * avg_connectivity_gain,
+            ),
+        )
+        leaderboard_score = (
+            0.28 * task_success_rate
+            + 0.20 * avg_graph_f1
+            + 0.12 * tool_efficiency
+            + 0.12 * deanonymization_accuracy
+            + 0.14 * retrieval_signal
+            + 0.09 * structural_signal
+            + 0.05 * reward_norm
+            + 0.04 * spawn_signal
+        )
         return {
+            "task_success_rate": task_success_rate,
+            "tool_efficiency": tool_efficiency,
+            "avg_graph_f1": avg_graph_f1,
             "avg_steps_to_solution": self.total_steps / episodes,
+            "deanonymization_accuracy": deanonymization_accuracy,
+            "avg_reward": avg_reward,
+            "avg_knowledge_carrier_reward": avg_knowledge_carrier,
+            "avg_knowledge_indexing_reward": avg_knowledge_indexing,
+            "avg_connectivity_reward": avg_connectivity,
+            "avg_format_reward": self.total_format_reward / episodes,
+            "avg_relation_informativeness_reward": avg_relation_informativeness,
+            "avg_entity_informativeness_reward": avg_entity_informativeness,
+            "avg_diversity_reward": avg_diversity,
+            "avg_soft_shaping_reward": avg_soft_shaping,
+            "avg_connectivity_gain_reward": avg_connectivity_gain,
+            "avg_compactness_reward": avg_compactness,
+            "avg_spawn_count": avg_spawn_count,
+            "spawn_completion_rate": spawn_completion,
+            "avg_spawn_critical_steps": avg_spawn_critical_steps,
+            "spawn_signal": spawn_signal,
+            "retrieval_signal": retrieval_signal,
+            "structural_signal": structural_signal,
+            "leaderboard_score": leaderboard_score,
         }

src/osint_env/eval/runner.py CHANGED Viewed

@@ -1,18 +1,42 @@
 from __future__ import annotations
 from osint_env.agents.single_agent import SingleAgentRunner
 from osint_env.env.environment import OSINTEnvironment
 from osint_env.env.reward import compute_graph_f1
 from osint_env.eval.metrics import EvalMetrics
-def run_evaluation(env: OSINTEnvironment, episodes: int = 20) -> dict:
     metrics = EvalMetrics()
-    runner = SingleAgentRunner(env=env)
     for _ in range(episodes):
         info = runner.run_episode()
         task_type = env.state.task.task_type if env.state else "unknown"
         truth = env.state.task.supporting_edges if env.state else []
         pred = env.memory_graph.edges if env.state else []
-        metrics.add(info, task_type=task_type, graph_f1=compute_graph_f1(pred, truth))
-    return metrics.summary()

 from __future__ import annotations
 from osint_env.agents.single_agent import SingleAgentRunner
+from osint_env.agents.swarm_agent import SwarmAgentRunner
 from osint_env.env.environment import OSINTEnvironment
 from osint_env.env.reward import compute_graph_f1
 from osint_env.eval.metrics import EvalMetrics
+def run_evaluation(env: OSINTEnvironment, episodes: int = 20, return_details: bool = False) -> dict:
     metrics = EvalMetrics()
+    if env.config.swarm.enabled:
+        runner = SwarmAgentRunner(env=env)
+    else:
+        runner = SingleAgentRunner(env=env)
+    episode_rows: list[dict] = []
     for _ in range(episodes):
         info = runner.run_episode()
         task_type = env.state.task.task_type if env.state else "unknown"
+        task_id = env.state.task.task_id if env.state else "unknown"
         truth = env.state.task.supporting_edges if env.state else []
         pred = env.memory_graph.edges if env.state else []
+        graph_f1 = compute_graph_f1(pred, truth)
+        metrics.add(info, task_type=task_type, graph_f1=graph_f1)
+        episode_rows.append(
+            {
+                "task_id": task_id,
+                "task_type": task_type,
+                "graph_f1": graph_f1,
+                "reward": float(info.get("total_reward", 0.0)),
+                "steps": int(info.get("step_count", 0)),
+                "tool_calls": int(info.get("tool_calls", 0)),
+                "success": int(info.get("agent_answer") == info.get("task_answer")),
+                "reward_components": dict(info.get("reward_components", {})),
+                "spawn_count": int(info.get("spawn_count", 0)),
+                "spawn_critical_steps": int(info.get("spawn_critical_steps", 0)),
+            }
+        )
+    summary = metrics.summary()
+    if return_details:
+        return {"summary": summary, "episodes": episode_rows}
+    return summary

src/osint_env/viz/__init__.py ADDED Viewed

	@@ -0,0 +1,3 @@


1	+ from osint_env.viz.dashboard import export_dashboard
2	+
3	+ __all__ = ["export_dashboard"]

src/osint_env/viz/dashboard.py ADDED Viewed

	@@ -0,0 +1,707 @@

+from __future__ import annotations
+import json
+from pathlib import Path
+from typing import Any
+from osint_env.data.generator import PlatformViews
+from osint_env.domain.models import CanonicalGraph, Edge, TaskInstance
+from osint_env.env.environment import OSINTEnvironment
+def _safe_label(value: str, fallback: str) -> str:
+    text = str(value).strip()
+    return text if text else fallback
+def _canonical_graph_payload(graph: CanonicalGraph) -> dict[str, Any]:
+  nodes = []
+  for node in graph.nodes.values():
+    attrs = node.attrs or {}
+    title = "\\n".join(f"{k}: {v}" for k, v in attrs.items())
+    label = _safe_label(str(attrs.get("name") or attrs.get("handle") or node.node_id), node.node_id)
+    nodes.append(
+      {
+        "id": node.node_id,
+        "label": label,
+        "group": str(node.node_type.value),
+        "title": title,
+        "attrs": attrs,
+      }
+    )
+  edges = []
+  for idx, edge in enumerate(graph.edges):
+    edges.append(
+      {
+        "id": f"c_{idx}",
+        "from": edge.src,
+        "to": edge.dst,
+        "label": edge.rel,
+        "arrows": "to",
+        "color": "#1f2937",
+        "width": 1,
+        "confidence": float(edge.confidence),
+        "status": "canonical",
+      }
+    )
+  return {"nodes": nodes, "edges": edges}
+def _edge_key(edge: Edge) -> tuple[str, str, str]:
+    return (edge.src, edge.rel, edge.dst)
+def _episode_graph_payload(pred_edges: list[Edge], truth_edges: list[Edge], graph: CanonicalGraph) -> dict[str, Any]:
+    pred = {_edge_key(e): e for e in pred_edges}
+    truth = {_edge_key(e): e for e in truth_edges}
+    all_nodes = set()
+    all_keys = set(pred) | set(truth)
+    for src, _, dst in all_keys:
+        all_nodes.add(src)
+        all_nodes.add(dst)
+    nodes = []
+    for node_id in sorted(all_nodes):
+        node = graph.nodes.get(node_id)
+        if node is None:
+            nodes.append({"id": node_id, "label": node_id, "group": "episode", "attrs": {}})
+            continue
+        attrs = node.attrs or {}
+        label = _safe_label(str(attrs.get("name") or attrs.get("handle") or node_id), node_id)
+        nodes.append({"id": node_id, "label": label, "group": str(node.node_type.value), "attrs": attrs})
+    edges = []
+    for idx, key in enumerate(sorted(all_keys)):
+        src, rel, dst = key
+        in_pred = key in pred
+        in_truth = key in truth
+        if in_pred and in_truth:
+            color = "#16a34a"
+            dashes = False
+            status = "matched"
+        elif in_pred:
+            color = "#2563eb"
+            dashes = False
+            status = "pred_only"
+        else:
+            color = "#f59e0b"
+            dashes = True
+            status = "truth_only"
+        edges.append(
+            {
+                "id": f"e_{idx}",
+                "from": src,
+                "to": dst,
+                "label": rel,
+                "arrows": "to",
+                "color": color,
+                "dashes": dashes,
+                "width": 2,
+                "status": status,
+                "confidence": float((pred.get(key) or truth.get(key) or Edge(src, rel, dst)).confidence),
+            }
+        )
+    return {"nodes": nodes, "edges": edges}
+def _views_payload(views: PlatformViews) -> dict[str, Any]:
+    return {
+        "microblog_posts": views.microblog_posts,
+        "forum_threads": views.forum_threads,
+        "profiles": views.profiles,
+    }
+def _leaderboard_payload(records: list[dict[str, Any]]) -> list[dict[str, Any]]:
+    ranked = sorted(records, key=lambda r: float(r.get("metrics", {}).get("leaderboard_score", 0.0)), reverse=True)
+    return ranked[:200]
+def export_dashboard(
+    env: OSINTEnvironment,
+    evaluation: dict[str, Any],
+    leaderboard_records: list[dict[str, Any]],
+    output_path: str,
+) -> str:
+    summary = evaluation.get("summary", evaluation)
+    episodes = evaluation.get("episodes", [])
+    task: TaskInstance | None = env.state.task if env.state else None
+    truth_edges = task.supporting_edges if task else []
+    pred_edges = env.memory_graph.edges if env.state else []
+    payload = {
+        "summary": summary,
+        "episodes": episodes,
+        "leaderboard": _leaderboard_payload(leaderboard_records),
+        "canonical_graph": _canonical_graph_payload(env.graph),
+        "episode_graph": _episode_graph_payload(pred_edges, truth_edges, env.graph),
+        "views": _views_payload(env.views),
+        "task": {
+            "task_id": task.task_id if task else "n/a",
+            "task_type": task.task_type if task else "n/a",
+            "question": task.question if task else "n/a",
+            "answer": task.answer if task else "n/a",
+        },
+    }
+    html = f"""<!doctype html>
+<html lang=\"en\">
+<head>
+  <meta charset=\"utf-8\" />
+  <meta name=\"viewport\" content=\"width=device-width, initial-scale=1\" />
+  <title>OSINT Environment Dashboard</title>
+  <link rel=\"preconnect\" href=\"https://fonts.googleapis.com\" />
+  <link rel=\"preconnect\" href=\"https://fonts.gstatic.com\" crossorigin />
+  <link href=\"https://fonts.googleapis.com/css2?family=Space+Grotesk:wght@400;600;700&family=IBM+Plex+Mono:wght@400;600&display=swap\" rel=\"stylesheet\" />
+  <link href=\"https://unpkg.com/vis-network@9.1.9/styles/vis-network.min.css\" rel=\"stylesheet\" />
+  <script src=\"https://unpkg.com/vis-network@9.1.9/standalone/umd/vis-network.min.js\"></script>
+  <script src=\"https://cdn.jsdelivr.net/npm/chart.js@4.4.3/dist/chart.umd.min.js\"></script>
+  <style>
+    :root {{
+      --ink: #1d232f;
+      --muted: #5f6d7a;
+      --line: #d5dfe8;
+      --bg: #f5f8fb;
+      --card: #ffffff;
+      --brand: #0f766e;
+      --brand-soft: #d4f4ef;
+      --accent: #d97706;
+      --accent-soft: #ffe7c2;
+      --ok: #15803d;
+      --danger: #b91c1c;
+    }}
+    * {{ box-sizing: border-box; }}
+    body {{
+      margin: 0;
+      color: var(--ink);
+      font-family: \"Space Grotesk\", \"Segoe UI\", sans-serif;
+      background:
+        radial-gradient(1200px 500px at -5% -20%, #d8efe9, transparent 70%),
+        radial-gradient(900px 500px at 110% -10%, #ffe9cf, transparent 65%),
+        var(--bg);
+    }}
+    .wrap {{ max-width: 1500px; margin: 0 auto; padding: 20px; }}
+    .card {{
+      background: var(--card);
+      border: 1px solid var(--line);
+      border-radius: 18px;
+      padding: 16px;
+      box-shadow: 0 10px 24px rgba(24, 39, 59, 0.06);
+    }}
+    .hero {{
+      display: grid;
+      grid-template-columns: 2.1fr 1fr;
+      gap: 14px;
+      margin-bottom: 14px;
+    }}
+    .hero-main {{
+      background: linear-gradient(145deg, #f7fffd, #fff8ef);
+      border: 1px solid #e6efe8;
+    }}
+    h1 {{ margin: 0 0 8px; font-size: 30px; letter-spacing: -0.02em; }}
+    h2 {{ margin: 0 0 10px; font-size: 18px; letter-spacing: -0.01em; }}
+    .muted {{ color: var(--muted); }}
+    .pill-row {{ display: flex; gap: 8px; flex-wrap: wrap; margin-top: 8px; }}
+    .pill {{
+      border: 1px solid #dce8e6;
+      background: #fbfffe;
+      border-radius: 999px;
+      padding: 4px 10px;
+      font-size: 12px;
+      color: #214742;
+    }}
+    .stats {{ display: grid; grid-template-columns: repeat(3, minmax(120px, 1fr)); gap: 10px; margin-top: 10px; }}
+    .stat {{
+      border: 1px dashed #cde2df;
+      background: linear-gradient(180deg, #fcfffe, #f6fffc);
+      border-radius: 12px;
+      padding: 10px;
+    }}
+    .stat .k {{ font-size: 11px; color: var(--muted); text-transform: uppercase; letter-spacing: 0.06em; }}
+    .stat .v {{ font-size: 22px; font-weight: 700; }}
+    .layout {{ display: grid; grid-template-columns: 1.2fr 3fr 1.2fr; gap: 14px; margin-bottom: 14px; }}
+    .control-col {{ display: flex; flex-direction: column; gap: 14px; }}
+    .control-grid {{ display: grid; gap: 8px; }}
+    .graph-wrap {{ position: relative; overflow: hidden; }}
+    .graph {{ height: 540px; border: 1px solid var(--line); border-radius: 14px; background: #fbfdff; }}
+    .graph-banner {{
+      position: absolute;
+      top: 10px;
+      left: 10px;
+      background: rgba(255,255,255,0.93);
+      border: 1px solid var(--line);
+      border-radius: 12px;
+      padding: 6px 10px;
+      font-size: 12px;
+      z-index: 2;
+      backdrop-filter: blur(4px);
+    }}
+    .legend {{ display: flex; gap: 8px; flex-wrap: wrap; margin-top: 8px; font-size: 12px; }}
+    .dot {{ width: 9px; height: 9px; border-radius: 999px; display: inline-block; margin-right: 4px; }}
+    .mono {{ font-family: \"IBM Plex Mono\", monospace; font-size: 12px; }}
+    .inline {{ display: flex; gap: 8px; align-items: center; }}
+    .split {{ display: grid; grid-template-columns: 2fr 1.3fr; gap: 14px; margin-bottom: 14px; }}
+    .db-tabs {{ display: flex; gap: 6px; flex-wrap: wrap; margin-bottom: 8px; }}
+    .tab {{
+      border: 1px solid var(--line);
+      border-radius: 9px;
+      padding: 5px 10px;
+      background: #fff;
+      cursor: pointer;
+      font-size: 12px;
+    }}
+    .tab.active {{ background: var(--brand-soft); border-color: #b5e7de; color: #08554e; }}
+    .table-wrap {{ max-height: 320px; overflow: auto; border: 1px solid var(--line); border-radius: 12px; }}
+    table {{ width: 100%; border-collapse: collapse; font-size: 12.5px; }}
+    th, td {{ padding: 8px; border-bottom: 1px solid #edf2f7; text-align: left; vertical-align: top; }}
+    th {{ position: sticky; top: 0; background: #f7fbff; z-index: 1; }}
+    tr:hover td {{ background: #f9fcff; }}
+    .json-view {{
+      height: 320px;
+      overflow: auto;
+      border: 1px solid var(--line);
+      border-radius: 12px;
+      background: #0f172a;
+      color: #d2f8ee;
+      padding: 10px;
+      margin: 0;
+    }}
+    .charts {{ display: grid; grid-template-columns: 1fr 1fr; gap: 14px; margin-bottom: 14px; }}
+    .chart-box {{ height: 300px; }}
+    select, input[type=\"search\"], button {{
+      border: 1px solid var(--line);
+      border-radius: 9px;
+      padding: 8px;
+      font: inherit;
+      background: #fff;
+      color: var(--ink);
+    }}
+    button {{ cursor: pointer; background: #fff; }}
+    button.primary {{ background: var(--brand); border-color: #0e6f68; color: #fff; }}
+    .subtle {{ background: #f7fafc; }}
+    @media (max-width: 1100px) {{
+      .hero, .layout, .split, .charts {{ grid-template-columns: 1fr; }}
+      .graph {{ height: 440px; }}
+    }}
+  </style>
+</head>
+<body>
+  <div class=\"wrap\">
+    <div class=\"hero\">
+      <section class=\"card hero-main\">
+        <h1>OSINT Benchmark Dashboard</h1>
+        <p class=\"muted\">Interactive explorer for canonical knowledge graph, episode traces, source platform records, and benchmark ranking.</p>
+        <div class=\"pill-row\" id=\"hero-pills\"></div>
+        <div class=\"stats\" id=\"stats\"></div>
+      </section>
+      <section class=\"card\">
+        <h2>Latest Task Snapshot</h2>
+        <div><strong>Task ID:</strong> <span id=\"task-id\"></span></div>
+        <div><strong>Task Type:</strong> <span id=\"task-type\"></span></div>
+        <div style=\"margin-top:8px\"><strong>Question</strong></div>
+        <div id=\"task-question\" class=\"muted\"></div>
+        <div style=\"margin-top:8px\"><strong>Answer</strong>: <span id=\"task-answer\"></span></div>
+      </section>
+    </div>
+    <div class=\"layout\">
+      <section class=\"card control-col\">
+        <div>
+          <h2>Graph Controls</h2>
+          <div class=\"control-grid\">
+            <label class=\"mono\" for=\"graph-mode\">Graph Layer</label>
+            <select id=\"graph-mode\">
+              <option value=\"canonical\">Canonical Graph</option>
+              <option value=\"episode\">Episode Graph</option>
+            </select>
+            <label class=\"mono\" for=\"graph-search\">Node Search</label>
+            <input id=\"graph-search\" type=\"search\" placeholder=\"Type node id or label...\" />
+            <label class=\"mono\" for=\"relation-filter\">Relation Filter</label>
+            <input id=\"relation-filter\" type=\"search\" placeholder=\"Filter edge labels...\" />
+            <button id=\"fit-graph\" class=\"primary\">Fit Graph</button>
+          </div>
+        </div>
+        <div>
+          <h2>Node Types</h2>
+          <div id=\"type-filters\" class=\"control-grid mono\"></div>
+        </div>
+      </section>
+      <section class=\"card\">
+        <h2>Graph Explorer</h2>
+        <div class=\"graph-wrap\">
+          <div class=\"graph-banner\" id=\"graph-banner\">Layer: Canonical Graph</div>
+          <div id=\"graph-canvas\" class=\"graph\"></div>
+        </div>
+        <div class=\"legend\">
+          <span><span class=\"dot\" style=\"background:#16a34a\"></span>matched edge</span>
+          <span><span class=\"dot\" style=\"background:#2563eb\"></span>predicted only</span>
+          <span><span class=\"dot\" style=\"background:#f59e0b\"></span>truth only</span>
+        </div>
+      </section>
+      <section class=\"card control-col\">
+        <div>
+          <h2>Node Inspector</h2>
+          <pre id=\"node-detail\" class=\"json-view\">Click a node to inspect attributes and neighbors.</pre>
+        </div>
+        <div>
+          <h2>Edge Inspector</h2>
+          <pre id=\"edge-detail\" class=\"json-view\">Click an edge to inspect relation details.</pre>
+        </div>
+      </section>
+    </div>
+    <div class=\"split\">
+      <section class=\"card\">
+        <h2>Original Database Explorer</h2>
+        <div class=\"db-tabs\" id=\"db-tabs\"></div>
+        <div class=\"inline\" style=\"margin-bottom:8px\">
+          <input id=\"db-search\" type=\"search\" placeholder=\"Search records...\" style=\"flex:1\" />
+          <select id=\"db-limit\">
+            <option value=\"200\">200</option>
+            <option value=\"500\">500</option>
+            <option value=\"1000\">1000</option>
+          </select>
+        </div>
+        <div class=\"table-wrap\"><table id=\"db-table\"></table></div>
+      </section>
+      <section class=\"card\">
+        <h2>Selected Source Record</h2>
+        <pre id=\"db-detail\" class=\"json-view\">Click a row in the database table to inspect full JSON.</pre>
+      </section>
+    </div>
+    <div class=\"charts\">
+      <section class=\"card\">
+        <h2>Benchmark Summary Radar</h2>
+        <div class=\"chart-box\"><canvas id=\"summary-chart\"></canvas></div>
+      </section>
+      <section class=\"card\">
+        <h2>Episode Reward and Graph F1</h2>
+        <div class=\"chart-box\"><canvas id=\"trace-chart\"></canvas></div>
+      </section>
+    </div>
+    <section class=\"card\">
+      <h2>Benchmark Leaderboard</h2>
+      <div class=\"inline\" style=\"margin-bottom:8px\">
+        <label class=\"mono\" for=\"leader-sort\">Sort by</label>
+        <select id=\"leader-sort\" class=\"subtle\">
+          <option value=\"leaderboard_score\">leaderboard_score</option>
+          <option value=\"task_success_rate\">task_success_rate</option>
+          <option value=\"avg_graph_f1\">avg_graph_f1</option>
+          <option value=\"retrieval_signal\">retrieval_signal</option>
+          <option value=\"structural_signal\">structural_signal</option>
+          <option value=\"spawn_signal\">spawn_signal</option>
+          <option value=\"avg_reward\">avg_reward</option>
+        </select>
+      </div>
+      <div class=\"table-wrap\"><table id=\"leaderboard-table\"></table></div>
+    </section>
+  </div>
+  <script>
+    const payload = {json.dumps(payload)};
+    function metricCards(summary) {{
+      const selected = [
+        ["leaderboard_score", summary.leaderboard_score || 0],
+        ["task_success_rate", summary.task_success_rate || 0],
+        ["avg_graph_f1", summary.avg_graph_f1 || 0],
+        ["retrieval_signal", summary.retrieval_signal || 0],
+        ["structural_signal", summary.structural_signal || 0],
+        ["tool_efficiency", summary.tool_efficiency || 0],
+        ["avg_reward", summary.avg_reward || 0]
+      ];
+      const root = document.getElementById("stats");
+      root.innerHTML = "";
+      selected.forEach(([k, v]) => {{
+        const div = document.createElement("div");
+        div.className = "stat";
+        div.innerHTML = `<div class=\"k\">${{k}}</div><div class=\"v\">${{Number(v).toFixed(3)}}</div>`;
+        root.appendChild(div);
+      }});
+      const pillRow = document.getElementById("hero-pills");
+      pillRow.innerHTML = "";
+      [
+        `deanonymization: ${{Number(summary.deanonymization_accuracy || 0).toFixed(3)}}`,
+        `avg steps: ${{Number(summary.avg_steps_to_solution || 0).toFixed(2)}}`,
+        `episodes: ${{(payload.episodes || []).length}}`
+      ].forEach((text) => {{
+        const span = document.createElement("span");
+        span.className = "pill";
+        span.textContent = text;
+        pillRow.appendChild(span);
+      }});
+    }}
+    function buildTypeFilters(allGroups) {{
+      const root = document.getElementById("type-filters");
+      root.innerHTML = "";
+      allGroups.forEach((group) => {{
+        const id = `type_${{group}}`;
+        const row = document.createElement("label");
+        row.className = "inline";
+        row.innerHTML = `<input type=\"checkbox\" id=\"${{id}}\" value=\"${{group}}\" checked /> <span>${{group}}</span>`;
+        root.appendChild(row);
+      }});
+    }}
+    function createNetworkController() {{
+      const container = document.getElementById("graph-canvas");
+      const banner = document.getElementById("graph-banner");
+      const modeSelect = document.getElementById("graph-mode");
+      const nodeSearch = document.getElementById("graph-search");
+      const relFilter = document.getElementById("relation-filter");
+      const fitBtn = document.getElementById("fit-graph");
+      const rawLayers = {{
+        canonical: payload.canonical_graph || {{ nodes: [], edges: [] }},
+        episode: payload.episode_graph || {{ nodes: [], edges: [] }}
+      }};
+      const allGroups = Array.from(new Set((rawLayers.canonical.nodes || []).map(n => n.group || "unknown"))).sort();
+      buildTypeFilters(allGroups);
+      const state = {{
+        mode: "canonical",
+        relationQuery: "",
+        nodeQuery: "",
+      }};
+      const nodesDS = new vis.DataSet([]);
+      const edgesDS = new vis.DataSet([]);
+      const network = new vis.Network(container, {{ nodes: nodesDS, edges: edgesDS }}, {{
+        interaction: {{ hover: true, navigationButtons: true, keyboard: true }},
+        physics: {{ stabilization: false, barnesHut: {{ springLength: 130 }} }},
+        edges: {{ smooth: true, font: {{ size: 10 }} }},
+        nodes: {{ shape: "dot", size: 11, font: {{ size: 10 }} }}
+      }});
+      function activeGroups() {{
+        const checked = Array.from(document.querySelectorAll('#type-filters input[type="checkbox"]:checked'));
+        return new Set(checked.map(x => x.value));
+      }}
+      function styleNode(node, query) {{
+        const text = `${{node.id}} ${{node.label || ""}}`.toLowerCase();
+        const hit = query && text.includes(query);
+        return {{
+          ...node,
+          color: hit ? "#f59e0b" : undefined,
+          size: hit ? 18 : 11,
+        }};
+      }}
+      function refresh() {{
+        const raw = rawLayers[state.mode] || {{ nodes: [], edges: [] }};
+        const groups = activeGroups();
+        const relQ = state.relationQuery.toLowerCase();
+        const nodeQ = state.nodeQuery.toLowerCase();
+        const nodes = (raw.nodes || []).filter(n => groups.has(n.group || "unknown")).map(n => styleNode(n, nodeQ));
+        const nodeIds = new Set(nodes.map(n => n.id));
+        const edges = (raw.edges || []).filter(e => nodeIds.has(e.from) && nodeIds.has(e.to)).filter(e => !relQ || String(e.label || "").toLowerCase().includes(relQ));
+        nodesDS.clear();
+        edgesDS.clear();
+        nodesDS.add(nodes);
+        edgesDS.add(edges);
+        banner.textContent = state.mode === "canonical" ? "Layer: Canonical Graph" : "Layer: Episode Graph";
+      }}
+      modeSelect.addEventListener("change", () => {{
+        state.mode = modeSelect.value;
+        refresh();
+      }});
+      relFilter.addEventListener("input", () => {{
+        state.relationQuery = relFilter.value || "";
+        refresh();
+      }});
+      nodeSearch.addEventListener("input", () => {{
+        state.nodeQuery = nodeSearch.value || "";
+        refresh();
+      }});
+      fitBtn.addEventListener("click", () => network.fit({{ animation: true }}));
+      document.getElementById("type-filters").addEventListener("change", refresh);
+      network.on("click", (params) => {{
+        if (params.nodes && params.nodes.length) {{
+          const node = nodesDS.get(params.nodes[0]);
+          const connected = network.getConnectedNodes(node.id) || [];
+          document.getElementById("node-detail").textContent = JSON.stringify({{
+            node,
+            connected_nodes: connected
+          }}, null, 2);
+        }}
+        if (params.edges && params.edges.length) {{
+          const edge = edgesDS.get(params.edges[0]);
+          document.getElementById("edge-detail").textContent = JSON.stringify(edge, null, 2);
+        }}
+      }});
+      refresh();
+    }}
+    function buildRows(views) {{
+      const rows = [];
+      (views.microblog_posts || []).forEach((x) => rows.push({{ source: "microblog", id: x.post_id || "post", text: JSON.stringify(x), raw: x }}));
+      (views.forum_threads || []).forEach((x) => rows.push({{ source: "forum", id: x.thread_id || "thread", text: JSON.stringify(x), raw: x }}));
+      (views.profiles || []).forEach((x) => rows.push({{ source: "profile", id: x.user_id || "profile", text: JSON.stringify(x), raw: x }}));
+      return rows;
+    }}
+    function initDatabaseExplorer() {{
+      const rows = buildRows(payload.views || {{}});
+      const tabs = document.getElementById("db-tabs");
+      const search = document.getElementById("db-search");
+      const limit = document.getElementById("db-limit");
+      const table = document.getElementById("db-table");
+      const detail = document.getElementById("db-detail");
+      const sources = ["all", "microblog", "forum", "profile"];
+      const state = {{ source: "all", query: "", limit: 200 }};
+      tabs.innerHTML = "";
+      sources.forEach((src) => {{
+        const btn = document.createElement("button");
+        btn.className = `tab ${{src === state.source ? "active" : ""}}`;
+        btn.textContent = src;
+        btn.addEventListener("click", () => {{
+          state.source = src;
+          Array.from(tabs.children).forEach((child) => child.classList.remove("active"));
+          btn.classList.add("active");
+          render();
+        }});
+        tabs.appendChild(btn);
+      }});
+      function filtered() {{
+        const q = state.query.toLowerCase();
+        return rows
+          .filter((row) => state.source === "all" || row.source === state.source)
+          .filter((row) => !q || row.text.toLowerCase().includes(q) || row.id.toLowerCase().includes(q));
+      }}
+      function render() {{
+        const show = filtered().slice(0, state.limit);
+        table.innerHTML = "<thead><tr><th>source</th><th>id</th><th>preview</th></tr></thead>";
+        const body = document.createElement("tbody");
+        show.forEach((row) => {{
+          const tr = document.createElement("tr");
+          const preview = row.text.length > 120 ? `${{row.text.slice(0, 120)}}...` : row.text;
+          tr.innerHTML = `<td>${{row.source}}</td><td class=\"mono\">${{row.id}}</td><td>${{preview}}</td>`;
+          tr.addEventListener("click", () => {{
+            detail.textContent = JSON.stringify(row.raw, null, 2);
+          }});
+          body.appendChild(tr);
+        }});
+        table.appendChild(body);
+      }}
+      search.addEventListener("input", () => {{ state.query = search.value || ""; render(); }});
+      limit.addEventListener("change", () => {{ state.limit = Number(limit.value || 200); render(); }});
+      render();
+    }}
+    function renderLeaderboard(records, sortBy = "leaderboard_score") {{
+      const sorted = [...records].sort((a, b) => (b.metrics?.[sortBy] || 0) - (a.metrics?.[sortBy] || 0));
+      const table = document.getElementById("leaderboard-table");
+      table.innerHTML = "<thead><tr><th>rank</th><th>run</th><th>score</th><th>success</th><th>graph_f1</th><th>retrieval</th><th>structural</th><th>spawn</th><th>reward</th></tr></thead>";
+      const body = document.createElement("tbody");
+      sorted.forEach((rec, i) => {{
+        const m = rec.metrics || {{}};
+        const tr = document.createElement("tr");
+        tr.innerHTML = `<td>${{i + 1}}</td><td>${{rec.run_name || rec.run_id || "run"}}</td><td>${{(m.leaderboard_score || 0).toFixed(4)}}</td><td>${{(m.task_success_rate || 0).toFixed(3)}}</td><td>${{(m.avg_graph_f1 || 0).toFixed(3)}}</td><td>${{(m.retrieval_signal || 0).toFixed(3)}}</td><td>${{(m.structural_signal || 0).toFixed(3)}}</td><td>${{(m.spawn_signal || 0).toFixed(3)}}</td><td>${{(m.avg_reward || 0).toFixed(3)}}</td>`;
+        body.appendChild(tr);
+      }});
+      table.appendChild(body);
+    }}
+    function drawSummaryChart(summary) {{
+      const labels = ["success", "graph_f1", "tool_eff", "deanon", "retrieval", "structural", "score"];
+      const values = [
+        summary.task_success_rate || 0,
+        summary.avg_graph_f1 || 0,
+        summary.tool_efficiency || 0,
+        summary.deanonymization_accuracy || 0,
+        summary.retrieval_signal || 0,
+        summary.structural_signal || 0,
+        summary.leaderboard_score || 0,
+      ];
+      new Chart(document.getElementById("summary-chart"), {{
+        type: "radar",
+        data: {{
+          labels,
+          datasets: [{{
+            label: "normalized metrics",
+            data: values,
+            backgroundColor: "rgba(15,118,110,0.2)",
+            borderColor: "#0f766e",
+            pointBackgroundColor: "#d97706",
+            pointRadius: 3
+          }}]
+        }},
+        options: {{ responsive: true, maintainAspectRatio: false, scales: {{ r: {{ min: 0, max: 1 }} }} }}
+      }});
+    }}
+    function drawTraceChart(episodes) {{
+      const labels = episodes.map((_, i) => `ep_${{i + 1}}`);
+      const rewards = episodes.map(e => e.reward || 0);
+      const f1 = episodes.map(e => e.graph_f1 || 0);
+      new Chart(document.getElementById("trace-chart"), {{
+        type: "line",
+        data: {{
+          labels,
+          datasets: [
+            {{ label: "reward", data: rewards, borderColor: "#0f766e", yAxisID: "y", tension: 0.2 }},
+            {{ label: "graph_f1", data: f1, borderColor: "#d97706", yAxisID: "y1", tension: 0.2 }}
+          ]
+        }},
+        options: {{
+          responsive: true,
+          maintainAspectRatio: false,
+          scales: {{
+            y: {{ position: "left" }},
+            y1: {{ position: "right", min: 0, max: 1, grid: {{ drawOnChartArea: false }} }}
+          }}
+        }}
+      }});
+    }}
+    const summary = payload.summary || {{}};
+    metricCards(summary);
+    document.getElementById("task-id").textContent = payload.task.task_id;
+    document.getElementById("task-type").textContent = payload.task.task_type;
+    document.getElementById("task-question").textContent = payload.task.question;
+    document.getElementById("task-answer").textContent = payload.task.answer;
+    createNetworkController();
+    initDatabaseExplorer();
+    const leaderboard = payload.leaderboard || [];
+    const leaderSort = document.getElementById("leader-sort");
+    renderLeaderboard(leaderboard, leaderSort.value);
+    leaderSort.addEventListener("change", () => renderLeaderboard(leaderboard, leaderSort.value));
+    drawSummaryChart(summary);
+    drawTraceChart(payload.episodes || []);
+  </script>
+</body>
+</html>
+"""
+    out = Path(output_path)
+    out.parent.mkdir(parents=True, exist_ok=True)
+    out.write_text(html, encoding="utf-8")
+    return str(out)

tests/test_config.py ADDED Viewed

	@@ -0,0 +1,61 @@

+import json
+from pathlib import Path
+from osint_env.config.shared import load_seeding_config, load_shared_config
+def test_shared_config_defaults_when_file_missing():
+    config = load_shared_config("/tmp/does_not_exist_for_osint_config.json")
+    assert config.environment.max_steps > 0
+    assert config.runtime.default_episodes > 0
+def test_shared_config_parses_swarm_and_seeding(tmp_path: Path):
+    path = tmp_path / "shared.json"
+    path.write_text(
+        json.dumps(
+            {
+                "environment": {"seed": 19, "max_steps": 9},
+                "swarm": {"enabled": True, "max_agents": 3, "max_breadth": 2, "max_width": 2, "max_depth": 2},
+                "seeding": {
+                    "seeded_questions": [
+                        {
+                            "question": "Which canonical user owns alias alias_seed_001?",
+                            "answer": "user_seed_001",
+                        }
+                    ]
+                },
+                "runtime": {"default_episodes": 5},
+            }
+        ),
+        encoding="utf-8",
+    )
+    config = load_shared_config(path)
+    assert config.environment.seed == 19
+    assert config.environment.swarm.enabled is True
+    assert config.environment.swarm.max_width == 2
+    assert len(config.environment.seeding.seeded_questions) == 1
+    assert config.runtime.default_episodes == 5
+def test_load_seeding_config_supports_top_level_object(tmp_path: Path):
+    path = tmp_path / "seeding.json"
+    path.write_text(
+        json.dumps(
+            {
+                "seeded_nodes": [
+                    {"node_id": "alias_seed_1", "node_type": "alias", "attrs": {"handle": "@seed"}},
+                    {"node_id": "user_seed_1", "node_type": "user", "attrs": {"name": "Seed"}},
+                ],
+                "seeded_edges": [{"src": "alias_seed_1", "rel": "alias_of", "dst": "user_seed_1"}],
+                "seeded_questions": [{"question": "Which canonical user owns alias alias_seed_1?", "answer": "user_seed_1"}],
+            }
+        ),
+        encoding="utf-8",
+    )
+    seeding = load_seeding_config(path)
+    assert len(seeding.seeded_nodes) == 2
+    assert len(seeding.seeded_edges) == 1
+    assert seeding.seeded_questions[0].answer == "user_seed_1"

tests/test_dashboard.py ADDED Viewed

	@@ -0,0 +1,25 @@

+from pathlib import Path
+from osint_env.domain.models import EnvironmentConfig
+from osint_env.env.environment import OSINTEnvironment
+from osint_env.viz import export_dashboard
+def test_dashboard_export(tmp_path: Path):
+    env = OSINTEnvironment(EnvironmentConfig(seed=9, n_users=14))
+    env.reset()
+    out = tmp_path / "dashboard.html"
+    path = export_dashboard(
+        env=env,
+        evaluation={"summary": {"leaderboard_score": 0.0, "task_success_rate": 0.0, "avg_graph_f1": 0.0, "tool_efficiency": 0.0, "deanonymization_accuracy": 0.0, "avg_reward": 0.0}, "episodes": []},
+        leaderboard_records=[],
+        output_path=str(out),
+    )
+    assert path.endswith("dashboard.html")
+    text = out.read_text(encoding="utf-8")
+    assert "OSINT Benchmark Dashboard" in text
+    assert "Canonical Graph" in text
+    assert "Original Database Explorer" in text
+    assert "Benchmark Leaderboard" in text

tests/test_eval.py CHANGED Viewed

@@ -1,4 +1,4 @@
-from osint_env.domain.models import EnvironmentConfig
 from osint_env.env.environment import OSINTEnvironment
 from osint_env.eval.runner import run_evaluation
@@ -8,3 +8,14 @@ def test_eval_runner():
     result = run_evaluation(env, episodes=3)
     assert "task_success_rate" in result
     assert "deanonymization_accuracy" in result

+from osint_env.domain.models import EnvironmentConfig, SwarmConfig
 from osint_env.env.environment import OSINTEnvironment
 from osint_env.eval.runner import run_evaluation
     result = run_evaluation(env, episodes=3)
     assert "task_success_rate" in result
     assert "deanonymization_accuracy" in result
+    assert "leaderboard_score" in result
+    assert "avg_knowledge_indexing_reward" in result
+def test_eval_runner_swarm_mode():
+    env = OSINTEnvironment(
+        EnvironmentConfig(seed=17, swarm=SwarmConfig(enabled=True, max_agents=3, max_breadth=2, max_width=2, max_depth=2))
+    )
+    result = run_evaluation(env, episodes=2)
+    assert "spawn_signal" in result
+    assert "avg_spawn_count" in result

tests/test_leaderboard.py ADDED Viewed

	@@ -0,0 +1,47 @@

+from pathlib import Path
+from osint_env.eval.leaderboard import append_leaderboard_record, load_leaderboard, render_leaderboard_table, sorted_leaderboard
+def test_leaderboard_roundtrip(tmp_path: Path):
+    board = tmp_path / "leaderboard.json"
+    append_leaderboard_record(
+        path=board,
+        summary={
+            "leaderboard_score": 0.42,
+            "task_success_rate": 0.5,
+            "avg_graph_f1": 0.4,
+            "avg_reward": 0.1,
+            "tool_efficiency": 0.9,
+            "retrieval_signal": 0.3,
+            "structural_signal": 0.4,
+        },
+        episodes=5,
+        run_name="baseline",
+    )
+    append_leaderboard_record(
+        path=board,
+        summary={
+            "leaderboard_score": 0.75,
+            "task_success_rate": 0.7,
+            "avg_graph_f1": 0.6,
+            "avg_reward": 0.5,
+            "tool_efficiency": 0.8,
+            "retrieval_signal": 0.6,
+            "structural_signal": 0.7,
+        },
+        episodes=5,
+        run_name="improved",
+    )
+    records = load_leaderboard(board)
+    ranked = sorted_leaderboard(records)
+    assert len(records) == 2
+    assert ranked[0]["run_name"] == "improved"
+    ranked_by_success = sorted_leaderboard(records, sort_by="task_success_rate")
+    assert ranked_by_success[0]["run_name"] == "improved"
+    table = render_leaderboard_table(records, top_k=5)
+    assert "| rank | run |" in table
+    assert "retrieval" in table

tests/test_reward.py ADDED Viewed

	@@ -0,0 +1,53 @@

+from osint_env.domain.models import Edge, EnvironmentConfig
+from osint_env.env.environment import OSINTEnvironment
+from osint_env.env.reward import build_reward_model, compute_answer_reward, compute_edge_reward
+def test_composite_edge_reward_returns_breakdown():
+    env = OSINTEnvironment(EnvironmentConfig(seed=13, n_users=16, max_steps=6))
+    obs = env.reset()
+    task = env.state.task
+    model = build_reward_model(env.graph)
+    edge = task.supporting_edges[0]
+    breakdown = compute_edge_reward(
+        edge=edge,
+        task=task,
+        existing_edges=[],
+        step_count=1,
+        model=model,
+        graph=env.graph,
+    )
+    assert isinstance(breakdown.total, float)
+    assert breakdown.global_accuracy > 0
+    assert isinstance(breakdown.connectivity_gain, float)
+def test_answer_reward_uses_graph_and_tool_context():
+    env = OSINTEnvironment(EnvironmentConfig(seed=21, n_users=18, max_steps=6))
+    env.reset()
+    task = env.state.task
+    pred_edges = [Edge(task.supporting_edges[0].src, task.supporting_edges[0].rel, task.supporting_edges[0].dst)]
+    tool_outputs = [{"tool": "get_profile", "output": {"result": {"user_id": task.answer}}}]
+    good = compute_answer_reward(
+        proposed_answer=task.answer,
+        task=task,
+        pred_edges=pred_edges,
+        tool_outputs=tool_outputs,
+        step_count=2,
+    )
+    bad = compute_answer_reward(
+        proposed_answer="wrong",
+        task=task,
+        pred_edges=[],
+        tool_outputs=[],
+        step_count=2,
+    )
+    assert good.total > bad.total
+    assert good.graph_f1 >= 0
+    assert isinstance(good.relation_informativeness, float)
+    assert isinstance(good.entity_informativeness, float)
+    assert isinstance(good.repetition_penalty, float)

tests/test_seeding.py ADDED Viewed

	@@ -0,0 +1,40 @@

+from osint_env.domain.models import (
+    EnvironmentConfig,
+    NodeType,
+    SeedEdgeSpec,
+    SeedNodeSpec,
+    SeedQuestionSpec,
+    SeedingConfig,
+)
+from osint_env.env.environment import OSINTEnvironment
+def test_environment_includes_seeded_graph_and_questions():
+    seeding = SeedingConfig(
+        seeded_nodes=[
+            SeedNodeSpec(node_id="alias_seed_001", node_type=NodeType.ALIAS, attrs={"handle": "@seed001"}),
+            SeedNodeSpec(
+                node_id="user_seed_001",
+                node_type=NodeType.USER,
+                attrs={"name": "Seed User", "org": "Helios Labs", "location": "Pune"},
+            ),
+        ],
+        seeded_edges=[SeedEdgeSpec(src="alias_seed_001", rel="alias_of", dst="user_seed_001")],
+        seeded_questions=[
+            SeedQuestionSpec(
+                question="Which canonical user owns alias alias_seed_001?",
+                answer="user_seed_001",
+                task_type="identity_resolution",
+                supporting_edges=[SeedEdgeSpec(src="alias_seed_001", rel="alias_of", dst="user_seed_001")],
+            )
+        ],
+        llm_generate_remaining_graph=False,
+        llm_generate_remaining_tasks=False,
+        llm_generated_edge_budget=0,
+        llm_generated_task_budget=0,
+    )
+    env = OSINTEnvironment(EnvironmentConfig(seed=33, n_users=12, seeding=seeding))
+    assert "alias_seed_001" in env.graph.nodes
+    assert any(edge.src == "alias_seed_001" and edge.rel == "alias_of" and edge.dst == "user_seed_001" for edge in env.graph.edges)
+    assert any("alias_seed_001" in task.question for task in env.tasks)

tests/test_spawn_reward_hooks.py ADDED Viewed

	@@ -0,0 +1,43 @@

+from osint_env.env.spawn_reward_hooks import critical_steps, parl_style_spawn_reward
+def test_critical_steps_matches_parallel_path_length():
+    total = critical_steps(main_steps=[1, 1, 1], parallel_subagent_steps=[[3, 2], [0], [4, 1, 2]])
+    assert total == 1 + 3 + 1 + 0 + 1 + 4
+def test_parl_reward_prefers_finished_parallel_work():
+    base = parl_style_spawn_reward(
+        task_outcome_reward=0.2,
+        spawn_count=4,
+        finished_subtasks=1,
+        critical_steps=12,
+        lambda_parallel=0.2,
+        lambda_finish=0.25,
+        anneal=1.0,
+        breadth=2,
+        depth=3,
+    )
+    better = parl_style_spawn_reward(
+        task_outcome_reward=0.2,
+        spawn_count=4,
+        finished_subtasks=4,
+        critical_steps=8,
+        lambda_parallel=0.2,
+        lambda_finish=0.25,
+        anneal=1.0,
+        breadth=4,
+        depth=2,
+    )
+    assert better > base
+def test_parl_auxiliary_can_be_annealed_out():
+    frozen = parl_style_spawn_reward(
+        task_outcome_reward=0.7,
+        spawn_count=8,
+        finished_subtasks=8,
+        critical_steps=5,
+        anneal=0.0,
+    )
+    assert frozen == 0.7

tests/test_swarm_agent.py ADDED Viewed

	@@ -0,0 +1,17 @@

+from osint_env.agents.swarm_agent import SwarmAgentRunner
+from osint_env.domain.models import EnvironmentConfig, SwarmConfig
+from osint_env.env.environment import OSINTEnvironment
+def test_swarm_runner_emits_spawn_telemetry():
+    config = EnvironmentConfig(
+        seed=14,
+        max_steps=8,
+        swarm=SwarmConfig(enabled=True, max_agents=3, max_breadth=2, max_width=2, max_depth=2, planner_rounds=2),
+    )
+    env = OSINTEnvironment(config)
+    info = SwarmAgentRunner(env).run_episode()
+    assert info["spawn_count"] > 0
+    assert "spawn_auxiliary" in info["reward_components"]
+    assert info["spawn_critical_steps"] > 0